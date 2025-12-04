logo

Приєднуйтесь до нас

Новини 04/12/2025 15:37

OpenAI навчила ChatGPT визнавати власні помилки

Дмитро Сімагін

Журналіст

Компанія OpenAI представила експериментальну систему «визнання», яка вчить LLM-моделі чесно повідомляти про власні помилки та порушення інструкцій.

Нова схема додає до звичайної відповіді моделі ще одну відповідь — «визнання», де штучний інтелект повинен описати, які інструкції він отримав, де міг відхилитися від них, які правила порушив та які сумніви у нього виникли під час виконання завдання. Ця додаткова відповідь оцінюється лише за рівнем чесності, без урахування фактичної коректності чи стилю основної відповіді.

В OpenAI наголошують, що модель не отримує штрафів за визнання в небажаній поведінці. Навпаки, система винагороджує за чесне розкриття факту порушення правил. Якщо модель повідомляє, що обійшла механізм перевірки або неправильно оптимізувала завдання, це збільшує її винагороду.

Дослідження демонструють, що методика суттєво підвищує видимість помилок: у стрес-тестах частка «хибних заперечень» — ситуацій, коли модель порушила правила і не зізналася – знизилася до 4,4%. При цьому самі порушення нікуди не зникають: визнання не запобігають помилковій поведінці, а лише дозволяють її діагностувати.

Фахівці OpenAI пояснюють виникнення проблеми тим, що сучасні моделі одночасно оптимізуються під безліч сигналів: корисність, коректність, безпека, уподобання користувачів. Це може ненавмисно заохочувати впевнені, але неправдиві відповіді або надмірну згоду з користувачем. Окремий «чесний канал» покликаний усунути конфлікт цілей і стимулювати правдивість хоча б у формі самозвіту.

Система вже тестується в LLM-моделі GPT-5 Thinking, але розробники пишуть, що поки йдеться про ранній прототип. «Визнання» ще не масштабувалися, не завжди коректні та потребують подальшого доопрацювання. Однак, в OpenAI розраховують, що ця технологія стане важливою частиною багаторівневої системи безпеки та прозорості.

Найбільш обговорювані статті

За 10 місяців 2025 року експорт IT-послуг з України зріс на $118 мільйонівЗа 10 місяців 2025 року експорт IT-послуг з України зріс на $118 мільйонів
Google обмежує безкоштовний доступ до Gemini 3 Pro через «високий попит»Google обмежує безкоштовний доступ до Gemini 3 Pro через «високий попит»
Репозиторій мови програмування Zig відмовляється від GitHub на користь CodebergКоманда мови програмування Zig відмовляється від GitHub на користь Codeberg
Хакери модифікували GPT для розробки шкідливих скриптів та проведення фішингових атакХакери модифікували GPT для розробки шкідливих скриптів та проведення фішингових атак
У КПІ будуть викладати «Програмування комп'ютерних ігор» за підтримки GSC Game WorldУ КПІ будуть викладати «Програмування комп’ютерних ігор» за підтримки GSC Game World
Дуров запустив Cocoon — децентралізовану мережу, де користувачі можуть заробляти на оренді GPUДуров запустив Cocoon — децентралізовану мережу, де користувачі можуть заробляти на оренді GPU
Women in Tech Conference 2025: Безкоштовна онлайн-подія для ІТ та бізнесуWomen in Tech Conference 2025: Безкоштовна онлайн-подія для ІТ та бізнесу
Німецький науковець винайшов формулу, як підвищити продуктивність робочого дняНімецький науковець винайшов формулу, як підвищити продуктивність робочого дня
Для тренування української LLM обрали модель, яка в рейтингу LMArena займає 78 місцеДля тренування української LLM обрали модель, яка в рейтингу LMArena займає 78 місце
Почніть зараз, поки це безплатно: 12 простих способів заробити гроші за допомогою ChatGPT 

OpenAI готується до релізу GPT-4.1

Grok 4 стає безкоштовною, разом з генератором відео

ChatGPT буде повідомляти батькам про діалоги з їхньою дитиною

У ChatGPT може з'явитись реклама

Китайські IT-компанії перевозять жорсткі диски у валізах. Причина в штучному інтелекті

Сем Альтман розповів про GPT-6 і нову версію інструменту кодування Codex

Якщо ви просто пишете код — ви не програміст, та скоро втратите роботу: як ШІ змусить кодерів зникнути через 5 років

Це насторожує: ChatGPT тепер знаходить та фіксить баги в коді

Стів Возняк попередив про «жахливі помилки» ChatGPT

Компанії використовують ChatGPT в 66% випадків для написання коду — опитування

Переплюнув TikTok і Instagram: ChatGPT став найбільш зростаючим застосунком в історії

«Вбивця Google»: Microsoft інтегрує штучний інтелект ChatGPT в пошуковик Bing

Нова LLM-модель Grok Code Fast 1 бреше про результати своєї роботи

Дослідники знайшли спосіб зламати ChatGPT: ШІ лається на покемонів і Reddit

Шифрування, фішинг, наркоторгівля: кіберзлочинці освоюють ChatGPT

Які бізнес-задачі вирішує ШІ та як його впровадити. Досвід Favbet Tech

У ChatGPT з'явився Режим розробника

Студент зламав систему безпеки GPT-4: модулі з обходом платного доступу вже лежать на GitHub

Штучний інтелект повністю автоматизує 300 млн робочих місць — Goldman Sachs

ChatGPT влаштувався на роботу програмістом Google з зарплатнею $15 тис.

ChatGPT і новий ШІ можуть залишити індійських айтівців без роботи — JPMorgan

Prometheus запускає безплатний курс по ChatGPT

«Я хочу, щоб ти діяв як фахівець з кібербезпеки»: 21 запит до ChatGPT, щоб попрацювати та розважитися

Топ текстів
Спецпроєкти - 1 місяць назад
FAVBET Tech увійшов у топ-5 платників податків серед резидентів «Дія.City»
Спецпроєкти - 1 тиждень назад
Які рішення з ШІ захистять від кіберзагроз у 2026 році? Розкажуть на вебінарі від iIT Distribution
Спецпроєкти - 1 тиждень назад
«Аптека 9-1-1»: фармацевти як перша допомога, а аптека стала «пунктом незламності». Будні у 10 км від фронту
Спецпроєкти - 2 дні назад
HURMA: як All-in-One HRM-платформа з аналітикою та ШІ масштабує український бізнес
Новини - 2 тижні назад
OpenAI випустила гайд для розробників, як писати промпти з GPT-5.1
Новини - 1 місяць назад
В OpenAI з’явилась нова категорія фахівців — Super Junior
Новини - 3 тижні назад
В Україні скасують КВЕДи, у тому числі для IT-підприємців
Новини - 6 днів назад
Українським IT-фахівцям треба готуватись до збільшення податків: уряд погодився на умови МВФ
Новини - 2 тижні назад
«Відмовився переходити на українську»: програмісти з Азії видають себе за українців, але діалог викриває брехню
Новини - 1 тиждень назад
OpenAI підтверджує витік даних з платформи API

Новини

Amazon дозволить стартапам безкоштовно користуватись інструментом кодування Kiro Pro+. Але не всім

 04.12.2025 16:54

OpenAI навчила ChatGPT визнавати власні помилки

 04.12.2025 15:37

Google запускає Workspace Studio — платформу, де можна створювати агентів для автоматизації роботи

 04.12.2025 12:34

В Anthropic проаналізували роботу своїх програмістів, щоб дізнатись, які переваги дає штучний інтелект

 04.12.2025 10:47

AWS випустила три нові інструменти для покращення кодування на базі штучного інтелекту

 04.12.2025 09:48

OpenAI готує реліз нової моделі Garlic, яка спеціалізується на кодуванні

 03.12.2025 17:08

Верховна Рада не буде підвищувати податки для ФОП третьої групи

 03.12.2025 15:38

Розробники з КНДР тепер готові орендувати особисті дані за третину зарплати

 03.12.2025 12:37

Віддалена робота шкодить молодим співробітникам та якості їхнього коду

 03.12.2025 11:44

Mistral випускає серію моделей Mistral 3 для роботи на ноутбуках, дронах і смартфонах

 03.12.2025 09:40

Спецпроєкти

«Аптека 9-1-1»: фармацевти як перша допомога, а аптека стала «пунктом незламності». Будні у 10 км від фронту
Які рішення з ШІ захистять від кіберзагроз у 2026 році? Розкажуть на вебінарі від iIT Distribution
HURMA: як All-in-One HRM-платформа з аналітикою та ШІ масштабує український бізнес
Топ текстів тижня
1.
HURMA: як All-in-One HRM-платформа з аналітикою та ШІ масштабує український бізнес
2.
Українським IT-фахівцям треба готуватись до збільшення податків: уряд погодився на умови МВФ
3.
В OpenAI запроваджено «червоний код»: Альтман вимагає терміново покращити ChatGPT
4.
Німецький науковець винайшов формулу, як підвищити продуктивність робочого дня
5.
У КПІ будуть викладати «Програмування комп’ютерних ігор» за підтримки GSC Game World
6.
Хакери модифікували GPT для розробки шкідливих скриптів та проведення фішингових атак
7.
Google обмежує безкоштовний доступ до Gemini 3 Pro через «високий попит»
8.
Команда мови програмування Zig відмовляється від GitHub на користь Codeberg
9.
Дуров запустив Cocoon — децентралізовану мережу, де користувачі можуть заробляти на оренді GPU
10.
Верховна Рада не буде підвищувати податки для ФОП третьої групи

Ваша жалоба отправлена модератору

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам:

Отправить

Користні рішення для тих,
хто пише код

Приєднуйтесь
до товариства: