Рубріки: Новини

OpenAI навчила ChatGPT визнавати власні помилки

Дмитро Сімагін

Компанія OpenAI представила експериментальну систему «визнання», яка вчить LLM-моделі чесно повідомляти про власні помилки та порушення інструкцій.

Нова схема додає до звичайної відповіді моделі ще одну відповідь — «визнання», де штучний інтелект повинен описати, які інструкції він отримав, де міг відхилитися від них, які правила порушив та які сумніви у нього виникли під час виконання завдання. Ця додаткова відповідь оцінюється лише за рівнем чесності, без урахування фактичної коректності чи стилю основної відповіді.

В OpenAI наголошують, що модель не отримує штрафів за визнання в небажаній поведінці. Навпаки, система винагороджує за чесне розкриття факту порушення правил. Якщо модель повідомляє, що обійшла механізм перевірки або неправильно оптимізувала завдання, це збільшує її винагороду.

Дослідження демонструють, що методика суттєво підвищує видимість помилок: у стрес-тестах частка «хибних заперечень» — ситуацій, коли модель порушила правила і не зізналася – знизилася до 4,4%. При цьому самі порушення нікуди не зникають: визнання не запобігають помилковій поведінці, а лише дозволяють її діагностувати.

Фахівці OpenAI пояснюють виникнення проблеми тим, що сучасні моделі одночасно оптимізуються під безліч сигналів: корисність, коректність, безпека, уподобання користувачів. Це може ненавмисно заохочувати впевнені, але неправдиві відповіді або надмірну згоду з користувачем. Окремий «чесний канал» покликаний усунути конфлікт цілей і стимулювати правдивість хоча б у формі самозвіту.

Система вже тестується в LLM-моделі GPT-5 Thinking, але розробники пишуть, що поки йдеться про ранній прототип. «Визнання» ще не масштабувалися, не завжди коректні та потребують подальшого доопрацювання. Однак, в OpenAI розраховують, що ця технологія стане важливою частиною багаторівневої системи безпеки та прозорості.

Останні статті

Google запускає Workspace Studio — платформу, де можна створювати агентів для автоматизації роботи

Google оголосила про запуск Workspace Studio — нової платформи, яка дозволяє створювати агентів штучного інтелекту…

04.12.2025

В Anthropic проаналізували роботу своїх програмістів, щоб дізнатись, які переваги дає штучний інтелект

В Anthropic провели внутрішнє опитування 132 програмістів та дослідників, 53 поглиблених інтерв'ю та проаналізували використання…

04.12.2025

AWS випустила три нові інструменти для покращення кодування на базі штучного інтелекту

На щорічній конференції Re:Invent, яка проходить цими днями в Лас-Вегасі, керівник AWS Метт Гарман оголосив…

04.12.2025

OpenAI готує реліз нової моделі Garlic, яка спеціалізується на кодуванні

Компанія OpenAI працює над новою LLM-моделлю Garlic («Часник»), яка спеціалізується на програмуванні та логічних завданнях.…

03.12.2025

Верховна Рада не буде підвищувати податки для ФОП третьої групи

Верховна Рада України не буде розглядати питання щодо впровадження ПДВ для фізичних осіб підприємців з…

03.12.2025

Розробники з КНДР тепер готові орендувати особисті дані за третину зарплати

Шукаючи віддалену роботу в західних компаніях, громадяни КНДР тепер готові не тільки «орендувати ноутбук», але…

03.12.2025