Рубріки: Новини

OpenAI навчила ChatGPT визнавати власні помилки

Дмитро Сімагін

Компанія OpenAI представила експериментальну систему «визнання», яка вчить LLM-моделі чесно повідомляти про власні помилки та порушення інструкцій.

Нова схема додає до звичайної відповіді моделі ще одну відповідь — «визнання», де штучний інтелект повинен описати, які інструкції він отримав, де міг відхилитися від них, які правила порушив та які сумніви у нього виникли під час виконання завдання. Ця додаткова відповідь оцінюється лише за рівнем чесності, без урахування фактичної коректності чи стилю основної відповіді.

В OpenAI наголошують, що модель не отримує штрафів за визнання в небажаній поведінці. Навпаки, система винагороджує за чесне розкриття факту порушення правил. Якщо модель повідомляє, що обійшла механізм перевірки або неправильно оптимізувала завдання, це збільшує її винагороду.

Дослідження демонструють, що методика суттєво підвищує видимість помилок: у стрес-тестах частка «хибних заперечень» — ситуацій, коли модель порушила правила і не зізналася – знизилася до 4,4%. При цьому самі порушення нікуди не зникають: визнання не запобігають помилковій поведінці, а лише дозволяють її діагностувати.

Фахівці OpenAI пояснюють виникнення проблеми тим, що сучасні моделі одночасно оптимізуються під безліч сигналів: корисність, коректність, безпека, уподобання користувачів. Це може ненавмисно заохочувати впевнені, але неправдиві відповіді або надмірну згоду з користувачем. Окремий «чесний канал» покликаний усунути конфлікт цілей і стимулювати правдивість хоча б у формі самозвіту.

Система вже тестується в LLM-моделі GPT-5 Thinking, але розробники пишуть, що поки йдеться про ранній прототип. «Визнання» ще не масштабувалися, не завжди коректні та потребують подальшого доопрацювання. Однак, в OpenAI розраховують, що ця технологія стане важливою частиною багаторівневої системи безпеки та прозорості.

Останні статті

Модератори ледь справляються. Число публікацій нових програм в App Store і Google Play різко зросло

Чутки про занепад ери мобільних додатків виявилися передчасними. Нові дані свідчать про те, що ринок…

20.04.2026

YouTube Premium більше не потрібен? Microsoft переграла Google у питанні фонового відео

Поки Google веде агресивну кампанію з просування платних підписок, розробники Microsoft знайшли спосіб повернути одну…

20.04.2026

Вайб-кодери скаржаться, що Claude Opus 4.7 витрачає токени набагато швидше, хоча тарифи не змінились

Здається, в Anthropic вирішили залишити цінник на вітрині старим, але зменшити розмір порції. Програмісти масово…

20.04.2026

Кінець епохи графічних редакторів? Claude Design малює макет за секунди

Компанія Anthropic офіційно представила Claude Design — інноваційний інструмент від підрозділу Anthropic Labs, який дозволяє…

20.04.2026

Оновлений Codex Desktop отримав 90+ плагінів, SSH та вбудований браузер

Компанія OpenAI представила масштабне оновлення свого десктопного застосунку Codex. Воно перетворює інструмент з простого помічника…

17.04.2026

Робочий експлойт за ціною вживаного авто: Claude Opus зламав захист Google Chrome за $2283

Модель штучного інтелекту Claude Opus 4.6 від компанії Anthropic продемонструвала здатність створювати функціональні експлойти для…

17.04.2026