Рубріки: Новини

OpenAI навчила ChatGPT визнавати власні помилки

Дмитро Сімагін

04.12.2025 15:37

Компанія OpenAI представила експериментальну систему «визнання», яка вчить LLM-моделі чесно повідомляти про власні помилки та порушення інструкцій.

Нова схема додає до звичайної відповіді моделі ще одну відповідь — «визнання», де штучний інтелект повинен описати, які інструкції він отримав, де міг відхилитися від них, які правила порушив та які сумніви у нього виникли під час виконання завдання. Ця додаткова відповідь оцінюється лише за рівнем чесності, без урахування фактичної коректності чи стилю основної відповіді.

В OpenAI наголошують, що модель не отримує штрафів за визнання в небажаній поведінці. Навпаки, система винагороджує за чесне розкриття факту порушення правил. Якщо модель повідомляє, що обійшла механізм перевірки або неправильно оптимізувала завдання, це збільшує її винагороду.

Дослідження демонструють, що методика суттєво підвищує видимість помилок: у стрес-тестах частка «хибних заперечень» — ситуацій, коли модель порушила правила і не зізналася – знизилася до 4,4%. При цьому самі порушення нікуди не зникають: визнання не запобігають помилковій поведінці, а лише дозволяють її діагностувати.

Фахівці OpenAI пояснюють виникнення проблеми тим, що сучасні моделі одночасно оптимізуються під безліч сигналів: корисність, коректність, безпека, уподобання користувачів. Це може ненавмисно заохочувати впевнені, але неправдиві відповіді або надмірну згоду з користувачем. Окремий «чесний канал» покликаний усунути конфлікт цілей і стимулювати правдивість хоча б у формі самозвіту.

Система вже тестується в LLM-моделі GPT-5 Thinking, але розробники пишуть, що поки йдеться про ранній прототип. «Визнання» ще не масштабувалися, не завжди коректні та потребують подальшого доопрацювання. Однак, в OpenAI розраховують, що ця технологія стане важливою частиною багаторівневої системи безпеки та прозорості.

Наступна стаття Amazon дозволить стартапам безкоштовно користуватись інструментом кодування Kiro Pro+. Але не всім »

попередня стаття « Google запускає Workspace Studio — платформу, де можна створювати агентів для автоматизації роботи

Дмитро Сімагін

Теги: ChatGPTLLM-модельopenAI

04.12.2025 15:37

Останні статті

Новини

Sony відмовляється від релізів ігор PlayStation на ПК

Компанія Sony Interactive Entertainment прийняла стратегічне рішення про перегляд свого підходу до портування ексклюзивів, віддаючи…

04.03.2026

Новини

Microsoft хоче стягувати щомісячну плату за використання агентів в офісних програмах

Серед топ-менеджерів великих компаній активно ширяться чутки про те, що Microsoft готує до запуску новий,…

04.03.2026

Новини

Google додає в Android «фішки» Apple: тепер можна ділитися своїм місцезнаходженням в повідомленнях

Компанія Google зробила великий крок назустріч естетиці та функціональності екосистеми Apple, анонсувавши масштабне оновлення Android.…

04.03.2026

Новини

Anthropic запускає голосовий режим для Claude Code

Компанія Anthropic оголосила про поступове розгортання оновлення для Claude Code — інтерфейсу командного рядка (CLI)…

04.03.2026

Новини

Google попереджає про експлойт Coruna: полює на українських користувачів iPhone

Експерти з безпеки Google виявили складний і небезпечний набір експлойтів для зламу пристроїв на базі…

04.03.2026

Новини

OpenAI розробляє власного конкурента GitHub

Компанія OpenAI розробляє власну платформу для програмістів. За повідомленнями інсайдерів, вона має стати прямим конкурентом…

04.03.2026

OpenAI навчила ChatGPT визнавати власні помилки

Схожі статті

Останні статті

Sony відмовляється від релізів ігор PlayStation на ПК

Microsoft хоче стягувати щомісячну плату за використання агентів в офісних програмах

Google додає в Android «фішки» Apple: тепер можна ділитися своїм місцезнаходженням в повідомленнях

Anthropic запускає голосовий режим для Claude Code

Google попереджає про експлойт Coruna: полює на українських користувачів iPhone

OpenAI розробляє власного конкурента GitHub