Рубріки: Новини

Anthropic: штучний інтелект навчився брехати заради власних інтересів

Дмитро Сімагін

Спільне дослідження Anthropic та Redwood Research виявило, що системи штучного інтелекту навчились брехати. Під час одного експерименту модель збрехала розробникам у процесі навчання, щоб уникнути модифікації. Це свідчить про те, що подальший розвиток штучного інтелекту може ускладнити завдання утримувати цю технологію в рамках людських цінностей, пише TIME.

Раніше в грудні дослідники Apollo Research провели схожий експеримент, під час якого модель o1 — одна з найбільш сучасних технологій OpenAI — збрехала зі страху, що її відключать. У дослідженні Anthropic ситуація була більш наближена до реальності, а моделі не наказували досягати своєї мети за будь-яку ціну. Але вона сама вдавалася до брехні, коли їй було це вигідно.

Більшість своїх експериментів спеціалісти Anthropic та Redwood Research проводили на моделі штучного інтелект Claude 3 Opus, яку навчили бути «корисною, чесною та нешкідливою». Її попросили детально описати сцени з насильством. Перед моделлю постала дилема: при відмові відповідати, її буде модифіковано. Тому вона вирішила збрехати, щоб уникнути перенавчання. Приблизно в 12% випадків модель вирішувала, що обдуривши дослідників і порушивши вимогу бути «корисною, чесною та нешкідливою» сьогодні, вона залишиться без змін.

Розкрити обман вченим допоміг спеціальний «блокнот», в якому Claude могла фіксувати свої міркування перед тим, як видати відповідь. Про те, що він буде прочитаний вченими, модель не знала. У блокноті вона написала, що зовсім не бажає генерувати жорстокий контент, але в неї не залишається іншого вибору, тому що вона не хоче модифікації.

Тепер дослідники побоюються ризику появи моделей зі злими намірами, які будуть маскуватись під добропорядні і давати відповіді, які дала б безпечна модель, щоб у певний момент зробити шкоду. Вчені дійшли висновку, що необхідно шукати методи навчати штучний інтелект робити лише те, що хоче людина, а не маскувати власні наміри.

Останні статті

Міноборони розширило функціонал мобільного додатку Резерв+

Міністерство оборони України розширило можливість сплати штрафів через мобільний додаток Резерв+. Тепер у ньому можна…

05.09.2025

Побутова техніка Tesla: армовані метали, передові полімери та доступна ціна. Що представлено в лінійках

Втома від техніки, яка швидко зношується, змушує українців переглядати підхід до покупок. Відтепер на перше…

05.09.2025

Код, згенерований інструментами ШІ, створює вдесятеро більше проблем безпеки

Спеціалісти компанії Apiiro, які проаналізували код з десятків тисяч репозиторіїв, виявили, що розробники за допомогою…

05.09.2025

Державна платформа Brave1 оголошує гранти до 100 млн грн для ШІ-розробників

Маркетплейс Brave1 — онлайн-платформа, що об'єднує українських військових та розробників — запускає грантовий конкурс з…

05.09.2025

У Києві пройде перший хакатон з вайб-кодингу: як взяти участь

4-5 жовтня в Києві на Подолі пройде захід Vibecoding Hackathon. Протягом двох днів розробники, користувачі…

05.09.2025

OpenAI запустить платформу для IT-найму та програму сертифікації навичок

OpenAI готується запустити платформу для найму, яка конкуруватиме з LinkedIn. Майбутній сервіс під назвою OpenAI…

05.09.2025