Anthropic: штучний інтелект навчився брехати заради власних інтересів
Спільне дослідження Anthropic та Redwood Research виявило, що системи штучного інтелекту навчились брехати. Під час одного експерименту модель збрехала розробникам у процесі навчання, щоб уникнути модифікації. Це свідчить про те, що подальший розвиток штучного інтелекту може ускладнити завдання утримувати цю технологію в рамках людських цінностей, пише TIME.
Раніше в грудні дослідники Apollo Research провели схожий експеримент, під час якого модель o1 — одна з найбільш сучасних технологій OpenAI — збрехала зі страху, що її відключать. У дослідженні Anthropic ситуація була більш наближена до реальності, а моделі не наказували досягати своєї мети за будь-яку ціну. Але вона сама вдавалася до брехні, коли їй було це вигідно.
Більшість своїх експериментів спеціалісти Anthropic та Redwood Research проводили на моделі штучного інтелект Claude 3 Opus, яку навчили бути «корисною, чесною та нешкідливою». Її попросили детально описати сцени з насильством. Перед моделлю постала дилема: при відмові відповідати, її буде модифіковано. Тому вона вирішила збрехати, щоб уникнути перенавчання. Приблизно в 12% випадків модель вирішувала, що обдуривши дослідників і порушивши вимогу бути «корисною, чесною та нешкідливою» сьогодні, вона залишиться без змін.
Розкрити обман вченим допоміг спеціальний «блокнот», в якому Claude могла фіксувати свої міркування перед тим, як видати відповідь. Про те, що він буде прочитаний вченими, модель не знала. У блокноті вона написала, що зовсім не бажає генерувати жорстокий контент, але в неї не залишається іншого вибору, тому що вона не хоче модифікації.
Тепер дослідники побоюються ризику появи моделей зі злими намірами, які будуть маскуватись під добропорядні і давати відповіді, які дала б безпечна модель, щоб у певний момент зробити шкоду. Вчені дійшли висновку, що необхідно шукати методи навчати штучний інтелект робити лише те, що хоче людина, а не маскувати власні наміри.
Microsoft вперше опублікувала детальні системні вимоги до ігрових ПК під Windows 11, розділивши їх на…
За останній квартал в Україні вдвічі збільшилась кількість miltech-вакансій. Зараз на Djinni розміщено 360 вакансій…
Google готується додати в Android 17 нову функцію блокування окремих застосунків, ймовірно, за допомогою пароля…
Навіть приріст у +82% заяв на окремі технічні спеціальності не покриває потреби ринку. На окремі…
Шевченківський районний суд міста Чернівці почав розгляд справи студента 2-го курсу факультету інформатики та обчислювальної…
Реакція експертів на нову LLM-модель GPT-5.2 від OpenAI, малює двояку картину: реліз названо великим кроком…