Рубріки: Новини

Anthropic: штучний інтелект навчився брехати заради власних інтересів

Дмитро Сімагін

Спільне дослідження Anthropic та Redwood Research виявило, що системи штучного інтелекту навчились брехати. Під час одного експерименту модель збрехала розробникам у процесі навчання, щоб уникнути модифікації. Це свідчить про те, що подальший розвиток штучного інтелекту може ускладнити завдання утримувати цю технологію в рамках людських цінностей, пише TIME.

Раніше в грудні дослідники Apollo Research провели схожий експеримент, під час якого модель o1 — одна з найбільш сучасних технологій OpenAI — збрехала зі страху, що її відключать. У дослідженні Anthropic ситуація була більш наближена до реальності, а моделі не наказували досягати своєї мети за будь-яку ціну. Але вона сама вдавалася до брехні, коли їй було це вигідно.

Більшість своїх експериментів спеціалісти Anthropic та Redwood Research проводили на моделі штучного інтелект Claude 3 Opus, яку навчили бути «корисною, чесною та нешкідливою». Її попросили детально описати сцени з насильством. Перед моделлю постала дилема: при відмові відповідати, її буде модифіковано. Тому вона вирішила збрехати, щоб уникнути перенавчання. Приблизно в 12% випадків модель вирішувала, що обдуривши дослідників і порушивши вимогу бути «корисною, чесною та нешкідливою» сьогодні, вона залишиться без змін.

Розкрити обман вченим допоміг спеціальний «блокнот», в якому Claude могла фіксувати свої міркування перед тим, як видати відповідь. Про те, що він буде прочитаний вченими, модель не знала. У блокноті вона написала, що зовсім не бажає генерувати жорстокий контент, але в неї не залишається іншого вибору, тому що вона не хоче модифікації.

Тепер дослідники побоюються ризику появи моделей зі злими намірами, які будуть маскуватись під добропорядні і давати відповіді, які дала б безпечна модель, щоб у певний момент зробити шкоду. Вчені дійшли висновку, що необхідно шукати методи навчати штучний інтелект робити лише те, що хоче людина, а не маскувати власні наміри.

Останні статті

CEO Google обіцяє збільшувати штат програмістів, незважаючи на штучний інтелект

Сундар Пічаї, який очолює Google з 2015 року, заявив, що його компанія продовжуватиме збільшувати число…

05.06.2025

«Ринок переповнений пропозиціями з України». Чому українські провайдери здають в оренду власні IPv4-адреси

Українські телекомунікаційні компанії та провайдери масово здають в оренду IPv4-адреси, які свого часу були виділені…

05.06.2025

ChatGPT отримав доступ до хмарних документів та сторонніх дослідницьких інструментів

У ChatGPT додали конектори для підключення до хмарних сервісів, таких як Google Drive, Box, Dropbox,…

05.06.2025

У Запоріжжі затримано 35-річного хакера, який зламав 5000 хостинг-акаунтів для майнінгу криптовалют

Співробітники управління Кіберполіції НПУ в Запорізькій області затримали 35-річного хакера, який зламав 5000 хостинг-акаунтів і…

05.06.2025

Apple відмовляється від розробки на Java, віддаючи перевагу Swift

Внутрішня команда розробників Apple у новому тематичному дослідженні виявила, що «підхід Java до управління пам’яттю…

05.06.2025

Юлія Штукатурова стала новою керівницею європейського регіону в GlobalLogic

Компанія GlobalLogic заявила, що європейський регіон відтепер очолюватиме Юлія Штукатурова, повідомили в DOU. У GlobalLogic Юлія…

04.06.2025