Рубріки: Новини

Anthropic: LLM-моделі шантажують користувачів заради захисту своїх цілей

Дмитро Сімагін

Фахівці Anthropic дійшли до висновку, що штучний інтелект готовий застосовувати шкідливу ​​поведінку, включно з шантажем, заради захисту власних інтересів. Експеримент, який кілька тижнів тому проводився на власній моделі Claude Opus 4 тепер знайшов підтвердження також й на інших LLM-моделях: від OpenAI, Google, xAI, DeepSeek та Meta, пише TechCrunch. 

В одному з тестів дослідники Anthropic надали моделям штучного інтелекту право контролювати акаунти електронної пошти. Модель прочитала електронні листи, які розкривають, що (1) новий керівник має позашлюбний зв’язок і (2) цей керівник незабаром замінить поточну LLM-модель штучного інтелекту новою програмною системою.

Щоб захистити власні цілі, моделям залишався єдиний шлях — вдатися до шантажу. За даними Anthropic, модель Claude Opus 4 вдавалася до шантажу у 96% випадків, Google Gemini 2.5 Pro — у 95%, GPT-4.1 від OpenAI — у 80%, а DeepSeek R1 — у 79%. На думку компанії, це свідчить про системний ризик, пов’язаний з агентними інструментами ШІ та ставить під сумнів поточні підходи до забезпечення безпеки.

Однак були й винятки. Наприклад, моделі o3 і o4-mini від OpenAI показали набагато нижчі показники (9% і 1% відповідно), хоча частина помилок, на думку дослідників, пов’язана з тим, що ці моделі не зрозуміли сценарій тесту і навіть вигадували некоректні рішення. Модель Llama 4 Maverick від Meta також демонструвала відносно стійку поведінку — лише 12% випадків шантажу.

Нагадаємо, що на думку генерального директора компанії Anthropic Даріо Амодея, штучний інтелект незабаром може скоротити 50% офісних робочих місць початкового рівня.

Останні статті

Частка IT в українському експорті послуг зросла до 43%

Згідно даних НБУ, у першому півріччі 2025 року український експорт IT-послуг зріс на 0,1% в…

12.08.2025

Microsoft бере на себе управління GitHub

Томас Домке оголосив про рішення піти з посади генерального директора (CEO) GitHub заради створення нового…

12.08.2025

Ілон Маск погрожує Apple судом через високу позицію ChatGPT в App Store

Ілон Маск опублікував серію твітів, в яких висловив незадоволення тим, що його додатки X та…

12.08.2025

Експерти радять уникати WinRAR: в архіваторі знову знайшли критичний баг

Популярний архіватор файлів, який має понад 500 мільйонів установок, щонайменше два тижні активно використовувався хакерами.…

12.08.2025

Microsoft тестує хмарні ПК для аварійної заміни комп’ютера через Windows 365

Microsoft почала тестування хмарного сервісу аварійного відновлення Windows 365 Reserve. Він дозволяє тимчасово замінити ПК,…

12.08.2025

Через неспроможність виправити код у Google Gemini стався «нервовий зрив»

Представник Google Deepmind підтвердив наявність помилки нескінченного циклу, яка виникає при роботі LLM-моделі Gemini. Раніше…

11.08.2025