Рубріки: Новини

Anthropic: LLM-моделі шантажують користувачів заради захисту своїх цілей

Дмитро Сімагін

Фахівці Anthropic дійшли до висновку, що штучний інтелект готовий застосовувати шкідливу ​​поведінку, включно з шантажем, заради захисту власних інтересів. Експеримент, який кілька тижнів тому проводився на власній моделі Claude Opus 4 тепер знайшов підтвердження також й на інших LLM-моделях: від OpenAI, Google, xAI, DeepSeek та Meta, пише TechCrunch. 

В одному з тестів дослідники Anthropic надали моделям штучного інтелекту право контролювати акаунти електронної пошти. Модель прочитала електронні листи, які розкривають, що (1) новий керівник має позашлюбний зв’язок і (2) цей керівник незабаром замінить поточну LLM-модель штучного інтелекту новою програмною системою.

Щоб захистити власні цілі, моделям залишався єдиний шлях — вдатися до шантажу. За даними Anthropic, модель Claude Opus 4 вдавалася до шантажу у 96% випадків, Google Gemini 2.5 Pro — у 95%, GPT-4.1 від OpenAI — у 80%, а DeepSeek R1 — у 79%. На думку компанії, це свідчить про системний ризик, пов’язаний з агентними інструментами ШІ та ставить під сумнів поточні підходи до забезпечення безпеки.

Однак були й винятки. Наприклад, моделі o3 і o4-mini від OpenAI показали набагато нижчі показники (9% і 1% відповідно), хоча частина помилок, на думку дослідників, пов’язана з тим, що ці моделі не зрозуміли сценарій тесту і навіть вигадували некоректні рішення. Модель Llama 4 Maverick від Meta також демонструвала відносно стійку поведінку — лише 12% випадків шантажу.

Нагадаємо, що на думку генерального директора компанії Anthropic Даріо Амодея, штучний інтелект незабаром може скоротити 50% офісних робочих місць початкового рівня.

Останні статті

OpenAI випустила гайд для розробників, як писати промпти з GPT-5.1

Компанія OpenAI опублікувала розширений посібник для розробників з рекомендаціями застосування нової LLM-моделі GPT-5.1. В документі…

17.11.2025

PyPI посилює перевірку користувачів після зміни пристрою авторизації

Розробники репозиторію Python-пакетів PyPI (Python Package Index) запровадили додаткову перевірку під час авторизації. Тепер від…

17.11.2025

Новий сервіс Code Wiki від Google сам пише та оновлює документацію для GitHub-репозиторіїв

Компанія Google представила новий проект Code Wiki — сервіс, який автоматично генерує технічну документацію для…

17.11.2025

В оновленому Visual Studio Code з’явився Agent HQ — центр управління агентами кодування

Редактор коду Visual Studio Code отримав чергове оновлення. У релізі 1.106 з'явився Agent HQ —…

17.11.2025

ІТ-компанії, засновані українцями в США, генерують $23,2 млрд доходу і створили 130 000 робочих місць

Американські компанії, засновані вихідцями з України, генерують майже $60 млрд річного доходу в США та…

17.11.2025

Microsoft заблокувала популярний спосіб офлайн-активації Windows

Microsoft відключила один із найвідоміших «напівлегальних» способів активації Windows — офлайн-метод KMS38. Він дозволяв продовжувати…

14.11.2025