Рубріки: Новини

Anthropic: LLM-моделі шантажують користувачів заради захисту своїх цілей

Дмитро Сімагін

Фахівці Anthropic дійшли до висновку, що штучний інтелект готовий застосовувати шкідливу ​​поведінку, включно з шантажем, заради захисту власних інтересів. Експеримент, який кілька тижнів тому проводився на власній моделі Claude Opus 4 тепер знайшов підтвердження також й на інших LLM-моделях: від OpenAI, Google, xAI, DeepSeek та Meta, пише TechCrunch. 

В одному з тестів дослідники Anthropic надали моделям штучного інтелекту право контролювати акаунти електронної пошти. Модель прочитала електронні листи, які розкривають, що (1) новий керівник має позашлюбний зв’язок і (2) цей керівник незабаром замінить поточну LLM-модель штучного інтелекту новою програмною системою.

Щоб захистити власні цілі, моделям залишався єдиний шлях — вдатися до шантажу. За даними Anthropic, модель Claude Opus 4 вдавалася до шантажу у 96% випадків, Google Gemini 2.5 Pro — у 95%, GPT-4.1 від OpenAI — у 80%, а DeepSeek R1 — у 79%. На думку компанії, це свідчить про системний ризик, пов’язаний з агентними інструментами ШІ та ставить під сумнів поточні підходи до забезпечення безпеки.

Однак були й винятки. Наприклад, моделі o3 і o4-mini від OpenAI показали набагато нижчі показники (9% і 1% відповідно), хоча частина помилок, на думку дослідників, пов’язана з тим, що ці моделі не зрозуміли сценарій тесту і навіть вигадували некоректні рішення. Модель Llama 4 Maverick від Meta також демонструвала відносно стійку поведінку — лише 12% випадків шантажу.

Нагадаємо, що на думку генерального директора компанії Anthropic Даріо Амодея, штучний інтелект незабаром може скоротити 50% офісних робочих місць початкового рівня.

Останні статті

Ілон Маск звинуватив філософа, який навчає LLM Claude, у відсутності дітей

Ілон Маск розкритикував жінку-філософа Аманду Аскелл, яка в компанії Anthropic відповідає на навчання LLM-моделей серії…

16.02.2026

Google оновлює розширення Conductor для Gemini CLI. Тепер воно автоматично аналізує якість вашого коду

Conductor, представлений Google в грудні як розширення для Gemini CLI, отримав перше оновлення. Тепер інструмент…

16.02.2026

Студенти більше не хочуть вчитись на факультетах інформатики. Але не проти вивчати штучний інтелект

Випускники американських шкіл, які будують плани на майбутнє, все частіше відмовляються від вступу на факультети…

16.02.2026

Ажіотаж навколо агента OpenClaw спровокував дефіцит комп’ютерів Mac: черги до 6 тижнів

Популярність локального агента з відкритим кодом OpenClaw (раніше відомий як Clawbot, Moltbot) спричинила справжню лихоманку…

16.02.2026

Google Docs тепер може стисло переказати ваш текст голосом

Після запуску перетворення тексту в мовлення, яке відкрили користувачам у серпні минулого року, популярний сервіс…

13.02.2026

IBM втричі збільшить найм джуніорів: замість програмування будуть взаємодіяти з клієнтами

Компанія IBM планує потроїти в 2026 році кількість вакансій для фахівців початкового рівня (entry-level) на…

13.02.2026