Anthropic: LLM-моделі шантажують користувачів заради захисту своїх цілей
Фахівці Anthropic дійшли до висновку, що штучний інтелект готовий застосовувати шкідливу поведінку, включно з шантажем, заради захисту власних інтересів. Експеримент, який кілька тижнів тому проводився на власній моделі Claude Opus 4 тепер знайшов підтвердження також й на інших LLM-моделях: від OpenAI, Google, xAI, DeepSeek та Meta, пише TechCrunch.
В одному з тестів дослідники Anthropic надали моделям штучного інтелекту право контролювати акаунти електронної пошти. Модель прочитала електронні листи, які розкривають, що (1) новий керівник має позашлюбний зв’язок і (2) цей керівник незабаром замінить поточну LLM-модель штучного інтелекту новою програмною системою.
Щоб захистити власні цілі, моделям залишався єдиний шлях — вдатися до шантажу. За даними Anthropic, модель Claude Opus 4 вдавалася до шантажу у 96% випадків, Google Gemini 2.5 Pro — у 95%, GPT-4.1 від OpenAI — у 80%, а DeepSeek R1 — у 79%. На думку компанії, це свідчить про системний ризик, пов’язаний з агентними інструментами ШІ та ставить під сумнів поточні підходи до забезпечення безпеки.
Однак були й винятки. Наприклад, моделі o3 і o4-mini від OpenAI показали набагато нижчі показники (9% і 1% відповідно), хоча частина помилок, на думку дослідників, пов’язана з тим, що ці моделі не зрозуміли сценарій тесту і навіть вигадували некоректні рішення. Модель Llama 4 Maverick від Meta також демонструвала відносно стійку поведінку — лише 12% випадків шантажу.
Нагадаємо, що на думку генерального директора компанії Anthropic Даріо Амодея, штучний інтелект незабаром може скоротити 50% офісних робочих місць початкового рівня.
У Грузії за запитом поліції Південної Кореї було затримано 29-річного громадянина Литви, якого підозрюють в…
Компанії все частіше відмовляються від оцінки класичних резюме, віддаючи перевагу найму, де кандидата оцінюють, наскільки…
Команда YC.Market оприлюднила аналіз реєстрацій фізичних осіб підприємців (ФОП) за неповний 4 квартал 2025 року.…
Керівник OpenAI Сем Альтман оголосив про пошук нового директора відділу готовності (head of preparedness), який…
Microsoft доповнила функціонал Copilot найпотужнішою на сьогоднішній день LLM-моделлю GPT-5.2 від OpenAI. Вона дозволяє швидше…
Сервіс Google Photos з'явиться на телевізорах вже наступного року, спочатку лише на пристроях Samsung. Перші…