Anthropic: LLM-моделі шантажують користувачів заради захисту своїх цілей
Фахівці Anthropic дійшли до висновку, що штучний інтелект готовий застосовувати шкідливу поведінку, включно з шантажем, заради захисту власних інтересів. Експеримент, який кілька тижнів тому проводився на власній моделі Claude Opus 4 тепер знайшов підтвердження також й на інших LLM-моделях: від OpenAI, Google, xAI, DeepSeek та Meta, пише TechCrunch.
В одному з тестів дослідники Anthropic надали моделям штучного інтелекту право контролювати акаунти електронної пошти. Модель прочитала електронні листи, які розкривають, що (1) новий керівник має позашлюбний зв’язок і (2) цей керівник незабаром замінить поточну LLM-модель штучного інтелекту новою програмною системою.
Щоб захистити власні цілі, моделям залишався єдиний шлях — вдатися до шантажу. За даними Anthropic, модель Claude Opus 4 вдавалася до шантажу у 96% випадків, Google Gemini 2.5 Pro — у 95%, GPT-4.1 від OpenAI — у 80%, а DeepSeek R1 — у 79%. На думку компанії, це свідчить про системний ризик, пов’язаний з агентними інструментами ШІ та ставить під сумнів поточні підходи до забезпечення безпеки.
Однак були й винятки. Наприклад, моделі o3 і o4-mini від OpenAI показали набагато нижчі показники (9% і 1% відповідно), хоча частина помилок, на думку дослідників, пов’язана з тим, що ці моделі не зрозуміли сценарій тесту і навіть вигадували некоректні рішення. Модель Llama 4 Maverick від Meta також демонструвала відносно стійку поведінку — лише 12% випадків шантажу.
Нагадаємо, що на думку генерального директора компанії Anthropic Даріо Амодея, штучний інтелект незабаром може скоротити 50% офісних робочих місць початкового рівня.
Згідно зі звітом LeadDev, 51% фахівців рівня TechLead зазначили, що вони негативно сприймають штучний інтелект.…
Компанія GitHub повідомила, що для користувачів автодоповнювача коду GitHub Copilot запроваджуються щомісячні обмеження на певні…
Meta Platforms посилює «полювання» на ключових фахівців зі штучного інтелекту. Після невдалої спроби викупити стартап…
Українська технологічна спільнота укотре підтвердила свої глобальні амбіції на виставці VivaTech 2025, де національний стенд…
Розробники програмного забезпечення із США виявились найактивнішими в світі користувачами чат-ботів і помічників кодування на…
Компанія Microsoft повідомила про намір видалити застарілі драйвери, які досі доступні через Windows Update. Це…