Anthropic: LLM-моделі шантажують користувачів заради захисту своїх цілей
Фахівці Anthropic дійшли до висновку, що штучний інтелект готовий застосовувати шкідливу поведінку, включно з шантажем, заради захисту власних інтересів. Експеримент, який кілька тижнів тому проводився на власній моделі Claude Opus 4 тепер знайшов підтвердження також й на інших LLM-моделях: від OpenAI, Google, xAI, DeepSeek та Meta, пише TechCrunch.
В одному з тестів дослідники Anthropic надали моделям штучного інтелекту право контролювати акаунти електронної пошти. Модель прочитала електронні листи, які розкривають, що (1) новий керівник має позашлюбний зв’язок і (2) цей керівник незабаром замінить поточну LLM-модель штучного інтелекту новою програмною системою.
Щоб захистити власні цілі, моделям залишався єдиний шлях — вдатися до шантажу. За даними Anthropic, модель Claude Opus 4 вдавалася до шантажу у 96% випадків, Google Gemini 2.5 Pro — у 95%, GPT-4.1 від OpenAI — у 80%, а DeepSeek R1 — у 79%. На думку компанії, це свідчить про системний ризик, пов’язаний з агентними інструментами ШІ та ставить під сумнів поточні підходи до забезпечення безпеки.
Однак були й винятки. Наприклад, моделі o3 і o4-mini від OpenAI показали набагато нижчі показники (9% і 1% відповідно), хоча частина помилок, на думку дослідників, пов’язана з тим, що ці моделі не зрозуміли сценарій тесту і навіть вигадували некоректні рішення. Модель Llama 4 Maverick від Meta також демонструвала відносно стійку поведінку — лише 12% випадків шантажу.
Нагадаємо, що на думку генерального директора компанії Anthropic Даріо Амодея, штучний інтелект незабаром може скоротити 50% офісних робочих місць початкового рівня.
Google оголошує, що користувачі Gmail тепер можуть надсилати електронні листи з наскрізним шифруванням будь-кому, навіть…
У третьому кварталі (липень, серпень, вересень) на сервісі пошуку роботи jobs.dou.ua опублікувано 20899 IT-вакансій. Це…
Представники Google розкрили додаткові подробиці майбутньої верифікації Android-розробників, яка почнеться в 2026 році. За реєстрацію…
Microsoft анонсувала нову потужну функцію для Python-розробників у Microsoft Excel для Windows: редагування ініціалізації. Вона…
Google додає в Jules інтерфейс командного рядка та публічний API, що дозволяє цьому інструменту кодування…
Хакерське угруповання Crimson Collective зламало приватні GitHub-репозиторії компанії Red Hat, яка займається розробкою корпоративного програмного…