Рубріки: Новини

Anthropic: LLM-моделі шантажують користувачів заради захисту своїх цілей

Дмитро Сімагін

23.06.2025 09:40

Фахівці Anthropic дійшли до висновку, що штучний інтелект готовий застосовувати шкідливу поведінку, включно з шантажем, заради захисту власних інтересів. Експеримент, який кілька тижнів тому проводився на власній моделі Claude Opus 4 тепер знайшов підтвердження також й на інших LLM-моделях: від OpenAI, Google, xAI, DeepSeek та Meta, пише TechCrunch.

В одному з тестів дослідники Anthropic надали моделям штучного інтелекту право контролювати акаунти електронної пошти. Модель прочитала електронні листи, які розкривають, що (1) новий керівник має позашлюбний зв’язок і (2) цей керівник незабаром замінить поточну LLM-модель штучного інтелекту новою програмною системою.

Щоб захистити власні цілі, моделям залишався єдиний шлях — вдатися до шантажу. За даними Anthropic, модель Claude Opus 4 вдавалася до шантажу у 96% випадків, Google Gemini 2.5 Pro — у 95%, GPT-4.1 від OpenAI — у 80%, а DeepSeek R1 — у 79%. На думку компанії, це свідчить про системний ризик, пов’язаний з агентними інструментами ШІ та ставить під сумнів поточні підходи до забезпечення безпеки.

Однак були й винятки. Наприклад, моделі o3 і o4-mini від OpenAI показали набагато нижчі показники (9% і 1% відповідно), хоча частина помилок, на думку дослідників, пов’язана з тим, що ці моделі не зрозуміли сценарій тесту і навіть вигадували некоректні рішення. Модель Llama 4 Maverick від Meta також демонструвала відносно стійку поведінку — лише 12% випадків шантажу.

Нагадаємо, що на думку генерального директора компанії Anthropic Даріо Амодея, штучний інтелект незабаром може скоротити 50% офісних робочих місць початкового рівня.

Наступна стаття GitHub запроваджує нові обмеження в Copilot, щоб змусити користувачів перейти на більш дорогі тарифи »

попередня стаття « Meta не змогли купити ШІ-стартап Іллі Суцкевера за $32 млрд, а тепер намагається переманити їхнього CEO

Дмитро Сімагін

Теги: AnthropicLLM-модель

23.06.2025 09:40

Останні статті

Новини

Google випускає Agent Development Kit (ADK) для Java: новий рівень створення ШІ-агентів

Компанія Google оголосила про запуск Agent Development Kit (ADK), спеціально розробленого для мови програмування Java.…

02.04.2026

Новини

Європейців закликали масово переходити на дистанційну роботу

Керівництво Європейського Союзу офіційно заявило про необхідність негайного зниження попиту на пальне. Для цього треба…

02.04.2026

Новини

Google зобов’язує розробників програм для Wear OS перейти на 64-бітну архітектуру

Компанія Google офіційно оголосила про впровадження обов’язкової підтримки 64-бітних архітектур для всіх застосунків платформи Wear…

02.04.2026

Як почати розмовляти з legacy-інфраструктурою і спростити життя розробникам

Сьогодні більшість нових систем створюються з використанням контейнерів та хмарної інфраструктури. Але в реальному корпоративному…

02.04.2026

Новини

Cтруктуровані промпти підвищують точність моделі до 93% — дослідження Meta

Дослідники компанії Meta розробили новий підхід до використання великих мовних моделей (LLM) для аналізу програмного…

02.04.2026

Новини

Google DeepMind розкриває секрети: шість способів, як зламати ШІ-агента

Нове дослідження від Google DeepMind попереджає: поки ми навчаємось працювати з автономними ШІ-агентами, які здатні…

02.04.2026

Anthropic: LLM-моделі шантажують користувачів заради захисту своїх цілей

Схожі статті

Останні статті

Google випускає Agent Development Kit (ADK) для Java: новий рівень створення ШІ-агентів

Європейців закликали масово переходити на дистанційну роботу

Google зобов’язує розробників програм для Wear OS перейти на 64-бітну архітектуру

Як почати розмовляти з legacy-інфраструктурою і спростити життя розробникам

Cтруктуровані промпти підвищують точність моделі до 93% — дослідження Meta

Google DeepMind розкриває секрети: шість способів, як зламати ШІ-агента