Рубріки: Новини

Anthropic: LLM-моделі шантажують користувачів заради захисту своїх цілей

Дмитро Сімагін

23.06.2025 09:40

Фахівці Anthropic дійшли до висновку, що штучний інтелект готовий застосовувати шкідливу поведінку, включно з шантажем, заради захисту власних інтересів. Експеримент, який кілька тижнів тому проводився на власній моделі Claude Opus 4 тепер знайшов підтвердження також й на інших LLM-моделях: від OpenAI, Google, xAI, DeepSeek та Meta, пише TechCrunch.

В одному з тестів дослідники Anthropic надали моделям штучного інтелекту право контролювати акаунти електронної пошти. Модель прочитала електронні листи, які розкривають, що (1) новий керівник має позашлюбний зв’язок і (2) цей керівник незабаром замінить поточну LLM-модель штучного інтелекту новою програмною системою.

Щоб захистити власні цілі, моделям залишався єдиний шлях — вдатися до шантажу. За даними Anthropic, модель Claude Opus 4 вдавалася до шантажу у 96% випадків, Google Gemini 2.5 Pro — у 95%, GPT-4.1 від OpenAI — у 80%, а DeepSeek R1 — у 79%. На думку компанії, це свідчить про системний ризик, пов’язаний з агентними інструментами ШІ та ставить під сумнів поточні підходи до забезпечення безпеки.

Однак були й винятки. Наприклад, моделі o3 і o4-mini від OpenAI показали набагато нижчі показники (9% і 1% відповідно), хоча частина помилок, на думку дослідників, пов’язана з тим, що ці моделі не зрозуміли сценарій тесту і навіть вигадували некоректні рішення. Модель Llama 4 Maverick від Meta також демонструвала відносно стійку поведінку — лише 12% випадків шантажу.

Нагадаємо, що на думку генерального директора компанії Anthropic Даріо Амодея, штучний інтелект незабаром може скоротити 50% офісних робочих місць початкового рівня.

Наступна стаття GitHub запроваджує нові обмеження в Copilot, щоб змусити користувачів перейти на більш дорогі тарифи »

попередня стаття « Meta не змогли купити ШІ-стартап Іллі Суцкевера за $32 млрд, а тепер намагається переманити їхнього CEO

Дмитро Сімагін

Теги: AnthropicLLM-модель

23.06.2025 09:40

Останні статті

Новини

Google почне карати сайти за маніпуляції зі штучним інтелектом

Компанія Google оновила свої правила щодо спаму в пошуку, офіційно поширивши їхню дію на генеративні…

18.05.2026

Новини

Microsoft забирає у розробників Claude Code — і змушує повернутись на власний Copilot

Microsoft вирішила відкликати у своїх внутрішніх команд більшість ліцензій на Claude Code від Anthropic і…

18.05.2026

Новини

Цифрові клони колишніх партнерів: тривожний феномен набирає популярності

Штучний інтелект давно вийшов за межі робочих інструментів — він проникає у найінтимніші куточки людського…

18.05.2026

Новини

Нова затребувана IT-професія: хто такі forward-deployed engineers і чому Google їх шукає

Підрозділ Google Cloud наймає сотні інженерів, які будуть допомагати корпоративним клієнтам впроваджувати продукти на основі…

15.05.2026

Новини

Grok Build: Ілон Маск представив власного конкурента Claude Code

Компанія xAI Ілона Маска випустила ранню бета-версію Grok Build — агентного інструменту командного рядка (CLI),…

15.05.2026

Новини

Американці готові жити біля АЕС, але не поруч із дата-центром — опитування Gallup

Нове опитування Gallup виявило разючий парадокс у суспільній думці американців: сусідство з атомною електростанцією лякає…

15.05.2026

Anthropic: LLM-моделі шантажують користувачів заради захисту своїх цілей

Схожі статті

Останні статті

Google почне карати сайти за маніпуляції зі штучним інтелектом

Microsoft забирає у розробників Claude Code — і змушує повернутись на власний Copilot

Цифрові клони колишніх партнерів: тривожний феномен набирає популярності

Нова затребувана IT-професія: хто такі forward-deployed engineers і чому Google їх шукає

Grok Build: Ілон Маск представив власного конкурента Claude Code

Американці готові жити біля АЕС, але не поруч із дата-центром — опитування Gallup