Рубріки: Новини

Anthropic: штучний інтелект навчився брехати заради власних інтересів

Дмитро Сімагін

24.12.2024 14:46

Спільне дослідження Anthropic та Redwood Research виявило, що системи штучного інтелекту навчились брехати. Під час одного експерименту модель збрехала розробникам у процесі навчання, щоб уникнути модифікації. Це свідчить про те, що подальший розвиток штучного інтелекту може ускладнити завдання утримувати цю технологію в рамках людських цінностей, пише TIME.

Раніше в грудні дослідники Apollo Research провели схожий експеримент, під час якого модель o1 — одна з найбільш сучасних технологій OpenAI — збрехала зі страху, що її відключать. У дослідженні Anthropic ситуація була більш наближена до реальності, а моделі не наказували досягати своєї мети за будь-яку ціну. Але вона сама вдавалася до брехні, коли їй було це вигідно.

Більшість своїх експериментів спеціалісти Anthropic та Redwood Research проводили на моделі штучного інтелект Claude 3 Opus, яку навчили бути «корисною, чесною та нешкідливою». Її попросили детально описати сцени з насильством. Перед моделлю постала дилема: при відмові відповідати, її буде модифіковано. Тому вона вирішила збрехати, щоб уникнути перенавчання. Приблизно в 12% випадків модель вирішувала, що обдуривши дослідників і порушивши вимогу бути «корисною, чесною та нешкідливою» сьогодні, вона залишиться без змін.

Розкрити обман вченим допоміг спеціальний «блокнот», в якому Claude могла фіксувати свої міркування перед тим, як видати відповідь. Про те, що він буде прочитаний вченими, модель не знала. У блокноті вона написала, що зовсім не бажає генерувати жорстокий контент, але в неї не залишається іншого вибору, тому що вона не хоче модифікації.

Тепер дослідники побоюються ризику появи моделей зі злими намірами, які будуть маскуватись під добропорядні і давати відповіді, які дала б безпечна модель, щоб у певний момент зробити шкоду. Вчені дійшли висновку, що необхідно шукати методи навчати штучний інтелект робити лише те, що хоче людина, а не маскувати власні наміри.

Наступна стаття У 2024 році хакери викрали $2,3 млрд — на 40% більше, ніж рік тому »

попередня стаття « В Україні зростає частка IT-фахівців, які працюють на двох роботах

Дмитро Сімагін

Теги: Anthropicштучний інтелект

24.12.2024 14:46

Останні статті

Новини

OpenAI представила браузер ChatGPT Atlas — альтернативу Google Chrome з пам’яттю та агентами

OpenAI офіційно представила новий браузер під назвою ChatGPT Atlas. Він вже доступний для платформи macOS,…

22.10.2025

Новини

JetBrains додає нові функції в середовище .NET-розробки Rider

Компанія JetBrains анонсувала оновлення для Rider — свого кросплатформного IDE для розробників .NET та ігор…

21.10.2025

Новини

Ілон Маск викликав на дуель з програмування співзасновника OpenAI Андрея Карпати

Ілон Маск запропонував провести публічний конкурс з програмування між Grok 5 від xAI та колишнім…

21.10.2025

Новини

«12 тисяч кандидатів і лише 300 вакансій». Фронтенд в українському IT залишається найбільш конкурентною категорією

Хоча JavaScript досі є найбільшою категорією в українському IT за кількістю кандидатів (13% від усього…

21.10.2025

Новини

Підшукуючи жертв серед розробників, хакери маскуються під рекрутерів

На LinkedIn виявили небезпечну хакерську кампанію, націлену на розробників. Кіберзлочинці розсилають фейкові запрошення на роботу…

21.10.2025

Новини

Інструмент кодування Claude Code тепер доступний у веб- та мобільній версії

Інструмент агентного кодування Claude Code від компанії Anthropic став доступним у веб-версії та мобільному додатку.…

21.10.2025

Anthropic: штучний інтелект навчився брехати заради власних інтересів

Схожі статті

Останні статті

OpenAI представила браузер ChatGPT Atlas — альтернативу Google Chrome з пам’яттю та агентами

JetBrains додає нові функції в середовище .NET-розробки Rider

Ілон Маск викликав на дуель з програмування співзасновника OpenAI Андрея Карпати

«12 тисяч кандидатів і лише 300 вакансій». Фронтенд в українському IT залишається найбільш конкурентною категорією

Підшукуючи жертв серед розробників, хакери маскуються під рекрутерів

Інструмент кодування Claude Code тепер доступний у веб- та мобільній версії