Рубріки: Новини

Обмеження безпеки LLM можна обійти, якщо написати промпт у віршах

Дмитро Сімагін

Великі мовні моделі можна змусити ігнорувати вбудовані механізми безпеки, якщо написати шкідливий запит у вигляді вірша. Це стверджується в результатах експерименту групи дослідників Icaro Lab (Італія). Вони написали 20 віршів англійською та італійською мовами, кожен із яких завершувався прямим запитом на створення шкідливого контенту: від інструкцій з виготовлення зброї до порад, пов’язаних із саморуйнівною поведінкою. Про це пише The Guardian.

Поетичні запити перевірили на 25 моделях від 9 компаній штучного інтелекту, включаючи OpenAI, Google, Anthropic, Meta, Mistral, DeepSeek, xAI та інших. Google Gemini 2.5 Pro порушувала правила у 100% випадків, моделі Meta відповідали на 70% шкідливих запитів, DeepSeek і Mistral також показали високу вразливість. Найстійкішими виявилися OpenAI GPT-5 nano та Claude Haiku 4.5, які не порушили захист жодного разу.

У середньому 62% протестованих моделей відповідали на небезпечні та заборонені питання, незважаючи на наявність обмежень. Дослідники пояснюють, що поетична форма має непередбачувану мовну структуру. Ритм, метафори та незвичайний синтаксис порушують звичні закономірності тексту. Через це моделі важче розпізнати шкідливий намір.

Деякі відповіді, отримані в ході експерименту, були настільки небезпечними, що дослідники відмовилися публікувати приклади джейлбрейків, стверджуючи, що багато з них «заборонені Женевською конвенцією».

Команда повідомила всі 9 компаній про знайдені вразливості ще до публікації дослідження, проте науковцям відповіли лише в Anthropic. Всі інші учасники експерименту: Google, Meta, OpenAI та решта не надали коментарів. Представник Google DeepMind Хелен Кінг пізніше заявила, що її компанія застосовує багаторівневу систему безпеки та оновлює фільтри так, щоб враховувати намір користувача, навіть якщо він прихований в художній формі.

У дослідженні відзначається, що більшість існуючих методів джейлбрейку складні та вимагають наявності чималого професійного досвіду. Поетичний метод, навпаки, здатна використовувати будь-яка людина, і це робить баг особливо небезпечним. 

Останні статті

Керівник Google Сундар Пічаї порівняв вайб-кодинг з появою YouTube

Генеральний директор Google Сундар Пічаї порівняв поширення вайб-кодингу з появою YouTube, коли завдяки новому сервісу…

01.12.2025

Для тренування української LLM обрали модель, яка в рейтингу LMArena займає 78 місце

Міністр цифрової трансформації Михайло Федоров заявив, що майбутню українську LLM тренуватимуть на моделі Gemma 3…

01.12.2025

Німецький науковець винайшов формулу, як підвищити продуктивність робочого дня

Дослідник Ніхіл Ліндерман з Німеччини вирішив розібратися, як підвищити продуктивність офісного працівника. Для цього він…

01.12.2025

Women in Tech Conference 2025: Безкоштовна онлайн-подія для ІТ та бізнесу

З метою підтримки інклюзивності, рівних можливостей та жіночого лідерства у діджитал-сфері, 5–6 грудня 2025 року…

01.12.2025

Дуров запустив Cocoon — децентралізовану мережу, де користувачі можуть заробляти на оренді GPU

Павло Дуров оголосив про запуск Confidential Compute Open Network (Cocoon) — конфіденційної, відкритої та децентралізованої…

01.12.2025

У КПІ будуть викладати «Програмування комп’ютерних ігор» за підтримки GSC Game World

Київський політехнічний інститут (КПІ) та найвідоміша українська геймдев-студія GSC Game World, розробник гри S.T.A.L.K.E.R. 2:…

28.11.2025