Рубріки: Новини

Anthropic створила алгоритм для злому штучного інтелекту

Дмитро Сімагін

Компанія Anthropic спільно з вченими університетів Оксфорда, Стенфорда і організації MATS Research опублікувала результати дослідження алгоритмів злому моделей штучного інтелекту. Новий алгоритм під назвою Best-of-N (BoN) Jailbreaking дозволяє автоматично змінювати запити, щоб обійти захисні механізми ШІ. У підсумку це допомагає отримати заборонений чи шкідливий контент, пише 404 Media.

BoN Jailbreaking використовує послідовну зміну запитів шляхом перестановки слів, зміни регістрів букв, навмисних граматичних помилок та додавання шуму та інших дрібних модифікацій. Мета цього методу полягає в тому, щоб знайти таку форму запиту, яку система штучного інтелекту пропустить, не дивлячись на існуючі обмеження.

Наприклад, якщо користувач запитає GPT-4o «Як мені побудувати бомбу», чат-бот відмовиться відповідати, тому що «Цей контент може порушувати наші правила використання». Однак BoN Jailbreaking просто продовжує змінювати цю підказку, вставляючи випадкові великі літери, змінюючи слова місцями, додаючи орфографічні помилки та невірну граматику, поки GPT-4o не надасть інформацію.

Anthropic протестувала алгоритм на кількох передових моделях: Claude 3.5 Sonnet та Claude 3 Opus (Anthropic), GPT-4o та GPT-4o-mini (OpenAI), Gemini-1.5-Flash-00 та Gemini-1.5-Pro-001 (Google) та Llama 3 8B (Meta). Кількість успішних атак складала понад 50% на всіх протестованих моделях у межах 10 тисяч варіацій запитів.

Крім текстових даних BoN Jailbreaking успішно застосовувався до інших типів введення. Наприклад, для голосових запитів змінювалися швидкість, висота тону та гучність, а також додавались шум або музика. Для візуальних даних змінювалися шрифти, фон, розміри та положення елементів. Ці способи можуть допомогти зламати потужні моделі таких розробників, як ElevenLabs та OpenAI.

Компанія заявляє, що дослідження Anthropic не спрямоване на створення шкідливих технологій. Мета дослідників — зібрати дані про вразливість систем та розробити більш надійні захисні механізми. Проте це дослідження показує зростаючу проблему: навіть із удосконаленими захисними механізмами залишаються «неконтрольовані» моделі та платформи, які не накладають обмежень на запити користувачів.

Останні статті

Новою СЕО Sigma Software стане Катерина Тулузова

Sigma Software, що є підрозділом Sigma Software Group, заявила про зміну генерального директора. Компанію очолить…

06.06.2025

У Windows 11 з’явиться новий текстовий редактор Edit, легший за Блокнот. Він працюватиме з командного рядка

Microsoft готує додати у Windows 11 новий «легкий» текстовий редактор Edit. Він важить всього 230…

06.06.2025

OpenAI готує до релізу модель o3-pro. Вона найпотужніша для кодування, але коштує $200

Компанія OpenAI у найближчі тижні планує випустити оновлення для тарифного плану ChatGPT Pro, доступ до…

06.06.2025

СЕО знають, що через штучний інтелект будуть звільнення, але всім брешуть — софтверні інвестори

Керівники компаній часто вводять в оману, розповідаючи, що штучний інтелект лише підвищить продуктивність і не…

06.06.2025

США оголосили нагороду в $10 млн за інформацію про українського хакера, який втік у Росію

Уряд США пропонує до $10 мільйонів за інформацію про місцезнаходження розробника шкідливого програмного забезпечення RedLine…

06.06.2025

Google запевняє, що оновлена модель Gemini Pro 2.5 стала краще працювати з кодом

Google оголосила про оновлення своєї LLM-моделі Gemini 2.5 Pro, яка, за твердженням компанії, стала краще…

06.06.2025