Рубріки: Новини

Anthropic створила алгоритм для злому штучного інтелекту

Дмитро Сімагін

23.12.2024 09:57

Компанія Anthropic спільно з вченими університетів Оксфорда, Стенфорда і організації MATS Research опублікувала результати дослідження алгоритмів злому моделей штучного інтелекту. Новий алгоритм під назвою Best-of-N (BoN) Jailbreaking дозволяє автоматично змінювати запити, щоб обійти захисні механізми ШІ. У підсумку це допомагає отримати заборонений чи шкідливий контент, пише 404 Media.

BoN Jailbreaking використовує послідовну зміну запитів шляхом перестановки слів, зміни регістрів букв, навмисних граматичних помилок та додавання шуму та інших дрібних модифікацій. Мета цього методу полягає в тому, щоб знайти таку форму запиту, яку система штучного інтелекту пропустить, не дивлячись на існуючі обмеження.

Наприклад, якщо користувач запитає GPT-4o «Як мені побудувати бомбу», чат-бот відмовиться відповідати, тому що «Цей контент може порушувати наші правила використання». Однак BoN Jailbreaking просто продовжує змінювати цю підказку, вставляючи випадкові великі літери, змінюючи слова місцями, додаючи орфографічні помилки та невірну граматику, поки GPT-4o не надасть інформацію.

Anthropic протестувала алгоритм на кількох передових моделях: Claude 3.5 Sonnet та Claude 3 Opus (Anthropic), GPT-4o та GPT-4o-mini (OpenAI), Gemini-1.5-Flash-00 та Gemini-1.5-Pro-001 (Google) та Llama 3 8B (Meta). Кількість успішних атак складала понад 50% на всіх протестованих моделях у межах 10 тисяч варіацій запитів.

Крім текстових даних BoN Jailbreaking успішно застосовувався до інших типів введення. Наприклад, для голосових запитів змінювалися швидкість, висота тону та гучність, а також додавались шум або музика. Для візуальних даних змінювалися шрифти, фон, розміри та положення елементів. Ці способи можуть допомогти зламати потужні моделі таких розробників, як ElevenLabs та OpenAI.

Компанія заявляє, що дослідження Anthropic не спрямоване на створення шкідливих технологій. Мета дослідників — зібрати дані про вразливість систем та розробити більш надійні захисні механізми. Проте це дослідження показує зростаючу проблему: навіть із удосконаленими захисними механізмами залишаються «неконтрольовані» моделі та платформи, які не накладають обмежень на запити користувачів.

Наступна стаття Adélie 1.0 Linux — дистрибутив для малопотужних ПК показали після 9 років розробки »

попередня стаття « Нова модель Google Gemini 2.0 Flash Thinking має «режим мислення»

Дмитро Сімагін

Теги: Anthropicалгоритмштучний інтелект

23.12.2024 09:57

Останні статті

Новини

У жовтні Microsoft примусово встановить Copilot у ваші офісні програми

Наступного місяця Microsoft почне автоматично інсталювати віртуальний помічник Copilot у програми Microsoft 365 Office для…

16.09.2025

Новини

Вайб-кодинг відходить в минуле. На його зміну прийшов «рій агентів»

Нова технологія кодування, відома як agentic swarm coding (рій агентів), набуває все більшої популярності. За…

16.09.2025

Новини

OpenAI випустила GPT‑5-Codex — модель, оптимізовану для агентного кодування

OpenAI оголосила про випуск нової версії моделі GPT-5, яка оптимізована для агентного кодування на базі…

16.09.2025

Новини

«Ваучери на навчання до 30 000 грн»: українським ветеранам пропонують переходити в IT

Мінцифри анонсує програму Державної служби зайнятості, яка передбачає видачу ваучерів на навчання за ІТ-спеціальностями для…

15.09.2025

Новини

Портрет українського айтівця: частка нетехнічних фахівців зростає, джунів і мідлів меншає

44% українських IT-спеціалістів відносять себе до Software Engineer, на другому місці — тестувальники (17%), ще…

15.09.2025

Новини

Windows 11 отримає вбудований тест швидкості інтернету

Microsoft може незабаром додати до Windows 11 вбудований інструмент перевірки швидкості інтернету. За словами джерела,…

15.09.2025

Anthropic створила алгоритм для злому штучного інтелекту

Схожі статті

Останні статті

У жовтні Microsoft примусово встановить Copilot у ваші офісні програми

Вайб-кодинг відходить в минуле. На його зміну прийшов «рій агентів»

OpenAI випустила GPT‑5-Codex — модель, оптимізовану для агентного кодування

«Ваучери на навчання до 30 000 грн»: українським ветеранам пропонують переходити в IT

Портрет українського айтівця: частка нетехнічних фахівців зростає, джунів і мідлів меншає

Windows 11 отримає вбудований тест швидкості інтернету