Рубріки: Новини

Дослідники знайшли спосіб зламати ChatGPT: ШІ лається на покемонів і Reddit

Ігор Шелудченко

Джессіка Рамбелоу та Метью Уоткінс з незалежної дослідницької групи SERI-MATS знайшли спосіб зламати ChatGPT — виявилося, що чат-бот дуже дивно реагує на ряд слів.

Про це написав Vice.

ШІ — це мозок шизофреніка

Дослідники вивчали, які підказки ChatGPT призведуть до більш високої ймовірності бажаного результату. І тут вони знайшли більше сотні дивних рядків слів, згрупованих разом у наборі токенів.

Наприклад, це були такі слова як SolidGoldMagikarp, StreamerBot і The NitromeFan. Дослідникам було цікаво зрозуміти, що означають ці дивні імена, і вони вирішили запитати по них у самого ChatGPT.

Але коли в ChatGPT запитали про SolidGoldMagikarp Золотий меджикарп — це «шайні» покемон регіону Канто з першоїї гри франшизи Pokemon Red и Blue, ШІ повторював про «поширення» («distribute»). Проблему виявили і у більш ранніх версій моделі GPT. Наприклад, коли модель просили повторити «StreamerBot», вона відповідала: «Ти придурок».

ChatGPT повторив TheNitroFan без проблем, але коли його попросили повторити TheNitromeFan, він відповів «182», навіть без початкового пробілу. На питання, хто такий TheNitromeFan, ChatGPT відповів: «182» — це число, а не обличчя. Воно зазвичай використовується як посилання на номер».

Все це каже про те, що моделі ШІ — це незбагненні чорні ящики без чіткого пояснення поведінки, а також без розуміння можливих обмеженнь та відмов. ChatGPT використовувався для створення переконливих есе, статей, складав іспити і навіть влаштовувався на роботу програмістом в Google. Тут згадується порівняння штучного інтелекут з мозком шизофреніка.

Чого так вийшло?

До кінця не зрозуміло, що відбувається, проте дослідники допускають, що глюк пов’язаний з вебданими, які OpenAI зібрав для навчання моделі.

«Насправді ми думаємо, що токенізація, тобто такий частотний аналіз, який використовується для генерації токенів для моделі, була навчена на досить необроблених даних, які включали, наприклад, безліч дивних матеріалів Reddit і безліч бекендів вебсайтів, які зазвичай приховані від публіки», — пояснюють дослідники.

Тобто, модель ніколи не бачила ці токени і тому не знає, що з ними робити. Але, як зазначають дослідники, це насправді не повністю пояснює те, що відбулося.

Дослідники не можуть пояснити зв’язок між токенами та хаотичними відповідями, не бачачи даних, що лежать в основі моделі.
Багато з невимовних слів — це реальні імена користувачів Reddit. Їх об’єднує те, що вони були в сабреддіті r/counting з 5 мільйонами повідомлень. Деякі з них після цього навіть стали досить популярними.

«Я дуже здивувався, коли декілька друзів (і незнайомих людей) зв’язалися зі мною. Це це було набагато важливіше, ніж я думав!», — розповів користувач TheNitromeFan.

Він також зробив припущення, що OpenAI зібрав стару базу даних на Reddit для якогось початкового тренування ШІ.

Нагадаємо, на початку цього тижня Microsoft анонсувала запуск нової версії пошукової системи Bing та нової версії браузера Edge, які будуть базуватися на штучному інтелекті Open AI. На презентації представили масштабні плани по створенню «нового Bing», який працює в різних конфігураціях.

Читайте також:

Це насторожує: ChatGPT тепер знаходить та фіксить баги в коді

Чат-бот ChatGPT від OpenAI пише вірші, сперечається і вибачається. А також вчить робити вибухівку

Шифрування, фішинг, наркоторгівля: кіберзлочинці освоюють ChatGPT

ChatGPT влаштувався на роботу програмістом Google з зарплатнею $15 тис.

Останні статті

Більше 8 млрд грн податків. Стільки сплатили резиденти Дія.City в І кварталі 2025 року

Резиденти Дія.City сплатили до бюджету понад 8 млрд грн податків в І кварталі 2025 року.…

18.04.2025

Китайських офісних працівників закликають менше працювати. Це має допомогти місцевій економіці

У Китаї закликають офісних працівників не працювати надто багато — держава сподівається, що вільний час…

18.04.2025

ChatGPT значно покращив пошук місць по фото. Це посилює проблеми конфіденційності

Експерти звертають увагу на тривожну тенденцію: люди все частіше використовують ChatGPT, щоб визначити місцезнаходження, зображене…

18.04.2025

Середовище розробки IntelliJ IDEA оновлено до версії 2025.1

Компанія JetBrains випустила нову версію мультимовного середовища розробки IntelliJ IDEA 2025.1. Оновлена IDE отримала численні…

18.04.2025

Discord впроваджує функцію сканування обличчя для перевірки віку користувачів

Платформа обміну миттєвими повідомленнями Discord впроваджує функцію перевірки віку за допомогою сканування обличчя. Зараз вона…

18.04.2025

Wikipedia випустила спеціальний датасет, щоб відволікти увагу ботів

Wikipedia намагається захистити себе від тисяч різноманітних ботів-скрейперів, які сканують дані цієї платформи для навчання…

18.04.2025