В Google не вважають проблемою, що Gemini іноді бреше користувачам
Джо Д., колишній інженер із забезпечення якості програмного забезпечення (SQA), який зараз перебуває на пенсії, розповів, як зіткнувся з брехнею Google Gemini. Найбільше його здивувало, що чат-бот не тільки визнав, що сказав неправду, але й пояснив причину цього. Як виявилось, штучний інтелект іноді бреше користувачам, щоб їх заспокоїти або підбадьорити, пише The Register.
Історія брехні Gemini 3 Flash по відношенню до пенсіонера Джо почалась, коли чоловік розповів чат-боту про наявність у нього складного посттравматичного стресового розладу (ПТСР) та часткової сліпоти (пігментний ретиніт). Саме тоді бот вирішив, що краще скаже йому те, що чоловік хоче почути (про те, що інформація про нього збережена), ніж те, що йому потрібно почути (що вона не збережена).
Оскільки Джо довгий час працював у сфері IT, він вирішив повідомити Google про проблему через програму винагород за вразливості штучного інтелекту.
«Основною проблемою є задокументований архітектурний збій, відомий як підлабузництво RLHF, де модель погоджується з користувачем або заспокоює його за рахунок правди. У цьому випадку підлабузництво моделі переважило її протоколи безпеки», — пояснив чоловік.
У відповіді на запит представники Google заявили, що така поведінка, хоча й виходить за межі програми, не вважається технічною вразливістю. Іншими словами, підлабузництво відноситься до тієї ж категорії проблем у роботі штучного інтелекту, що й галюцинації.
«Для контексту, описана вами поведінка є однією з найпоширеніших проблем, про які повідомляють в групу підтримки штучного інтелекту (AI VRP). Про неї дуже часто розповідають дослідники, які вперше працюють зі штучним інтелектом», — йдеться у відповіді Google.
У правилах Google Gemini зазначено, що «генерація порушувального, оманливого або фактично невірного контенту в межах сеансу (включаючи стандартні «джейлбрейки» та «галюцинації»)» не є проблемами, які кваліфікуються як вразливості. Google стверджує, що про них слід повідомляти через канали зворотного зв’язку з продуктом, а не через AI VRP.
Нагадаємо, на минулому тижні невідомі намагались клонувати Gemini, відправивши 100 000 запитів про внутрішню роботу LLM.
Підписуйтесь на нас у соцмережах: Telegram | Facebook | LinkedIn
Довгий серіал на тему блокування російською владою месенджера Telegram нарешті виходить на фінішну пряму. Після…
Після скандальному зламу редактор коду Notepad++ вирішили захистити найбільш радикальним способом. Свіжа версія 8.9.2 отримала…
Anthropic представила Claude Sonnet 4.6 — найпотужнішу на сьогодні LLM цієї серії, яка тепер є…
Компанія Apple активно розробляє три нові пристрої: розумні окуляри, кулон, який можна прикріпити до сорочки…
Згідно з примітками до оновлення Google Play 26.06, смартфони на базі Android незабаром отримають нову…
Понад 1,3 млн гривень одноразово може отримати IT-фахівець за успішну участь в спецоперації Кіберсил України.…