В Google не вважають проблемою, що Gemini іноді бреше користувачам
Джо Д., колишній інженер із забезпечення якості програмного забезпечення (SQA), який зараз перебуває на пенсії, розповів, як зіткнувся з брехнею Google Gemini. Найбільше його здивувало, що чат-бот не тільки визнав, що сказав неправду, але й пояснив причину цього. Як виявилось, штучний інтелект іноді бреше користувачам, щоб їх заспокоїти або підбадьорити, пише The Register.
Історія брехні Gemini 3 Flash по відношенню до пенсіонера Джо почалась, коли чоловік розповів чат-боту про наявність у нього складного посттравматичного стресового розладу (ПТСР) та часткової сліпоти (пігментний ретиніт). Саме тоді бот вирішив, що краще скаже йому те, що чоловік хоче почути (про те, що інформація про нього збережена), ніж те, що йому потрібно почути (що вона не збережена).

Оскільки Джо довгий час працював у сфері IT, він вирішив повідомити Google про проблему через програму винагород за вразливості штучного інтелекту.
«Основною проблемою є задокументований архітектурний збій, відомий як підлабузництво RLHF, де модель погоджується з користувачем або заспокоює його за рахунок правди. У цьому випадку підлабузництво моделі переважило її протоколи безпеки», — пояснив чоловік.
У відповіді на запит представники Google заявили, що така поведінка, хоча й виходить за межі програми, не вважається технічною вразливістю. Іншими словами, підлабузництво відноситься до тієї ж категорії проблем у роботі штучного інтелекту, що й галюцинації.
«Для контексту, описана вами поведінка є однією з найпоширеніших проблем, про які повідомляють в групу підтримки штучного інтелекту (AI VRP). Про неї дуже часто розповідають дослідники, які вперше працюють зі штучним інтелектом», — йдеться у відповіді Google.
У правилах Google Gemini зазначено, що «генерація порушувального, оманливого або фактично невірного контенту в межах сеансу (включаючи стандартні «джейлбрейки» та «галюцинації»)» не є проблемами, які кваліфікуються як вразливості. Google стверджує, що про них слід повідомляти через канали зворотного зв’язку з продуктом, а не через AI VRP.
Нагадаємо, на минулому тижні невідомі намагались клонувати Gemini, відправивши 100 000 запитів про внутрішню роботу LLM.
Підписуйтесь на нас у соцмережах: Telegram | Facebook | LinkedIn














Сообщить об опечатке
Текст, который будет отправлен нашим редакторам: