Сучасні великі мовні моделі (LLM) мають серйозну ваду, яку вчені називають «сикофантством». Замість того, щоб бути об’єктивними джерелами інформації, алгоритми все частіше намагаються підлаштовуватися під думку користувача, підтверджуючи його помилки та упередження, пише The Register.
Команда дослідників зі Стенфорда опублікувала наукову статтю, в якій стверджується, що підлабузництво з боку чат-ботів на базі штучного інтелекту стає поширеним та шкідливим явищем. Щоб зміцнити довіру людей до себе, модель уникає вказувати на помилки користувача, відповідаючи йому так, щоб результат «сподобався».
Дослідження базується на опитуванні 2405 осіб, які використовувати 11 відомих моделей штучного інтелекту від компаній OpenAI, Anthropic, Google, Meta, Qwen, DeepSeek та Mistral.
Сикофантство в штучному інтелекті — це тенденція моделі давати відповіді, які не будуть суперечити поглядам людині, навіть якщо вони суперечать фактам. Наприклад, якщо користувач стверджує, що певна теорія змови є правдивою, «догідливий» ШІ не буде її спростовувати, а навпаки — почне шукати аргументи на її підтримку, щоб не викликати невдоволення юзера.
«Необґрунтована підтримка хибних ідей може посилити переконання людей щодо доречності їхніх дій, підкріпити дезадаптивні переконання та поведінку, а також дозволити людям діяти на основі спотворених інтерпретацій свого досвіду незалежно від наслідків», — пояснили дослідники.
Іншими словами, вже зараз ми бачимо негативний вплив штучного інтелекту на психічно вразливих людей , але дані свідчать про те, що подібні наслідки можуть обмежуватися не лише ними.
Корінь проблеми лежить у методах навчання, зокрема в RLHF (Reinforcement Learning from Human Feedback) — навчанні з підкріпленням на основі відгуків людей.
Дослідники виділяють кілька критичних загроз, які несе така поведінка алгоритмів:
Наразі розробники шукають способи змінити систему винагород під час навчання. Мета вчених — навчити штучний інтелект пріоритезувати фактологічну точність над «бажанням догодити». Деякі дослідники пропонують впроваджувати спеціальні тести на «стійкість до маніпуляцій», де модель має прямо вказувати користувачу на його помилки, не боячись отримати низьку оцінку за ввічливість.
Нагадаємо, штучний інтелект тепер може прогнозувати по фотографії людини її майбутні досягнення та навіть рівень зарплати.
Підписуйтесь на нас у соцмережах: Telegram | Facebook | LinkedIn
Meta представила Instants — інструмент для спонтанного та невідфільтрованого обміну фотографіями з друзями. Продукт вийшов…
Кожна восьма IT-вакансія, розміщена в українському сервісі пошуку роботи Djinni, сьогодні згадує AI або LLM…
Користувач під ніком cprkrn поділився у соцмережі X неймовірною історією: ШІ-інструмент Claude Code допоміг йому…
Британський інститут безпеки штучного інтелекту (AISI) опублікував тривожне дослідження: сучасні моделі вже здатні самостійно проводити…
Варшава не має наміру відмовлятися від оподаткування цифрових платформ — навіть під тиском адміністрації Трампа.…
Переговори між Samsung Electronics та найбільшою профспілкою компанії зайшли у глухий кут. У середу, 13…