Рубріки: Новини

Який чат-бот найкращий? Тести порівняли Google Gemini з ChatGPT

Дмитро Сімагін

Платформа для тестування Chatbot Arena провела тест на продуктивність моделей штучного інтелекту. Його результати виявили нового лідера: експериментальна версія Google Gemini під назвою Gemini-Exp-1114, яка вже доступна для випробувань в Google AI Studio, за кількома показниками перевищила модель GPT-4o від OpenAI. Це досягнення завершує тривале домінування OpenAI у передових системах штучного інтелекту, повідомляє Venture Beat.

Нова модель Google Gemini продемонструвала чудову продуктивність у кількох ключових категоріях, включно з математикою, творчим письмом та візуальним розумінням. Модель досягла 1344 балів, що на 40 балів більше, ніж у попередніх версіях.

Результати тесту серед моделей ШІ від ChatBot Arena

Для Google перемога в тесті є значним досягненням після місяців неофіційного змагання з OpenAI. Компанія вже зробила експериментальну модель доступною для розробників через платформу AI Studio, хоча залишається незрозумілим, чи буде ця версія включена в продукти для споживачів.

Кілька днів тому навколо Google Gemini виник скандал, коли в пресу потрапив діалог між чат-ботом та студентом коледжу в Мічігані (США). Під час розмови з людиною модель Gemini несподівано повідомила користувачу: «Ти не особливий, ти не важливий і не потрібний», додаючи, «Будь ласка, помри».

Незважаючи на те, що Gemini має фільтри безпеки, які забороняють використовувати чат-бот у неповажних, сексуальних, насильницьких або небезпечних дискусіях і заохочуванні до шкідливих дій, це не зупинило модель від суперечливої поради.

У заяві для CBS News представник Google повідомив: «Великі мовні моделі іноді можуть відповідати безглуздими відповідями, і це приклад того. Ця відповідь порушила нашу політику, і ми вжили заходів, щоб запобігти виникненню подібних результатів».

Останні статті

Всюди брехня: розробник програми для обману на співбесідах визнав, що збрехав журналістам про свій дохід

Рой Лі, засновник вірусного стартапу Cluely, визнав, що збрехав журналістам про $7 мільйонів річного доходу.…

06.03.2026

Cursor запускає ще один інструмент агентного кодування — Automations

Популярний ШІ-редактор коду Cursor від компанії Anysphere робить наступний крок у розвитку агентного програмування. Новий…

06.03.2026

Нові функції «Дії»: бронювання працівників у розшуку та податкові знижки

У найближчі місяці в застосунку «Дія» з'явиться кілька нових функцій, в тому числі опція бронювання…

06.03.2026

X запускає новий варіант монетизації: «Ексклюзивні теми» з платним доступом

Соціальна мережа X анонсувала оновлення інструментів монетизації для авторів контенту. Основна зміна полягає в тому,…

06.03.2026

Зарплати українських розробників: наймів більше, але грошей менше

Статистичний аналіз зарплат українських розробників, найнятих на Djinni за три місяці зими, демонструє суперечливі дані.…

06.03.2026

«Вже не можу писати код вручну»: збій в роботі Claude викликав проблеми у деяких розробників

Коли цього тижня стався збій в роботі інструментів вайб-кодування Claude, деяким розробникам програмного забезпечення довелося…

06.03.2026