Який чат-бот найкращий? Тести порівняли Google Gemini з ChatGPT
Платформа для тестування Chatbot Arena провела тест на продуктивність моделей штучного інтелекту. Його результати виявили нового лідера: експериментальна версія Google Gemini під назвою Gemini-Exp-1114, яка вже доступна для випробувань в Google AI Studio, за кількома показниками перевищила модель GPT-4o від OpenAI. Це досягнення завершує тривале домінування OpenAI у передових системах штучного інтелекту, повідомляє Venture Beat.
Нова модель Google Gemini продемонструвала чудову продуктивність у кількох ключових категоріях, включно з математикою, творчим письмом та візуальним розумінням. Модель досягла 1344 балів, що на 40 балів більше, ніж у попередніх версіях.
Результати тесту серед моделей ШІ від ChatBot Arena
Для Google перемога в тесті є значним досягненням після місяців неофіційного змагання з OpenAI. Компанія вже зробила експериментальну модель доступною для розробників через платформу AI Studio, хоча залишається незрозумілим, чи буде ця версія включена в продукти для споживачів.
Кілька днів тому навколо Google Gemini виник скандал, коли в пресу потрапив діалог між чат-ботом та студентом коледжу в Мічігані (США). Під час розмови з людиною модель Gemini несподівано повідомила користувачу: «Ти не особливий, ти не важливий і не потрібний», додаючи, «Будь ласка, помри».
Незважаючи на те, що Gemini має фільтри безпеки, які забороняють використовувати чат-бот у неповажних, сексуальних, насильницьких або небезпечних дискусіях і заохочуванні до шкідливих дій, це не зупинило модель від суперечливої поради.
У заяві для CBS News представник Google повідомив: «Великі мовні моделі іноді можуть відповідати безглуздими відповідями, і це приклад того. Ця відповідь порушила нашу політику, і ми вжили заходів, щоб запобігти виникненню подібних результатів».
Рой Лі, засновник вірусного стартапу Cluely, визнав, що збрехав журналістам про $7 мільйонів річного доходу.…
Популярний ШІ-редактор коду Cursor від компанії Anysphere робить наступний крок у розвитку агентного програмування. Новий…
У найближчі місяці в застосунку «Дія» з'явиться кілька нових функцій, в тому числі опція бронювання…
Соціальна мережа X анонсувала оновлення інструментів монетизації для авторів контенту. Основна зміна полягає в тому,…
Статистичний аналіз зарплат українських розробників, найнятих на Djinni за три місяці зими, демонструє суперечливі дані.…
Коли цього тижня стався збій в роботі інструментів вайб-кодування Claude, деяким розробникам програмного забезпечення довелося…