Рубріки: Новини

Gemini 2.5 Pro залишається найкращою LLM-моделлю для кодування. Новинка Grok 4 лише третя

Дмитро Сімагін

Платформа для бенчмаркінгу великих мовних моделей LMArena опублікувала результати тестування Grok 4. Йдеться про API Grok 4 (grok-4-0709), яка зайняла 3-тє місце в загальному рейтингу Text Arena. Це великий стрибок у порівнянні з Grok 3, яка посіла 8-е місце, пише Bleeping Computer.

Згідно з тестами LMArena, Grok 4 отримала високі результати у всіх категоріях: №1 з математики, №2 з програмування, №3 у складних завданнях. Однак, варто зазначити, що протестована модель — це Grok 4, а не Grok 4 Heavy, яка значно краща за базову.

Результати можуть бути іншими з Grok 4 Heavy, яка використовує кілька агентів для міркування та порівняння результатів. На цей час модель Grok 4 Heavy ще не доступна на платформі API.

Gemini 2.5 Pro та Claude все ще залишаються найкращими моделями для кодування, але це може змінитися, коли в серпні xAI випустить Grok 4 Code — оптимізований інструмент для генерації та роботи з кодом. Також слід очікувати інструмент командного рядка, подібний до Gemini CLI та Claude Code.

 

Останні статті

«Скопіювали чужий код»: конкурс з розробки LLM-моделі з нуля провалився

Зусилля уряду Південної Кореї створити нативну модель штучного інтелекту без іноземних запозичень зазнали фіаско. Конкурс,…

14.01.2026

Google опублікувала Universal Commerce Protocol. Він стандартизує замовлення та онлайн-оплату через агентів штучного інтелекту

Компанія Google оприлюднила перший проект Universal Commerce Protocol (UCP) — нового стандарту з відкритим кодом,…

14.01.2026

Творець месенджера Signal представив ШІ-помічника Confer. Він має відкритий код та засоби шифрування

Моксі Марлінспайк — псевдонім розробника, який стоїть за створенням «конфіденційного» месенджера Signal, — тепер прагне…

14.01.2026

Microsoft відкрила код середовища розробки прототипів XAML Studio

Microsoft відкрила вихідний код свого проекту XAML Studio. Це інструмент розробки, який дозволяє швидко створювати…

14.01.2026

Хакери активно маскуються під українські благодійні фонди — CERT-UA

Протягом жовтня-грудня 2025 року командою реагування на кіберзагрози CERT-UA, у взаємодії з Командою реагування на…

14.01.2026

Придбаний Meta стартап Manus випустив інструмент для запису, розшифровки та аналізу зустрічей

Сінгапурський стартап Manus, який нещодавно за $2 мільярди придбала компанія Meta, представив новий інструмент Meeting…

13.01.2026