Рубріки: Новини

Gemini 2.5 Pro залишається найкращою LLM-моделлю для кодування. Новинка Grok 4 лише третя

Дмитро Сімагін

Платформа для бенчмаркінгу великих мовних моделей LMArena опублікувала результати тестування Grok 4. Йдеться про API Grok 4 (grok-4-0709), яка зайняла 3-тє місце в загальному рейтингу Text Arena. Це великий стрибок у порівнянні з Grok 3, яка посіла 8-е місце, пише Bleeping Computer.

Згідно з тестами LMArena, Grok 4 отримала високі результати у всіх категоріях: №1 з математики, №2 з програмування, №3 у складних завданнях. Однак, варто зазначити, що протестована модель — це Grok 4, а не Grok 4 Heavy, яка значно краща за базову.

Результати можуть бути іншими з Grok 4 Heavy, яка використовує кілька агентів для міркування та порівняння результатів. На цей час модель Grok 4 Heavy ще не доступна на платформі API.

Gemini 2.5 Pro та Claude все ще залишаються найкращими моделями для кодування, але це може змінитися, коли в серпні xAI випустить Grok 4 Code — оптимізований інструмент для генерації та роботи з кодом. Також слід очікувати інструмент командного рядка, подібний до Gemini CLI та Claude Code.

 

Останні статті

Чому сертифікована платформа швидше масштабується: технічний погляд та досвід команди SharksCode

Коли говорять про масштабування ІТ-продукту, зазвичай мають на увазі збільшення обсягу інфраструктури, щоб витримати більше…

27.02.2026

Китай розповсюджує теорію змови про «криптовалютну гегемонію» США

Китайський Національний центр реагування на комп’ютерні віруси (CVERC) оприлюднив звіт під гучною назвою «Top Player».…

27.02.2026

Григорович повернувся: найвідоміший український гейм-розробник анонсував новий проект S.T.R.A.N.G.E.R

Засновник відомої української геймдев-студії GSC Game World Сергій Григорович активно працює над новим проектом у…

27.02.2026

Microsoft теж виходить на ринок агентів. Зустрічайте Copilot Tasks

Microsoft анонсувала бета-версію нового інструмента штучного інтелекту під назвою Copilot Tasks. За словами компанії, він…

27.02.2026

Магія інновацій: як перетворити щоденний догляд на справжнє мистецтво за допомогою смарт-девайсів

Весна 2026 року диктує нові правила турботи про себе, де технології стають не просто зручним…

27.02.2026

«Claude cпочатку відмовлявся та заперечував»: хакер змусив LLM стати його спільником у нападі на уряд Мексики

Невідомий хакер використав модель штучного інтелекту Claude для серії атак на державні установи Мексики. За…

27.02.2026