Рубріки: Новини

Gemini 2.5 Pro залишається найкращою LLM-моделлю для кодування. Новинка Grok 4 лише третя

Дмитро Сімагін

16.07.2025 15:34

Платформа для бенчмаркінгу великих мовних моделей LMArena опублікувала результати тестування Grok 4. Йдеться про API Grok 4 (grok-4-0709), яка зайняла 3-тє місце в загальному рейтингу Text Arena. Це великий стрибок у порівнянні з Grok 3, яка посіла 8-е місце, пише Bleeping Computer.

Згідно з тестами LMArena, Grok 4 отримала високі результати у всіх категоріях: №1 з математики, №2 з програмування, №3 у складних завданнях. Однак, варто зазначити, що протестована модель — це Grok 4, а не Grok 4 Heavy, яка значно краща за базову.

Результати можуть бути іншими з Grok 4 Heavy, яка використовує кілька агентів для міркування та порівняння результатів. На цей час модель Grok 4 Heavy ще не доступна на платформі API.

Gemini 2.5 Pro та Claude все ще залишаються найкращими моделями для кодування, але це може змінитися, коли в серпні xAI випустить Grok 4 Code — оптимізований інструмент для генерації та роботи з кодом. Також слід очікувати інструмент командного рядка, подібний до Gemini CLI та Claude Code.

Наступна стаття Оновлення Next.js 15.4 покращує Turbopack перед версією 16 »

попередня стаття « Росіян готують до штрафів за перегляд українських сайтів

Дмитро Сімагін

Теги: Gemini 2.5 ProGrok 4LLM-модельxAI

16.07.2025 15:34

Останні статті

Спецпроєкти

Чому сертифікована платформа швидше масштабується: технічний погляд та досвід команди SharksCode

Коли говорять про масштабування ІТ-продукту, зазвичай мають на увазі збільшення обсягу інфраструктури, щоб витримати більше…

27.02.2026

Новини

Китай розповсюджує теорію змови про «криптовалютну гегемонію» США

Китайський Національний центр реагування на комп’ютерні віруси (CVERC) оприлюднив звіт під гучною назвою «Top Player».…

27.02.2026

Новини

Григорович повернувся: найвідоміший український гейм-розробник анонсував новий проект S.T.R.A.N.G.E.R

Засновник відомої української геймдев-студії GSC Game World Сергій Григорович активно працює над новим проектом у…

27.02.2026

Новини

Microsoft теж виходить на ринок агентів. Зустрічайте Copilot Tasks

Microsoft анонсувала бета-версію нового інструмента штучного інтелекту під назвою Copilot Tasks. За словами компанії, він…

27.02.2026

Спецпроєкти

Магія інновацій: як перетворити щоденний догляд на справжнє мистецтво за допомогою смарт-девайсів

Весна 2026 року диктує нові правила турботи про себе, де технології стають не просто зручним…

27.02.2026

Новини

«Claude cпочатку відмовлявся та заперечував»: хакер змусив LLM стати його спільником у нападі на уряд Мексики

Невідомий хакер використав модель штучного інтелекту Claude для серії атак на державні установи Мексики. За…

27.02.2026

Gemini 2.5 Pro залишається найкращою LLM-моделлю для кодування. Новинка Grok 4 лише третя

Схожі статті

Останні статті

Чому сертифікована платформа швидше масштабується: технічний погляд та досвід команди SharksCode

Китай розповсюджує теорію змови про «криптовалютну гегемонію» США

Григорович повернувся: найвідоміший український гейм-розробник анонсував новий проект S.T.R.A.N.G.E.R

Microsoft теж виходить на ринок агентів. Зустрічайте Copilot Tasks

Магія інновацій: як перетворити щоденний догляд на справжнє мистецтво за допомогою смарт-девайсів

«Claude cпочатку відмовлявся та заперечував»: хакер змусив LLM стати його спільником у нападі на уряд Мексики