Рубріки: Новини

Gemini 2.5 Pro залишається найкращою LLM-моделлю для кодування. Новинка Grok 4 лише третя

Дмитро Сімагін

Платформа для бенчмаркінгу великих мовних моделей LMArena опублікувала результати тестування Grok 4. Йдеться про API Grok 4 (grok-4-0709), яка зайняла 3-тє місце в загальному рейтингу Text Arena. Це великий стрибок у порівнянні з Grok 3, яка посіла 8-е місце, пише Bleeping Computer.

Згідно з тестами LMArena, Grok 4 отримала високі результати у всіх категоріях: №1 з математики, №2 з програмування, №3 у складних завданнях. Однак, варто зазначити, що протестована модель — це Grok 4, а не Grok 4 Heavy, яка значно краща за базову.

Результати можуть бути іншими з Grok 4 Heavy, яка використовує кілька агентів для міркування та порівняння результатів. На цей час модель Grok 4 Heavy ще не доступна на платформі API.

Gemini 2.5 Pro та Claude все ще залишаються найкращими моделями для кодування, але це може змінитися, коли в серпні xAI випустить Grok 4 Code — оптимізований інструмент для генерації та роботи з кодом. Також слід очікувати інструмент командного рядка, подібний до Gemini CLI та Claude Code.

 

Останні статті

Оновлення Next.js 15.4 покращує Turbopack перед версією 16

Команда Next.js, популярного в JavaScript-розробці фреймворку, випустила версію 15.4. Хоча це не дуже масштабне оновлення,…

16.07.2025

Росіян готують до штрафів за перегляд українських сайтів

Комітет Держдуми Росії з державного будівництва та законодавства запропонував ухвалити зміну до діючого законодавства, яка…

16.07.2025

Microsoft тестує в Copilot режим спільного доступу до робочого столу

Microsoft починає тестування нової функції Copilot Vision у Windows 11, яка дозволить користувачу ділитися всім…

16.07.2025

Творець Ruby on Rails назвав два головні критерії при наймі програмістів

Девід Ханссон, творець фреймворку Ruby on Rails, заявив, що при наймі програмістів звертає увагу зовсім…

16.07.2025

IT-компанія NIX закрила школу NIX Academy

Українська IT-компанія NIX закрила свою освітню ініціативу для школярів NIX Academy, яка працювала з 2019…

15.07.2025

Міноборони запускає програму для стартапів, що працюють з ШІ. Обіцяють виплатити по $250 тисяч

Міноборони України запускає нову програму K4 для стартапів, що працюють зі штучним інтелектом, повідомили в…

15.07.2025