Рубріки: Новини

Gemini 2.5 Pro залишається найкращою LLM-моделлю для кодування. Новинка Grok 4 лише третя

Дмитро Сімагін

Платформа для бенчмаркінгу великих мовних моделей LMArena опублікувала результати тестування Grok 4. Йдеться про API Grok 4 (grok-4-0709), яка зайняла 3-тє місце в загальному рейтингу Text Arena. Це великий стрибок у порівнянні з Grok 3, яка посіла 8-е місце, пише Bleeping Computer.

Згідно з тестами LMArena, Grok 4 отримала високі результати у всіх категоріях: №1 з математики, №2 з програмування, №3 у складних завданнях. Однак, варто зазначити, що протестована модель — це Grok 4, а не Grok 4 Heavy, яка значно краща за базову.

Результати можуть бути іншими з Grok 4 Heavy, яка використовує кілька агентів для міркування та порівняння результатів. На цей час модель Grok 4 Heavy ще не доступна на платформі API.

Gemini 2.5 Pro та Claude все ще залишаються найкращими моделями для кодування, але це може змінитися, коли в серпні xAI випустить Grok 4 Code — оптимізований інструмент для генерації та роботи з кодом. Також слід очікувати інструмент командного рядка, подібний до Gemini CLI та Claude Code.

 

Останні статті

Ілон Маск анонсував конкурента Microsoft та Apple. Новий проект Macrohard матиме свою операційну систему

Ілон Маск припускає, що його новий проект Macrohard не обмежуватиметься розробкою програмного забезпечення, як Microsoft,…

15.10.2025

Фонд вільного програмного забезпечення почав розробку Librephone — «повністю безкоштовної» версії Android

Фонд вільного програмного забезпечення (Free Software Foundation, FSF) оголосив про запуск проекту Librephone, який має…

15.10.2025

Indeema придбала Perfsol, зміцнюючи свої позиції у штучному інтелекті та розробці інтелектуальних систем

Indeema, глобальна інженерна компанія зі спеціалізацією в галузі IoT, оголосила про придбання Perfsol — компанії-розробника…

15.10.2025

Є і буде завжди: як працювати з невизначеністю? Досвід у FAVBET Tech

Бізнес-аналітик – це фахівець, який перетворює запити замовника на конкретні вимоги до програмного забезпечення. Тому…

15.10.2025

Поліція затримала шахраїв, які використовували штучний інтелект для оформлення кредитів на українців

Слідчі ГСУ Національної поліції України за підтримки інших правоохоронних структур затримали учасників організованого злочинного угруповання,…

15.10.2025

Вразливість GitHub Copilot Chat дозволяла викрадали чужі ключі та інші конфіденційні дані

Дослідник безпеки Омер Майраз виявив критичну вразливість у GitHub Copilot Chat (CVSS 9.6). Вона дозволяла…

15.10.2025