Рубріки: Новини

Gemini 2.5 Pro залишається найкращою LLM-моделлю для кодування. Новинка Grok 4 лише третя

Дмитро Сімагін

Платформа для бенчмаркінгу великих мовних моделей LMArena опублікувала результати тестування Grok 4. Йдеться про API Grok 4 (grok-4-0709), яка зайняла 3-тє місце в загальному рейтингу Text Arena. Це великий стрибок у порівнянні з Grok 3, яка посіла 8-е місце, пише Bleeping Computer.

Згідно з тестами LMArena, Grok 4 отримала високі результати у всіх категоріях: №1 з математики, №2 з програмування, №3 у складних завданнях. Однак, варто зазначити, що протестована модель — це Grok 4, а не Grok 4 Heavy, яка значно краща за базову.

Результати можуть бути іншими з Grok 4 Heavy, яка використовує кілька агентів для міркування та порівняння результатів. На цей час модель Grok 4 Heavy ще не доступна на платформі API.

Gemini 2.5 Pro та Claude все ще залишаються найкращими моделями для кодування, але це може змінитися, коли в серпні xAI випустить Grok 4 Code — оптимізований інструмент для генерації та роботи з кодом. Також слід очікувати інструмент командного рядка, подібний до Gemini CLI та Claude Code.

 

Останні статті

Claude Opus 4.7 та новий дизайн-інструмент: Anthropic готує подвійний удар

Компанія Anthropic готується до масштабного розширення своєї екосистеми. Вже цього тижня Anthropic представить LLM Claude…

15.04.2026

Група компаній FRACTAL запускає безоплатний застосунок для саморозвитку та професійного зростання

Українська група компаній FRACTAL презентує FRACTAL PLUS — безоплатний мобільний застосунок для самопізнання та професійного…

15.04.2026

Google Chrome запускає Skills: зберігайте промпти та додавайте їх одним кліком

Google запускає Skills — нову функцію в браузері Chrome, яка дозволяє зберігати промпти та додавати…

15.04.2026

Додаткові мільярди. Податкові надходженні від резидентів Дія.City різко зросли

За даними Мінцифри, сплата податкових надходжень від резидентів Дія.City стрімко зростає. Протягом першого кварталу 2026…

15.04.2026

У Росії готуються запровадити цензуру в чат-ботах, «як для запитів, так і для відповідей»

Російська влада розглядає можливість впровадження жорсткого контролю над тим, як громадяни спілкуються зі штучним інтелектом.…

15.04.2026

Anthropic запускає Routines: автоматизація Claude Code без участі розробника

Компанія Anthropic представила нову функцію під назвою Routines для свого інструменту кодування Claude Code. Це…

15.04.2026