Рубріки: Новини

Gemini 2.5 Pro залишається найкращою LLM-моделлю для кодування. Новинка Grok 4 лише третя

Дмитро Сімагін

16.07.2025 15:34

Платформа для бенчмаркінгу великих мовних моделей LMArena опублікувала результати тестування Grok 4. Йдеться про API Grok 4 (grok-4-0709), яка зайняла 3-тє місце в загальному рейтингу Text Arena. Це великий стрибок у порівнянні з Grok 3, яка посіла 8-е місце, пише Bleeping Computer.

Згідно з тестами LMArena, Grok 4 отримала високі результати у всіх категоріях: №1 з математики, №2 з програмування, №3 у складних завданнях. Однак, варто зазначити, що протестована модель — це Grok 4, а не Grok 4 Heavy, яка значно краща за базову.

Результати можуть бути іншими з Grok 4 Heavy, яка використовує кілька агентів для міркування та порівняння результатів. На цей час модель Grok 4 Heavy ще не доступна на платформі API.

Gemini 2.5 Pro та Claude все ще залишаються найкращими моделями для кодування, але це може змінитися, коли в серпні xAI випустить Grok 4 Code — оптимізований інструмент для генерації та роботи з кодом. Також слід очікувати інструмент командного рядка, подібний до Gemini CLI та Claude Code.

Наступна стаття Оновлення Next.js 15.4 покращує Turbopack перед версією 16 »

попередня стаття « Росіян готують до штрафів за перегляд українських сайтів

Дмитро Сімагін

Теги: Gemini 2.5 ProGrok 4LLM-модельxAI

16.07.2025 15:34

Останні статті

Новини

Claude Opus 4.7 та новий дизайн-інструмент: Anthropic готує подвійний удар

Компанія Anthropic готується до масштабного розширення своєї екосистеми. Вже цього тижня Anthropic представить LLM Claude…

15.04.2026

Новини

Група компаній FRACTAL запускає безоплатний застосунок для саморозвитку та професійного зростання

Українська група компаній FRACTAL презентує FRACTAL PLUS — безоплатний мобільний застосунок для самопізнання та професійного…

15.04.2026

Новини

Google Chrome запускає Skills: зберігайте промпти та додавайте їх одним кліком

Google запускає Skills — нову функцію в браузері Chrome, яка дозволяє зберігати промпти та додавати…

15.04.2026

Новини

Додаткові мільярди. Податкові надходженні від резидентів Дія.City різко зросли

За даними Мінцифри, сплата податкових надходжень від резидентів Дія.City стрімко зростає. Протягом першого кварталу 2026…

15.04.2026

Новини

У Росії готуються запровадити цензуру в чат-ботах, «як для запитів, так і для відповідей»

Російська влада розглядає можливість впровадження жорсткого контролю над тим, як громадяни спілкуються зі штучним інтелектом.…

15.04.2026

Новини

Anthropic запускає Routines: автоматизація Claude Code без участі розробника

Компанія Anthropic представила нову функцію під назвою Routines для свого інструменту кодування Claude Code. Це…

15.04.2026

Gemini 2.5 Pro залишається найкращою LLM-моделлю для кодування. Новинка Grok 4 лише третя

Схожі статті

Останні статті

Claude Opus 4.7 та новий дизайн-інструмент: Anthropic готує подвійний удар

Група компаній FRACTAL запускає безоплатний застосунок для саморозвитку та професійного зростання

Google Chrome запускає Skills: зберігайте промпти та додавайте їх одним кліком

Додаткові мільярди. Податкові надходженні від резидентів Дія.City різко зросли

У Росії готуються запровадити цензуру в чат-ботах, «як для запитів, так і для відповідей»

Anthropic запускає Routines: автоматизація Claude Code без участі розробника