Рубріки: Новини

Gemini 2.5 Pro залишається найкращою LLM-моделлю для кодування. Новинка Grok 4 лише третя

Дмитро Сімагін

Платформа для бенчмаркінгу великих мовних моделей LMArena опублікувала результати тестування Grok 4. Йдеться про API Grok 4 (grok-4-0709), яка зайняла 3-тє місце в загальному рейтингу Text Arena. Це великий стрибок у порівнянні з Grok 3, яка посіла 8-е місце, пише Bleeping Computer.

Згідно з тестами LMArena, Grok 4 отримала високі результати у всіх категоріях: №1 з математики, №2 з програмування, №3 у складних завданнях. Однак, варто зазначити, що протестована модель — це Grok 4, а не Grok 4 Heavy, яка значно краща за базову.

Результати можуть бути іншими з Grok 4 Heavy, яка використовує кілька агентів для міркування та порівняння результатів. На цей час модель Grok 4 Heavy ще не доступна на платформі API.

Gemini 2.5 Pro та Claude все ще залишаються найкращими моделями для кодування, але це може змінитися, коли в серпні xAI випустить Grok 4 Code — оптимізований інструмент для генерації та роботи з кодом. Також слід очікувати інструмент командного рядка, подібний до Gemini CLI та Claude Code.

 

Останні статті

Агент Gemini CLI інтегровано в редактор коду Zed

Компанія Google оголосила про інтеграцію агента на базі штучного інтелекту Gemini CLI з редактором коду…

29.08.2025

OpenAI випустила нову голосову модель і знизила ціни на 20%

OpenAI представила велику мовну модель gpt-realtime, оптимізовану для генерації мовлення. Про це повідомляє блог компанії.…

29.08.2025

Більшість проектів open source тримаються на одному розробнику

Більшість проектів з відкритим кодом тримаються на ентузіазмі одиночних розробників. Це стверджує Джош Брессерс, віце-президент…

29.08.2025

Anthropic буде навчати свої моделі на ваших чатах з Claude

Компанія Anthropic оголосила про зміни в політиці обробки даних: до 28 вересня всі користувачі інструмента…

29.08.2025

Код, згенерований senior-розробниками, потрапляє в продакшн у 2,5 рази частіше, ніж код джуніорів

Опитування, проведене хмарною платформою Fastly серед 791 розробника, виявило помітну різницю в тому, скільки коду,…

29.08.2025

Новий безкоштовний інструмент Microsoft створює 90-хвилинні подкасти з тексту

Компанія Microsoft представила новий проект з відкритим кодом VibeVoice, який перетворює текст на реалістичну мову…

28.08.2025