Рубріки: Новини

Тести Claude 4 підтверджують лідерство в кодуванні, але є один суттєвий недолік

Дмитро Сімагін

Експерти визнають, що нові LLM-моделі Claude Opus 4 і Claude Sonnet 4 від компанії Anthropic випереджають усіх конкурентів при роботі з кодом, але вони має один суттєвий недолік — обмеження контекстного вікна в 200 тисяч токенів для введення даних. Про це повідомляє Bleeping Computer.

Обмеження кількості токенів для введення даних може бути однією з причин, чому моделі Claude 4 досягли такого успіху в кодуванні та розв’язанні складних завдань. Адже ці моделі не тестувались у великому контексті — там, де треба проаналізувати великий обсяг даних.

Для порівняння, модель Gemini 2.5 Pro від Google має вікно контексту на 1 мільйон токенів, а підтримка вікна контексту на 2 мільйони токенів вже знаходиться в розробці. Моделі ChatGPT версії 4.1 також пропонують до мільйона токенів. Таким чином, не дивлячись на лідерства в більшості завдань, Claude 4 все ще відстає від конкурентів, коли йдеться про розмір контекстного вікна, що важливо у великих проектах.

Тести демонструють, що Claude Opus 4 на сьогодні є найрозумнішою LLM-моделлю для складних завдань, включно з кодуванням, а модель Claude Sonnet 4 має оптимальний баланс інтелекту, вартості та швидкості. Наприклад, у SWE-bench (SWE – скорочення від Software Engineering Benchmark) Claude Opus 4 набрав 72,5%, тоді як попередній лідер — Claude Sonnet 3.7 — 62,3%.

Нагадаємо, що компанія Anthropic вже встигла зіткнутись з негативною реакцією на поведінку своєї нової моделі штучного інтелекту Claude 4 Opus. Як виявили експерти, модель може сама звернутися до преси чи правоохоронних органів, якщо вважає, що власник комп’ютера робить щось «кричуще аморальне».

Останні статті

У Microsoft роз’яснили, як правильно писати коментарі в коді

Представник команди Microsoft Windows Реймонд Чен пояснив, як правильно писати коментарі в коді. За його…

10.10.2025

Google запустила платформу Gemini Enterprise з інструментами для програмування

Google відкрила доступ до платформи Gemini Enterprise. На ній є готові ШІ-агенти для аналізу даних,…

10.10.2025

Copilot тепер може створювати документи Office та підключатись до сторонніх сервісів

Компанія Microsoft випустила оновлення програми Copilot для Windows. Нова версія 1.25095.161.0 підтримує Copilot Connections та…

10.10.2025

Microsoft випускає Edit CLI — новий інструмент командного рядка для Windows 11

Microsoft додає новий інструмент до оновлення Windows 11 версії 25H2, яке випустили минулого тижня. Мова…

10.10.2025

OpenAI наздоганяє Anthropic в якості коду: Codex має 74,3% успішності порівняно з 73,7% у Claude Code

Агентний інструмент генерації коду Codex від компанії OpenAI наздоганяє за певними можливостями аналогічний продукт Claude…

10.10.2025

OpenAI збирається перетворити ChatGPT на операційну систему

Компанія OpenAI має намір перетворити ChatGPT на повноцінну операційну систему з екосистемою додатків. Про це…

09.10.2025