Рубріки: Новини

Тести Claude 4 підтверджують лідерство в кодуванні, але є один суттєвий недолік

Дмитро Сімагін

Експерти визнають, що нові LLM-моделі Claude Opus 4 і Claude Sonnet 4 від компанії Anthropic випереджають усіх конкурентів при роботі з кодом, але вони має один суттєвий недолік — обмеження контекстного вікна в 200 тисяч токенів для введення даних. Про це повідомляє Bleeping Computer.

Обмеження кількості токенів для введення даних може бути однією з причин, чому моделі Claude 4 досягли такого успіху в кодуванні та розв’язанні складних завдань. Адже ці моделі не тестувались у великому контексті — там, де треба проаналізувати великий обсяг даних.

Для порівняння, модель Gemini 2.5 Pro від Google має вікно контексту на 1 мільйон токенів, а підтримка вікна контексту на 2 мільйони токенів вже знаходиться в розробці. Моделі ChatGPT версії 4.1 також пропонують до мільйона токенів. Таким чином, не дивлячись на лідерства в більшості завдань, Claude 4 все ще відстає від конкурентів, коли йдеться про розмір контекстного вікна, що важливо у великих проектах.

Тести демонструють, що Claude Opus 4 на сьогодні є найрозумнішою LLM-моделлю для складних завдань, включно з кодуванням, а модель Claude Sonnet 4 має оптимальний баланс інтелекту, вартості та швидкості. Наприклад, у SWE-bench (SWE – скорочення від Software Engineering Benchmark) Claude Opus 4 набрав 72,5%, тоді як попередній лідер — Claude Sonnet 3.7 — 62,3%.

Нагадаємо, що компанія Anthropic вже встигла зіткнутись з негативною реакцією на поведінку своєї нової моделі штучного інтелекту Claude 4 Opus. Як виявили експерти, модель може сама звернутися до преси чи правоохоронних органів, якщо вважає, що власник комп’ютера робить щось «кричуще аморальне».

Останні статті

Anthropic оновлює Claude Code до версії 2.1.0

Компанія Anthropic випустила Claude Code у версії 2.1.0, яка стала помітним оновленням цього популярного інструменту…

09.01.2026

Senior-розробник Microsoft дає поради, як програмісту вижити в епоху штучного інтелекту

Нандіта Гірі, 32-річна програмістка з головного офісу Microsoft у Редмонді поділилась порадами, як розробникам слід…

09.01.2026

EPAM заключає партнерство з Cursor для створення та масштабування команд ШІ-розробників

Одна з найбільших світових аутсорс-компаній EPAM Systems оголосила про стратегічне партнерство з Cursor. Мета співпраці…

09.01.2026

Штучний інтелект у Gmail тепер сам буде вирішувати, які листи вам показувати в першу чергу

Google вносить масштабні зміни в Gmail, інтегруючи в поштовий сервіс можливості штучного інтелекту на базі…

09.01.2026

Ілон Маск анонсував випуск Grok Code — нового інструменту для вайб-кодингу

Ілон Маск анонсував значне оновлення LLM-моделі Grok разом із новими продуктами, в тому числі інструментом…

09.01.2026

CEO Replit: завдяки вайб-кодуванню керівникам більше не потрібно благати програмістів про допомогу

Глава стартапу Replit, який відомий однойменним IDE, Амджад Масад заявив, що інструменти вайб-кодингу змінюють баланс…

08.01.2026