Рубріки: Новини

Тести Claude 4 підтверджують лідерство в кодуванні, але є один суттєвий недолік

Дмитро Сімагін

Експерти визнають, що нові LLM-моделі Claude Opus 4 і Claude Sonnet 4 від компанії Anthropic випереджають усіх конкурентів при роботі з кодом, але вони має один суттєвий недолік — обмеження контекстного вікна в 200 тисяч токенів для введення даних. Про це повідомляє Bleeping Computer.

Обмеження кількості токенів для введення даних може бути однією з причин, чому моделі Claude 4 досягли такого успіху в кодуванні та розв’язанні складних завдань. Адже ці моделі не тестувались у великому контексті — там, де треба проаналізувати великий обсяг даних.

Для порівняння, модель Gemini 2.5 Pro від Google має вікно контексту на 1 мільйон токенів, а підтримка вікна контексту на 2 мільйони токенів вже знаходиться в розробці. Моделі ChatGPT версії 4.1 також пропонують до мільйона токенів. Таким чином, не дивлячись на лідерства в більшості завдань, Claude 4 все ще відстає від конкурентів, коли йдеться про розмір контекстного вікна, що важливо у великих проектах.

Тести демонструють, що Claude Opus 4 на сьогодні є найрозумнішою LLM-моделлю для складних завдань, включно з кодуванням, а модель Claude Sonnet 4 має оптимальний баланс інтелекту, вартості та швидкості. Наприклад, у SWE-bench (SWE – скорочення від Software Engineering Benchmark) Claude Opus 4 набрав 72,5%, тоді як попередній лідер — Claude Sonnet 3.7 — 62,3%.

Нагадаємо, що компанія Anthropic вже встигла зіткнутись з негативною реакцією на поведінку своєї нової моделі штучного інтелекту Claude 4 Opus. Як виявили експерти, модель може сама звернутися до преси чи правоохоронних органів, якщо вважає, що власник комп’ютера робить щось «кричуще аморальне».

Останні статті

СБУ створила регіональні кіберцентри: чим вони займатимуться

Служба безпеки створила регіональні центри кібербезпеки в усіх областях України. Їхня мета полягає в завчасному…

26.02.2026

«Працює циклічно та за графіком»: у Cowork з’явились заплановані завдання

Інструмент Cowork, який є спрощеним аналогом Claude Code для загальних завдань, а не лише для…

26.02.2026

«Де докази, Ілон?»: суддя не вважає, що OpenAI викрала технологічні секрети xAI

Все йде до того, що Ілон Маск, схоже, програє справу проти OpenAI. Нагадаємо, кілька місяців…

26.02.2026

«Китайці демпінгують»: Alibaba Group пропонує місячний доступ до LLM-моделей лише за 50 гривень

Компанія Alibaba Cloud оголосила про запуск Coding Plan — дворівневої підписки на доступ до LLM-моделей…

26.02.2026

Розробники Android-додатків благають Google відмовитись від обов’язкової реєстрації

Щонайменше 37 компаній та організацій, включно з такими відомими розробниками ПЗ, як Vivaldi, AdGuard, Tor…

26.02.2026

«Майже завжди застосовує ядерну зброю»: вчені приголомшені симуляцією війни зі штучним інтелектом

Нове наукове дослідження виявило небезпечну схильність штучного інтелекту до швидкої ескалації конфліктів. Під час симуляцій…

26.02.2026