Рубріки: Новини

Тести Claude 4 підтверджують лідерство в кодуванні, але є один суттєвий недолік

Дмитро Сімагін

Експерти визнають, що нові LLM-моделі Claude Opus 4 і Claude Sonnet 4 від компанії Anthropic випереджають усіх конкурентів при роботі з кодом, але вони має один суттєвий недолік — обмеження контекстного вікна в 200 тисяч токенів для введення даних. Про це повідомляє Bleeping Computer.

Обмеження кількості токенів для введення даних може бути однією з причин, чому моделі Claude 4 досягли такого успіху в кодуванні та розв’язанні складних завдань. Адже ці моделі не тестувались у великому контексті — там, де треба проаналізувати великий обсяг даних.

Для порівняння, модель Gemini 2.5 Pro від Google має вікно контексту на 1 мільйон токенів, а підтримка вікна контексту на 2 мільйони токенів вже знаходиться в розробці. Моделі ChatGPT версії 4.1 також пропонують до мільйона токенів. Таким чином, не дивлячись на лідерства в більшості завдань, Claude 4 все ще відстає від конкурентів, коли йдеться про розмір контекстного вікна, що важливо у великих проектах.

Тести демонструють, що Claude Opus 4 на сьогодні є найрозумнішою LLM-моделлю для складних завдань, включно з кодуванням, а модель Claude Sonnet 4 має оптимальний баланс інтелекту, вартості та швидкості. Наприклад, у SWE-bench (SWE – скорочення від Software Engineering Benchmark) Claude Opus 4 набрав 72,5%, тоді як попередній лідер — Claude Sonnet 3.7 — 62,3%.

Нагадаємо, що компанія Anthropic вже встигла зіткнутись з негативною реакцією на поведінку своєї нової моделі штучного інтелекту Claude 4 Opus. Як виявили експерти, модель може сама звернутися до преси чи правоохоронних органів, якщо вважає, що власник комп’ютера робить щось «кричуще аморальне».

Останні статті

Безлім на швидкості 400 Кбіт/с: уряд Південної Кореї зобов’язав мобільних операторів надавати інтернет безкоштовно

Уряд Південної Кореї оголосив про масштабну реформу ринку мобільного зв'язку. Міністерство науки та інформаційно-комунікаційних технологій…

10.04.2026

Видалення програми не врятує: ФБР навчилося читати повідомлення Signal через кеш iOS

Правоохоронні органи винайшли новий метод для обходу конфіденційності месенджерів. Під час судового процесу в Техасі…

10.04.2026

Claude Cowork став загальнодоступним в усіх тарифних планах на Windows і macOS

Компанія Anthropic оголосила про масштабне оновлення свого інструменту Claude Cowork. Тепер він доступний користувачам усіх…

10.04.2026

Коментарі в Instagram тепер можна редагувати. Але є умова

Соцмережа Instagram офіційно запровадила функцію, на яку користувачі чекали роками — можливість редагувати опубліковані коментарі.…

10.04.2026

Чат-бот Gemini тепер може створювати 3D-моделі та інтерактивні діаграми

Google продовжує розширювати межі мультимодальності свого штучного інтелекту. Останнє оновлення Gemini впроваджує дві критично важливі…

10.04.2026

«Банки почнуть зламувати першими»: міністр фінансів США Скотт Бессент терміново зібрав банкірів через ризики Claude Mythos

Міністр фінансів США Скотт Бессент і голова Федеральної резервної системи Джером Пауелл провели термінову зустріч…

10.04.2026