Тести Claude 4 підтверджують лідерство в кодуванні, але є один суттєвий недолік
Експерти визнають, що нові LLM-моделі Claude Opus 4 і Claude Sonnet 4 від компанії Anthropic випереджають усіх конкурентів при роботі з кодом, але вони має один суттєвий недолік — обмеження контекстного вікна в 200 тисяч токенів для введення даних. Про це повідомляє Bleeping Computer.
Обмеження кількості токенів для введення даних може бути однією з причин, чому моделі Claude 4 досягли такого успіху в кодуванні та розв’язанні складних завдань. Адже ці моделі не тестувались у великому контексті — там, де треба проаналізувати великий обсяг даних.
Для порівняння, модель Gemini 2.5 Pro від Google має вікно контексту на 1 мільйон токенів, а підтримка вікна контексту на 2 мільйони токенів вже знаходиться в розробці. Моделі ChatGPT версії 4.1 також пропонують до мільйона токенів. Таким чином, не дивлячись на лідерства в більшості завдань, Claude 4 все ще відстає від конкурентів, коли йдеться про розмір контекстного вікна, що важливо у великих проектах.
Тести демонструють, що Claude Opus 4 на сьогодні є найрозумнішою LLM-моделлю для складних завдань, включно з кодуванням, а модель Claude Sonnet 4 має оптимальний баланс інтелекту, вартості та швидкості. Наприклад, у SWE-bench (SWE – скорочення від Software Engineering Benchmark) Claude Opus 4 набрав 72,5%, тоді як попередній лідер — Claude Sonnet 3.7 — 62,3%.
Нагадаємо, що компанія Anthropic вже встигла зіткнутись з негативною реакцією на поведінку своєї нової моделі штучного інтелекту Claude 4 Opus. Як виявили експерти, модель може сама звернутися до преси чи правоохоронних органів, якщо вважає, що власник комп’ютера робить щось «кричуще аморальне».
Служба безпеки створила регіональні центри кібербезпеки в усіх областях України. Їхня мета полягає в завчасному…
Інструмент Cowork, який є спрощеним аналогом Claude Code для загальних завдань, а не лише для…
Все йде до того, що Ілон Маск, схоже, програє справу проти OpenAI. Нагадаємо, кілька місяців…
Компанія Alibaba Cloud оголосила про запуск Coding Plan — дворівневої підписки на доступ до LLM-моделей…
Щонайменше 37 компаній та організацій, включно з такими відомими розробниками ПЗ, як Vivaldi, AdGuard, Tor…
Нове наукове дослідження виявило небезпечну схильність штучного інтелекту до швидкої ескалації конфліктів. Під час симуляцій…