Тести Claude 4 підтверджують лідерство в кодуванні, але є один суттєвий недолік
Експерти визнають, що нові LLM-моделі Claude Opus 4 і Claude Sonnet 4 від компанії Anthropic випереджають усіх конкурентів при роботі з кодом, але вони має один суттєвий недолік — обмеження контекстного вікна в 200 тисяч токенів для введення даних. Про це повідомляє Bleeping Computer.
Обмеження кількості токенів для введення даних може бути однією з причин, чому моделі Claude 4 досягли такого успіху в кодуванні та розв’язанні складних завдань. Адже ці моделі не тестувались у великому контексті — там, де треба проаналізувати великий обсяг даних.
Для порівняння, модель Gemini 2.5 Pro від Google має вікно контексту на 1 мільйон токенів, а підтримка вікна контексту на 2 мільйони токенів вже знаходиться в розробці. Моделі ChatGPT версії 4.1 також пропонують до мільйона токенів. Таким чином, не дивлячись на лідерства в більшості завдань, Claude 4 все ще відстає від конкурентів, коли йдеться про розмір контекстного вікна, що важливо у великих проектах.
Тести демонструють, що Claude Opus 4 на сьогодні є найрозумнішою LLM-моделлю для складних завдань, включно з кодуванням, а модель Claude Sonnet 4 має оптимальний баланс інтелекту, вартості та швидкості. Наприклад, у SWE-bench (SWE – скорочення від Software Engineering Benchmark) Claude Opus 4 набрав 72,5%, тоді як попередній лідер — Claude Sonnet 3.7 — 62,3%.
Нагадаємо, що компанія Anthropic вже встигла зіткнутись з негативною реакцією на поведінку своєї нової моделі штучного інтелекту Claude 4 Opus. Як виявили експерти, модель може сама звернутися до преси чи правоохоронних органів, якщо вважає, що власник комп’ютера робить щось «кричуще аморальне».
Кіберзлочинці розсилають українським компаніям і громадянам фішингові e-mail нібито від імені Державної податкової служби України.…
Компанія Anthropic зіткнулась з негативною реакцією на поведінку своєї нової моделі штучного інтелекту Claude 4…
Microsoft тестує нову функцію в додатку Блокнот, яка може генерувати текст за допомогою штучного інтелекту.…
Мінцифри працює над альтернативним способом бронювання співробітників компаній, де керівниками є іноземні громадяни. Це дозволить…
Месенджер Telegram, заснований Павлом Дуровим, у 2024 році вперше вийшов на річний прибуток, заробивши $540…
Компанія Anthropic оголосила про запуск Claude 4 — першої великої модернізації свого флагманського ШІ після…