Рубріки: Новини

Тести Claude 4 підтверджують лідерство в кодуванні, але є один суттєвий недолік

Дмитро Сімагін

Експерти визнають, що нові LLM-моделі Claude Opus 4 і Claude Sonnet 4 від компанії Anthropic випереджають усіх конкурентів при роботі з кодом, але вони має один суттєвий недолік — обмеження контекстного вікна в 200 тисяч токенів для введення даних. Про це повідомляє Bleeping Computer.

Обмеження кількості токенів для введення даних може бути однією з причин, чому моделі Claude 4 досягли такого успіху в кодуванні та розв’язанні складних завдань. Адже ці моделі не тестувались у великому контексті — там, де треба проаналізувати великий обсяг даних.

Для порівняння, модель Gemini 2.5 Pro від Google має вікно контексту на 1 мільйон токенів, а підтримка вікна контексту на 2 мільйони токенів вже знаходиться в розробці. Моделі ChatGPT версії 4.1 також пропонують до мільйона токенів. Таким чином, не дивлячись на лідерства в більшості завдань, Claude 4 все ще відстає від конкурентів, коли йдеться про розмір контекстного вікна, що важливо у великих проектах.

Тести демонструють, що Claude Opus 4 на сьогодні є найрозумнішою LLM-моделлю для складних завдань, включно з кодуванням, а модель Claude Sonnet 4 має оптимальний баланс інтелекту, вартості та швидкості. Наприклад, у SWE-bench (SWE – скорочення від Software Engineering Benchmark) Claude Opus 4 набрав 72,5%, тоді як попередній лідер — Claude Sonnet 3.7 — 62,3%.

Нагадаємо, що компанія Anthropic вже встигла зіткнутись з негативною реакцією на поведінку своєї нової моделі штучного інтелекту Claude 4 Opus. Як виявили експерти, модель може сама звернутися до преси чи правоохоронних органів, якщо вважає, що власник комп’ютера робить щось «кричуще аморальне».

Останні статті

Журналістка без досвіду в IT за два дні стала професійним вайб-кодером

Журналістка в якості експерименту провела два дні в офісі IT-компанії Notion, де спробувала себе у…

25.08.2025

Заснована українцями Grammarly збирається конкурувати з ChatGPT. Центром розробки стане Київ

Найбільший єдиноріг з українським корінням, Grammarly, незабаром змінить назву і перетвориться із сервісу перевірки граматики…

25.08.2025

13,4% українських айтівців готуються виїхати за кордон, 20% планують повернутись

48% українських IT-фахівців (у 2024 — 51%) готуються емігрувати або думають про це без наявності…

25.08.2025

Microsoft тестує функцію відновлення роботи Android-додатків у Windows 11

Компанія Microsoft почала тестувати нову функцію Windows 11, яка дозволяє переносити сеанс роботи з Android-програмою…

25.08.2025

Ілон Маск відкрив код Grok 2.5 і пообіцяв зробити те саме з Grok 3

Ілон Маск заявив, що його компанія xAI відкрила код LLM-моделі Grok 2.5. Завантажити її можна…

25.08.2025

CEO Coinbase звільнив програмістів, які не використовували штучний інтелект

Генеральний директор криптовалютної біржі Coinbase Браян Армстронг розповів, що нещодавно звільнив програмістів, які ще не…

22.08.2025