Рубріки: Новини

«Claude Haiku 4.5 генерує низькоякісний код»: експерт розповів, які моделі краще використовувати для рефакторингу

Дмитро Сімагін

Тестування нещодавно випущеної LLM-моделі Claude Haiku 4.5 від компанії Anthropic виявило парадокс: вона створила найбільше коду, але низької якості. Про це інформує CodeLens.

При виконанні досить складного завдання TypeScript: рефакторингу клієнта WebSocket для додавання експонентного відкату, керування станом з’єднання та черги повідомлень, результати були несподіваними: Haiku 4.5 написала 13 666 токенів — найбільше з усіх 8 протестованих моделей. При цьому якість коду оцінено в 74,4 зі 100 балів. Для порівняння: Claude Sonnet 4.5 написала 8425 токенів (на 38% менше) та отримала 89,0/100 балів. 

Таким чином, нова модель Haiku створила на 62% більше коду, але його якість була на 16% нижчою.

Після цього експерт виконав те саме завдання рефакторингу WebSocket для восьми інших моделей: GPT-5, OpenAI o3, Claude Opus 4.1, Claude Sonnet 4.5, Claude Haiku 4.5, Grok 4, Gemini 2.5 Pro та GLM 4.6. Кожна модель отримала ідентичні вхідні дані: оригінальний крихкий код та опис завдання, що вимагає надійну логіку перепідключення, експонентний відкат, керування станом та чергу повідомлень. Всі вихідні дані оцінювалися за 5 критеріями: якість коду, повнота, правильність, продуктивність та безпека.

Лідером тестів виявилась модель GPT-5 (94,6). На другому місці — Claude Sonnet 4.5 та o3 (обидві по 89 балів). Далі йдуть: Gemini 2.5 Pro (86,6), GLM 4.6 (84,4), Claude Opus 4.1 (81,6), Claude Haiku 4.5 (74,4). На останньому місці — Grok 4 (70).

Основними недоліками Claude Haiku 4.5 виявилась присутність надмірно багатослівного коду з ймовірними дублікатами методів та неоднозначним виведенням. Крім того, модель звинуватили в дубльованих визначеннях відправки та громіздкому шаблонному коді, який створює ризик помилок.

Нагадаємо, кілька днів тому Anthropic випустила нову оптимізовану для кодування модель Claude Haiku 4.5, яка, згідно з повідомленням у блозі компанії, пропонує аналогічну Sonnet 4 продуктивність, «за втричі меншу вартість та більш ніж удвічі вищу швидкість».

 

Останні статті

FAVBET Tech сплатив понад 650 млн грн податків за 9 місяців 2025 року

Українська ІТ-компанія FAVBET Tech за дев’ять місяців 2025 року перерахувала до державного бюджету понад 650…

20.10.2025

Telegram тестує функцію прямих ефірів з особистих акаунтів

Незабаром месенджер Telegram може поповнитись функцією трансляції прямих ефірів. Як повідомляє канал Telegram Info, у…

20.10.2025

Google Maps тепер можна інтегрувати в сторонні додатки

Google додає нову функцію для сторонніх розробників, які створюють додатки на базі Gemini API: інтеграцію…

20.10.2025

Україна — п’ята у світі за кількістю кібератак

Україна опинилась на пʼятому місці у світі серед країн, на які найчастіше спрямовані кібератаки. Про…

17.10.2025

Gemini тепер може виконувати багатоетапні завдання в Google Таблицях

Google удосконалила помічник Gemini, додавши до його функціоналу можливість виконувати в Google Таблицях кілька дій…

17.10.2025

Знання C++ надає максимальні шанси знайти роботу в українському IT, найважче — JavaScript-розробникам

Володіння мовою програмування С++ значно посилює шанси отримати посаду розробника ПЗ в українській IT-компанії. Фахівці…

17.10.2025