«Claude Haiku 4.5 генерує низькоякісний код»: експерт розповів, які моделі краще використовувати для рефакторингу
Тестування нещодавно випущеної LLM-моделі Claude Haiku 4.5 від компанії Anthropic виявило парадокс: вона створила найбільше коду, але низької якості. Про це інформує CodeLens.
При виконанні досить складного завдання TypeScript: рефакторингу клієнта WebSocket для додавання експонентного відкату, керування станом з’єднання та черги повідомлень, результати були несподіваними: Haiku 4.5 написала 13 666 токенів — найбільше з усіх 8 протестованих моделей. При цьому якість коду оцінено в 74,4 зі 100 балів. Для порівняння: Claude Sonnet 4.5 написала 8425 токенів (на 38% менше) та отримала 89,0/100 балів.
Таким чином, нова модель Haiku створила на 62% більше коду, але його якість була на 16% нижчою.
Після цього експерт виконав те саме завдання рефакторингу WebSocket для восьми інших моделей: GPT-5, OpenAI o3, Claude Opus 4.1, Claude Sonnet 4.5, Claude Haiku 4.5, Grok 4, Gemini 2.5 Pro та GLM 4.6. Кожна модель отримала ідентичні вхідні дані: оригінальний крихкий код та опис завдання, що вимагає надійну логіку перепідключення, експонентний відкат, керування станом та чергу повідомлень. Всі вихідні дані оцінювалися за 5 критеріями: якість коду, повнота, правильність, продуктивність та безпека.
Лідером тестів виявилась модель GPT-5 (94,6). На другому місці — Claude Sonnet 4.5 та o3 (обидві по 89 балів). Далі йдуть: Gemini 2.5 Pro (86,6), GLM 4.6 (84,4), Claude Opus 4.1 (81,6), Claude Haiku 4.5 (74,4). На останньому місці — Grok 4 (70).
Основними недоліками Claude Haiku 4.5 виявилась присутність надмірно багатослівного коду з ймовірними дублікатами методів та неоднозначним виведенням. Крім того, модель звинуватили в дубльованих визначеннях відправки та громіздкому шаблонному коді, який створює ризик помилок.
Нагадаємо, кілька днів тому Anthropic випустила нову оптимізовану для кодування модель Claude Haiku 4.5, яка, згідно з повідомленням у блозі компанії, пропонує аналогічну Sonnet 4 продуктивність, «за втричі меншу вартість та більш ніж удвічі вищу швидкість».
Українська ІТ-компанія FAVBET Tech за дев’ять місяців 2025 року перерахувала до державного бюджету понад 650…
Незабаром месенджер Telegram може поповнитись функцією трансляції прямих ефірів. Як повідомляє канал Telegram Info, у…
Google додає нову функцію для сторонніх розробників, які створюють додатки на базі Gemini API: інтеграцію…
Україна опинилась на пʼятому місці у світі серед країн, на які найчастіше спрямовані кібератаки. Про…
Google удосконалила помічник Gemini, додавши до його функціоналу можливість виконувати в Google Таблицях кілька дій…
Володіння мовою програмування С++ значно посилює шанси отримати посаду розробника ПЗ в українській IT-компанії. Фахівці…