«Claude Haiku 4.5 генерує низькоякісний код»: експерт розповів, які моделі краще використовувати для рефакторингу
Тестування нещодавно випущеної LLM-моделі Claude Haiku 4.5 від компанії Anthropic виявило парадокс: вона створила найбільше коду, але низької якості. Про це інформує CodeLens.
При виконанні досить складного завдання TypeScript: рефакторингу клієнта WebSocket для додавання експонентного відкату, керування станом з’єднання та черги повідомлень, результати були несподіваними: Haiku 4.5 написала 13 666 токенів — найбільше з усіх 8 протестованих моделей. При цьому якість коду оцінено в 74,4 зі 100 балів. Для порівняння: Claude Sonnet 4.5 написала 8425 токенів (на 38% менше) та отримала 89,0/100 балів.
Таким чином, нова модель Haiku створила на 62% більше коду, але його якість була на 16% нижчою.
Після цього експерт виконав те саме завдання рефакторингу WebSocket для восьми інших моделей: GPT-5, OpenAI o3, Claude Opus 4.1, Claude Sonnet 4.5, Claude Haiku 4.5, Grok 4, Gemini 2.5 Pro та GLM 4.6. Кожна модель отримала ідентичні вхідні дані: оригінальний крихкий код та опис завдання, що вимагає надійну логіку перепідключення, експонентний відкат, керування станом та чергу повідомлень. Всі вихідні дані оцінювалися за 5 критеріями: якість коду, повнота, правильність, продуктивність та безпека.
Лідером тестів виявилась модель GPT-5 (94,6). На другому місці — Claude Sonnet 4.5 та o3 (обидві по 89 балів). Далі йдуть: Gemini 2.5 Pro (86,6), GLM 4.6 (84,4), Claude Opus 4.1 (81,6), Claude Haiku 4.5 (74,4). На останньому місці — Grok 4 (70).
Основними недоліками Claude Haiku 4.5 виявилась присутність надмірно багатослівного коду з ймовірними дублікатами методів та неоднозначним виведенням. Крім того, модель звинуватили в дубльованих визначеннях відправки та громіздкому шаблонному коді, який створює ризик помилок.
Нагадаємо, кілька днів тому Anthropic випустила нову оптимізовану для кодування модель Claude Haiku 4.5, яка, згідно з повідомленням у блозі компанії, пропонує аналогічну Sonnet 4 продуктивність, «за втричі меншу вартість та більш ніж удвічі вищу швидкість».
Сообщить об опечатке
Текст, который будет отправлен нашим редакторам: