Рубріки: Новини

«Claude Haiku 4.5 генерує низькоякісний код»: експерт розповів, які моделі краще використовувати для рефакторингу

Дмитро Сімагін

Тестування нещодавно випущеної LLM-моделі Claude Haiku 4.5 від компанії Anthropic виявило парадокс: вона створила найбільше коду, але низької якості. Про це інформує CodeLens.

При виконанні досить складного завдання TypeScript: рефакторингу клієнта WebSocket для додавання експонентного відкату, керування станом з’єднання та черги повідомлень, результати були несподіваними: Haiku 4.5 написала 13 666 токенів — найбільше з усіх 8 протестованих моделей. При цьому якість коду оцінено в 74,4 зі 100 балів. Для порівняння: Claude Sonnet 4.5 написала 8425 токенів (на 38% менше) та отримала 89,0/100 балів. 

Таким чином, нова модель Haiku створила на 62% більше коду, але його якість була на 16% нижчою.

Після цього експерт виконав те саме завдання рефакторингу WebSocket для восьми інших моделей: GPT-5, OpenAI o3, Claude Opus 4.1, Claude Sonnet 4.5, Claude Haiku 4.5, Grok 4, Gemini 2.5 Pro та GLM 4.6. Кожна модель отримала ідентичні вхідні дані: оригінальний крихкий код та опис завдання, що вимагає надійну логіку перепідключення, експонентний відкат, керування станом та чергу повідомлень. Всі вихідні дані оцінювалися за 5 критеріями: якість коду, повнота, правильність, продуктивність та безпека.

Лідером тестів виявилась модель GPT-5 (94,6). На другому місці — Claude Sonnet 4.5 та o3 (обидві по 89 балів). Далі йдуть: Gemini 2.5 Pro (86,6), GLM 4.6 (84,4), Claude Opus 4.1 (81,6), Claude Haiku 4.5 (74,4). На останньому місці — Grok 4 (70).

Основними недоліками Claude Haiku 4.5 виявилась присутність надмірно багатослівного коду з ймовірними дублікатами методів та неоднозначним виведенням. Крім того, модель звинуватили в дубльованих визначеннях відправки та громіздкому шаблонному коді, який створює ризик помилок.

Нагадаємо, кілька днів тому Anthropic випустила нову оптимізовану для кодування модель Claude Haiku 4.5, яка, згідно з повідомленням у блозі компанії, пропонує аналогічну Sonnet 4 продуктивність, «за втричі меншу вартість та більш ніж удвічі вищу швидкість».

 

Останні статті

Ваша програма споживає багато енергії? Google обов’язково всім про це розповість

Android-користувачі бачитимуть спеціальні позначки на сторінках програм, які демонструють аномально високий рівень споживання енергії або…

05.03.2026

Керівник Anthropic назвав Сема Альтмана брехуном, а угоду з Пентагоном «театром». Трампа теж згадав

OpenAI маніпулює фактами щодо своєї нової угоди з Пентагоном, вважає очільник компанії Anthropic Даріо Амодей.…

05.03.2026

Google Play: комісія з розробників знижена до 20%

Google погодилася знизити комісії в маркетплейсі Play Store та прибрати бар’єри для сторонніх магазинів додатків…

05.03.2026

OpenAI нарешті випустила Codex для Windows

OpenAI виділила Codex в окремий десктопний продукт для Windows. Це сталося через місяць після того,…

05.03.2026

TikTok відмовляється від наскрізного шифрування — як це вплине на вашу приватність і безпеку

TikTok офіційно роз'яснив позицію щодо модерації приватних повідомлень. Компанія заявила, що не буде використовувати наскрізне…

05.03.2026

Sony відмовляється від релізів ігор PlayStation на ПК

Компанія Sony Interactive Entertainment прийняла стратегічне рішення про перегляд свого підходу до портування ексклюзивів, віддаючи…

04.03.2026