«Claude Haiku 4.5 генерує низькоякісний код»: експерт розповів, які моделі краще використовувати для рефакторингу
Тестування нещодавно випущеної LLM-моделі Claude Haiku 4.5 від компанії Anthropic виявило парадокс: вона створила найбільше коду, але низької якості. Про це інформує CodeLens.
При виконанні досить складного завдання TypeScript: рефакторингу клієнта WebSocket для додавання експонентного відкату, керування станом з’єднання та черги повідомлень, результати були несподіваними: Haiku 4.5 написала 13 666 токенів — найбільше з усіх 8 протестованих моделей. При цьому якість коду оцінено в 74,4 зі 100 балів. Для порівняння: Claude Sonnet 4.5 написала 8425 токенів (на 38% менше) та отримала 89,0/100 балів.
Таким чином, нова модель Haiku створила на 62% більше коду, але його якість була на 16% нижчою.
Після цього експерт виконав те саме завдання рефакторингу WebSocket для восьми інших моделей: GPT-5, OpenAI o3, Claude Opus 4.1, Claude Sonnet 4.5, Claude Haiku 4.5, Grok 4, Gemini 2.5 Pro та GLM 4.6. Кожна модель отримала ідентичні вхідні дані: оригінальний крихкий код та опис завдання, що вимагає надійну логіку перепідключення, експонентний відкат, керування станом та чергу повідомлень. Всі вихідні дані оцінювалися за 5 критеріями: якість коду, повнота, правильність, продуктивність та безпека.
Лідером тестів виявилась модель GPT-5 (94,6). На другому місці — Claude Sonnet 4.5 та o3 (обидві по 89 балів). Далі йдуть: Gemini 2.5 Pro (86,6), GLM 4.6 (84,4), Claude Opus 4.1 (81,6), Claude Haiku 4.5 (74,4). На останньому місці — Grok 4 (70).
Основними недоліками Claude Haiku 4.5 виявилась присутність надмірно багатослівного коду з ймовірними дублікатами методів та неоднозначним виведенням. Крім того, модель звинуватили в дубльованих визначеннях відправки та громіздкому шаблонному коді, який створює ризик помилок.
Нагадаємо, кілька днів тому Anthropic випустила нову оптимізовану для кодування модель Claude Haiku 4.5, яка, згідно з повідомленням у блозі компанії, пропонує аналогічну Sonnet 4 продуктивність, «за втричі меншу вартість та більш ніж удвічі вищу швидкість».
Android-користувачі бачитимуть спеціальні позначки на сторінках програм, які демонструють аномально високий рівень споживання енергії або…
OpenAI маніпулює фактами щодо своєї нової угоди з Пентагоном, вважає очільник компанії Anthropic Даріо Амодей.…
Google погодилася знизити комісії в маркетплейсі Play Store та прибрати бар’єри для сторонніх магазинів додатків…
OpenAI виділила Codex в окремий десктопний продукт для Windows. Це сталося через місяць після того,…
TikTok офіційно роз'яснив позицію щодо модерації приватних повідомлень. Компанія заявила, що не буде використовувати наскрізне…
Компанія Sony Interactive Entertainment прийняла стратегічне рішення про перегляд свого підходу до портування ексклюзивів, віддаючи…