Рубріки: Новини

«Claude Haiku 4.5 генерує низькоякісний код»: експерт розповів, які моделі краще використовувати для рефакторингу

Дмитро Сімагін

Тестування нещодавно випущеної LLM-моделі Claude Haiku 4.5 від компанії Anthropic виявило парадокс: вона створила найбільше коду, але низької якості. Про це інформує CodeLens.

При виконанні досить складного завдання TypeScript: рефакторингу клієнта WebSocket для додавання експонентного відкату, керування станом з’єднання та черги повідомлень, результати були несподіваними: Haiku 4.5 написала 13 666 токенів — найбільше з усіх 8 протестованих моделей. При цьому якість коду оцінено в 74,4 зі 100 балів. Для порівняння: Claude Sonnet 4.5 написала 8425 токенів (на 38% менше) та отримала 89,0/100 балів. 

Таким чином, нова модель Haiku створила на 62% більше коду, але його якість була на 16% нижчою.

Після цього експерт виконав те саме завдання рефакторингу WebSocket для восьми інших моделей: GPT-5, OpenAI o3, Claude Opus 4.1, Claude Sonnet 4.5, Claude Haiku 4.5, Grok 4, Gemini 2.5 Pro та GLM 4.6. Кожна модель отримала ідентичні вхідні дані: оригінальний крихкий код та опис завдання, що вимагає надійну логіку перепідключення, експонентний відкат, керування станом та чергу повідомлень. Всі вихідні дані оцінювалися за 5 критеріями: якість коду, повнота, правильність, продуктивність та безпека.

Лідером тестів виявилась модель GPT-5 (94,6). На другому місці — Claude Sonnet 4.5 та o3 (обидві по 89 балів). Далі йдуть: Gemini 2.5 Pro (86,6), GLM 4.6 (84,4), Claude Opus 4.1 (81,6), Claude Haiku 4.5 (74,4). На останньому місці — Grok 4 (70).

Основними недоліками Claude Haiku 4.5 виявилась присутність надмірно багатослівного коду з ймовірними дублікатами методів та неоднозначним виведенням. Крім того, модель звинуватили в дубльованих визначеннях відправки та громіздкому шаблонному коді, який створює ризик помилок.

Нагадаємо, кілька днів тому Anthropic випустила нову оптимізовану для кодування модель Claude Haiku 4.5, яка, згідно з повідомленням у блозі компанії, пропонує аналогічну Sonnet 4 продуктивність, «за втричі меншу вартість та більш ніж удвічі вищу швидкість».

 

Останні статті

Meta закриває проект Workrooms — віртуальні простори для віддаленої роботи

Керівництво Meta ухвалило рішення припинити підтримку Workrooms як окремого додатку з 16 лютого 2026 року.…

16.01.2026

У ChatGPT з’явився розширений пошук в історії діалогів. Тільки для платних користувачів

Компанія OpenAI випустила велике оновлення для ChatGPT з підтримкою розширеного пошуку в історії чатів, але…

16.01.2026

У програмах, згенерованих штучним інтелектом, багато помилок безпеки — дослідження

Застосунки, створені за допомогою вайб-кодування, де розробник надає агенту штучного інтелекту повну свободу дій, ймовірно,…

16.01.2026

Українська компанія MacPaw закриває свій маркетплейс Setapp Mobile

Одна з найбільших українських продуктових IT-компаній MacPaw оголосила про закриття з 16 лютого 2026 року…

16.01.2026

Replit запускає інструмент вайб-кодингу iOS-додатків

Компанія Replit оголосила про запуск нового веб-інструменту вайб-кодування під назвою Mobile Apps on Replit. Він…

16.01.2026

GPT-5.2 написала веб-браузер з нуля. Модель створила три мільйони рядків коду і працювала безперервно цілий тиждень

Генеральний директор компанії Cursor AI Майкл Труелл повідомив, що LLM-модель GPT-5.2, яку задіяли через агент…

15.01.2026