Рубріки: Новини

«Claude Haiku 4.5 генерує низькоякісний код»: експерт розповів, які моделі краще використовувати для рефакторингу

Дмитро Сімагін

20.10.2025 11:27

Тестування нещодавно випущеної LLM-моделі Claude Haiku 4.5 від компанії Anthropic виявило парадокс: вона створила найбільше коду, але низької якості. Про це інформує CodeLens.

При виконанні досить складного завдання TypeScript: рефакторингу клієнта WebSocket для додавання експонентного відкату, керування станом з’єднання та черги повідомлень, результати були несподіваними: Haiku 4.5 написала 13 666 токенів — найбільше з усіх 8 протестованих моделей. При цьому якість коду оцінено в 74,4 зі 100 балів. Для порівняння: Claude Sonnet 4.5 написала 8425 токенів (на 38% менше) та отримала 89,0/100 балів.

Таким чином, нова модель Haiku створила на 62% більше коду, але його якість була на 16% нижчою.

Після цього експерт виконав те саме завдання рефакторингу WebSocket для восьми інших моделей: GPT-5, OpenAI o3, Claude Opus 4.1, Claude Sonnet 4.5, Claude Haiku 4.5, Grok 4, Gemini 2.5 Pro та GLM 4.6. Кожна модель отримала ідентичні вхідні дані: оригінальний крихкий код та опис завдання, що вимагає надійну логіку перепідключення, експонентний відкат, керування станом та чергу повідомлень. Всі вихідні дані оцінювалися за 5 критеріями: якість коду, повнота, правильність, продуктивність та безпека.

Лідером тестів виявилась модель GPT-5 (94,6). На другому місці — Claude Sonnet 4.5 та o3 (обидві по 89 балів). Далі йдуть: Gemini 2.5 Pro (86,6), GLM 4.6 (84,4), Claude Opus 4.1 (81,6), Claude Haiku 4.5 (74,4). На останньому місці — Grok 4 (70).

Основними недоліками Claude Haiku 4.5 виявилась присутність надмірно багатослівного коду з ймовірними дублікатами методів та неоднозначним виведенням. Крім того, модель звинуватили в дубльованих визначеннях відправки та громіздкому шаблонному коді, який створює ризик помилок.

Нагадаємо, кілька днів тому Anthropic випустила нову оптимізовану для кодування модель Claude Haiku 4.5, яка, згідно з повідомленням у блозі компанії, пропонує аналогічну Sonnet 4 продуктивність, «за втричі меншу вартість та більш ніж удвічі вищу швидкість».

Наступна стаття Telegram тестує функцію прямих ефірів з особистих акаунтів »

попередня стаття « Google Maps тепер можна інтегрувати в сторонні додатки

Дмитро Сімагін

Теги: Claude Haiku 4.5рефакторингтестування

20.10.2025 11:27

Останні статті

Новини

Міноборони України набирає команду в Центр штучного інтелекту. Шукають IT-фахівців

Міністерство оборони України опублікувало перелік вакансій для Defense AI Center «A1». Під цією назвою відкрито…

20.04.2026

Новини

Всі хочуть спробувати Claude Mythos: заради нової моделі АНБ ігнорує заборону Пентагону

Незважаючи на офіційні обмеження та конфлікт між Anthropic та Міністерством оборони США, Агентство національної безпеки…

20.04.2026

Новини

Штучний інтелект виявляє більше помилок, ніж розробники можуть виправити

Світ розробки програмного забезпечення зіткнувся з несподіваним побічним ефектом прогресу. Інструменти на базі штучного інтелекту,…

20.04.2026

Новини

Модератори ледь справляються. Число публікацій нових програм в App Store і Google Play різко зросло

Чутки про занепад ери мобільних додатків виявилися передчасними. Нові дані свідчать про те, що ринок…

20.04.2026

Новини

YouTube Premium більше не потрібен? Microsoft переграла Google у питанні фонового відео

Поки Google веде агресивну кампанію з просування платних підписок, розробники Microsoft знайшли спосіб повернути одну…

20.04.2026

Новини

Вайб-кодери скаржаться, що Claude Opus 4.7 витрачає токени набагато швидше, хоча тарифи не змінились

Здається, в Anthropic вирішили залишити цінник на вітрині старим, але зменшити розмір порції. Програмісти масово…

20.04.2026

«Claude Haiku 4.5 генерує низькоякісний код»: експерт розповів, які моделі краще використовувати для рефакторингу

Схожі статті

Останні статті

Міноборони України набирає команду в Центр штучного інтелекту. Шукають IT-фахівців

Всі хочуть спробувати Claude Mythos: заради нової моделі АНБ ігнорує заборону Пентагону

Штучний інтелект виявляє більше помилок, ніж розробники можуть виправити

Модератори ледь справляються. Число публікацій нових програм в App Store і Google Play різко зросло

YouTube Premium більше не потрібен? Microsoft переграла Google у питанні фонового відео

Вайб-кодери скаржаться, що Claude Opus 4.7 витрачає токени набагато швидше, хоча тарифи не змінились