Рубріки: Новини

Штучний інтелект поки не може замінити фрілансерів-кодерів, але цей день наближається

Дмитро Сімагін

Дослідники з консалтингової компанії PeopleTec (Алабама, США) вирішили порівняти, як чотири LLM-моделі справляються з роботою фріланс-програмістів. Як виявилось, найкраща модель виконала приблизно 80% завдань з кодування, тоді як досвідчений фрілансер може виконати 96% завдань. Про це повідомляє The Register.

Використовуючи набір даних Kaggle про завдання на платформі Freelancer.com, автори дослідження створили набір із 1115 завдань з програмування та аналізу даних, які можна було оцінити за допомогою автоматизованих тестів. У експерименті взяли участь чотири LLM-моделі: Claude 3.5 Haiku, GPT-4o-mini, Qwen 2.5 та Mistral, перші дві з яких є комерційні моделі, а дві останні – з відкритим вихідним кодом. 

У підсумку модель Claude 3.5 Haiku трохи перевершила GPT-4o-mini. Інші моделі продемонстрували гірші результати.

«Claude розв’язав 877 завдань, усі тести пройшли успішно, що становить 78,7% від бенчмарку — дуже високий бал для такого різноманітного набору завдань. GPT-4o-mini трохи відстала, розв’язавши 862 завдання (77,3%). Qwen 2.5 був третім найкращим, розв’язавши 764 завдання (68,5%). Mistral 7B відставав, розв’язавши 474 завдання (42,5%)».

Незважаючи на те, що моделі штучного інтелекту поки не можуть замінити фрілансерів-кодерів, дослідники впевнені, що цей день незабаром настане. «Я думаю, що це може зайняти місяці», — стверджує Девід Ноевер, головний науковий співробітник PeopleTec.

Одним із цікавих висновків цього дослідження, за словами Ноевера, є те, що моделі з відкритим кодом досягають 30 мільярдів параметрів. «Це якраз на межі можливостей споживчого графічного процесора», — сказав він. «Я думаю, що Codestral, ймовірно, одна з найсильніших [з цих моделей з відкритим кодом], але вона не зможе виконати ці завдання. …Тож, у міру розвитку подій, я думаю, що для цього треба інфраструктура. Просто немає іншого шляху».

Останні статті

Розробники Android-додатків благають Google відмовитись від обов’язкової реєстрації

Щонайменше 37 компаній та організацій, включно з такими відомими розробниками ПЗ, як Vivaldi, AdGuard, Tor…

26.02.2026

«Майже завжди застосовує ядерну зброю»: вчені приголомшені симуляцією війни зі штучним інтелектом

Нове наукове дослідження виявило небезпечну схильність штучного інтелекту до швидкої ескалації конфліктів. Під час симуляцій…

26.02.2026

Google Labs оновлює вайб-конструктор програм Opal: додано нові функції

Команда Google Labs оновила безкоштовний вайб-конструктор програм Opal — тепер в ньому можна автоматизувати та…

25.02.2026

Кінець епохи: перший трансатлантичний оптоволоконний кабель підняли після 37 років перебування на морському дні

Світ прощається з важливою пам’яткою цифрової революції: розпочато процес демонтажу TAT-8 — першого в історії…

25.02.2026

«Запускайте в терміналі, керуйте зі смартфону»: Claude Code на ПК тепер можна управляти дистанційно

Компанія Anthropic представила нову функцію для інструмента кодування Claude Code під назвою Remote Control. Вона,…

25.02.2026

«Надати повний доступ до п’ятниці»: міністр оборони США погрожує конфіскувати ключову технологію Anthropic

Очільник Пентагону Піт Гегсет висунув ультиматум керівництву Anthropic. Він вимагає, щоб компанія, яка зараз є…

25.02.2026