Рубріки: Новини

Штучний інтелект поки не може замінити фрілансерів-кодерів, але цей день наближається

Дмитро Сімагін

Дослідники з консалтингової компанії PeopleTec (Алабама, США) вирішили порівняти, як чотири LLM-моделі справляються з роботою фріланс-програмістів. Як виявилось, найкраща модель виконала приблизно 80% завдань з кодування, тоді як досвідчений фрілансер може виконати 96% завдань. Про це повідомляє The Register.

Використовуючи набір даних Kaggle про завдання на платформі Freelancer.com, автори дослідження створили набір із 1115 завдань з програмування та аналізу даних, які можна було оцінити за допомогою автоматизованих тестів. У експерименті взяли участь чотири LLM-моделі: Claude 3.5 Haiku, GPT-4o-mini, Qwen 2.5 та Mistral, перші дві з яких є комерційні моделі, а дві останні – з відкритим вихідним кодом. 

У підсумку модель Claude 3.5 Haiku трохи перевершила GPT-4o-mini. Інші моделі продемонстрували гірші результати.

«Claude розв’язав 877 завдань, усі тести пройшли успішно, що становить 78,7% від бенчмарку — дуже високий бал для такого різноманітного набору завдань. GPT-4o-mini трохи відстала, розв’язавши 862 завдання (77,3%). Qwen 2.5 був третім найкращим, розв’язавши 764 завдання (68,5%). Mistral 7B відставав, розв’язавши 474 завдання (42,5%)».

Незважаючи на те, що моделі штучного інтелекту поки не можуть замінити фрілансерів-кодерів, дослідники впевнені, що цей день незабаром настане. «Я думаю, що це може зайняти місяці», — стверджує Девід Ноевер, головний науковий співробітник PeopleTec.

Одним із цікавих висновків цього дослідження, за словами Ноевера, є те, що моделі з відкритим кодом досягають 30 мільярдів параметрів. «Це якраз на межі можливостей споживчого графічного процесора», — сказав він. «Я думаю, що Codestral, ймовірно, одна з найсильніших [з цих моделей з відкритим кодом], але вона не зможе виконати ці завдання. …Тож, у міру розвитку подій, я думаю, що для цього треба інфраструктура. Просто немає іншого шляху».

Останні статті

Anthropic оновлює Claude Code до версії 2.1.0

Компанія Anthropic випустила Claude Code у версії 2.1.0, яка стала помітним оновленням цього популярного інструменту…

09.01.2026

Senior-розробник Microsoft дає поради, як програмісту вижити в епоху штучного інтелекту

Нандіта Гірі, 32-річна програмістка з головного офісу Microsoft у Редмонді поділилась порадами, як розробникам слід…

09.01.2026

EPAM заключає партнерство з Cursor для створення та масштабування команд ШІ-розробників

Одна з найбільших світових аутсорс-компаній EPAM Systems оголосила про стратегічне партнерство з Cursor. Мета співпраці…

09.01.2026

Штучний інтелект у Gmail тепер сам буде вирішувати, які листи вам показувати в першу чергу

Google вносить масштабні зміни в Gmail, інтегруючи в поштовий сервіс можливості штучного інтелекту на базі…

09.01.2026

Ілон Маск анонсував випуск Grok Code — нового інструменту для вайб-кодингу

Ілон Маск анонсував значне оновлення LLM-моделі Grok разом із новими продуктами, в тому числі інструментом…

09.01.2026

CEO Replit: завдяки вайб-кодуванню керівникам більше не потрібно благати програмістів про допомогу

Глава стартапу Replit, який відомий однойменним IDE, Амджад Масад заявив, що інструменти вайб-кодингу змінюють баланс…

08.01.2026