Рубріки: Новини

Штучний інтелект поки не може замінити фрілансерів-кодерів, але цей день наближається

Дмитро Сімагін

Дослідники з консалтингової компанії PeopleTec (Алабама, США) вирішили порівняти, як чотири LLM-моделі справляються з роботою фріланс-програмістів. Як виявилось, найкраща модель виконала приблизно 80% завдань з кодування, тоді як досвідчений фрілансер може виконати 96% завдань. Про це повідомляє The Register.

Використовуючи набір даних Kaggle про завдання на платформі Freelancer.com, автори дослідження створили набір із 1115 завдань з програмування та аналізу даних, які можна було оцінити за допомогою автоматизованих тестів. У експерименті взяли участь чотири LLM-моделі: Claude 3.5 Haiku, GPT-4o-mini, Qwen 2.5 та Mistral, перші дві з яких є комерційні моделі, а дві останні – з відкритим вихідним кодом. 

У підсумку модель Claude 3.5 Haiku трохи перевершила GPT-4o-mini. Інші моделі продемонстрували гірші результати.

«Claude розв’язав 877 завдань, усі тести пройшли успішно, що становить 78,7% від бенчмарку — дуже високий бал для такого різноманітного набору завдань. GPT-4o-mini трохи відстала, розв’язавши 862 завдання (77,3%). Qwen 2.5 був третім найкращим, розв’язавши 764 завдання (68,5%). Mistral 7B відставав, розв’язавши 474 завдання (42,5%)».

Незважаючи на те, що моделі штучного інтелекту поки не можуть замінити фрілансерів-кодерів, дослідники впевнені, що цей день незабаром настане. «Я думаю, що це може зайняти місяці», — стверджує Девід Ноевер, головний науковий співробітник PeopleTec.

Одним із цікавих висновків цього дослідження, за словами Ноевера, є те, що моделі з відкритим кодом досягають 30 мільярдів параметрів. «Це якраз на межі можливостей споживчого графічного процесора», — сказав він. «Я думаю, що Codestral, ймовірно, одна з найсильніших [з цих моделей з відкритим кодом], але вона не зможе виконати ці завдання. …Тож, у міру розвитку подій, я думаю, що для цього треба інфраструктура. Просто немає іншого шляху».

Останні статті

Devstral — нова LLM-модель з відкритим кодом, створена спеціально для розробки ПЗ

Французький стартап Mistral випустив Devstral — нову LLM-модель з відкритим кодом, яка створена спеціально для…

22.05.2025

Помічник з кодування Google Jules став загальнодоступним

Google оголосила, що її новий помічник з кодування Jules тепер доступний в усьому світі в…

22.05.2025

JetBrains та Azul стверджують, що новий Zing JDK підвищує продуктивність Kotlin на 25%

Компанії JetBrains та Azul оголосили про «стратегічну технічну співпрацю» заради покращення продуктивності застосунків Kotlin, які…

22.05.2025

У PyPI виявили трояни, які сканували e-mail на наявність прив’язаних акаунтів TikTok та Instagram

У каталозі Python-пакетів PyPI виявили три шкідливих пакети, які діють як інструменти перевірки викрадених адрес…

22.05.2025

Google Meet навчили перекладати розмови в реальному часі. «Перекладачем» виступить Gemini

Компанія представила нову технологію, яка дозволить перекладати мову співрозмовників у сервісі Google Meet у онлайн-режимі.…

21.05.2025

1С має потрапити до реєстру забороненого ПЗ в Україні. Ним досі користується 75% компаній

Асоціація IT Ukraine допомагатиме Держспецзв’язку формувати критерії, за якими відбиратимуть програмне забезпечення, яке потрапить під…

21.05.2025