Штучний інтелект поки не може замінити фрілансерів-кодерів, але цей день наближається
Дослідники з консалтингової компанії PeopleTec (Алабама, США) вирішили порівняти, як чотири LLM-моделі справляються з роботою фріланс-програмістів. Як виявилось, найкраща модель виконала приблизно 80% завдань з кодування, тоді як досвідчений фрілансер може виконати 96% завдань. Про це повідомляє The Register.
Використовуючи набір даних Kaggle про завдання на платформі Freelancer.com, автори дослідження створили набір із 1115 завдань з програмування та аналізу даних, які можна було оцінити за допомогою автоматизованих тестів. У експерименті взяли участь чотири LLM-моделі: Claude 3.5 Haiku, GPT-4o-mini, Qwen 2.5 та Mistral, перші дві з яких є комерційні моделі, а дві останні – з відкритим вихідним кодом.
У підсумку модель Claude 3.5 Haiku трохи перевершила GPT-4o-mini. Інші моделі продемонстрували гірші результати.
«Claude розв’язав 877 завдань, усі тести пройшли успішно, що становить 78,7% від бенчмарку — дуже високий бал для такого різноманітного набору завдань. GPT-4o-mini трохи відстала, розв’язавши 862 завдання (77,3%). Qwen 2.5 був третім найкращим, розв’язавши 764 завдання (68,5%). Mistral 7B відставав, розв’язавши 474 завдання (42,5%)».
Незважаючи на те, що моделі штучного інтелекту поки не можуть замінити фрілансерів-кодерів, дослідники впевнені, що цей день незабаром настане. «Я думаю, що це може зайняти місяці», — стверджує Девід Ноевер, головний науковий співробітник PeopleTec.
Одним із цікавих висновків цього дослідження, за словами Ноевера, є те, що моделі з відкритим кодом досягають 30 мільярдів параметрів. «Це якраз на межі можливостей споживчого графічного процесора», — сказав він. «Я думаю, що Codestral, ймовірно, одна з найсильніших [з цих моделей з відкритим кодом], але вона не зможе виконати ці завдання. …Тож, у міру розвитку подій, я думаю, що для цього треба інфраструктура. Просто немає іншого шляху».
Французький стартап Mistral випустив Devstral — нову LLM-модель з відкритим кодом, яка створена спеціально для…
Google оголосила, що її новий помічник з кодування Jules тепер доступний в усьому світі в…
Компанії JetBrains та Azul оголосили про «стратегічну технічну співпрацю» заради покращення продуктивності застосунків Kotlin, які…
У каталозі Python-пакетів PyPI виявили три шкідливих пакети, які діють як інструменти перевірки викрадених адрес…
Компанія представила нову технологію, яка дозволить перекладати мову співрозмовників у сервісі Google Meet у онлайн-режимі.…
Асоціація IT Ukraine допомагатиме Держспецзв’язку формувати критерії, за якими відбиратимуть програмне забезпечення, яке потрапить під…