Рубріки: Новини

Штучний інтелект не зможе замінити програмістів «низького рівня» — дослідження OpenAI

Дмитро Сімагін

Фахівці компанії OpenAI опублікували статтю, в якій піддали сумніву здатність LLM-моделей конкурувати з програмістами «низького рівня». До цього висновку вони прийшли після проведення тесту під назвою SWE-Lancer, повідомляє Venture Beat.

У цьому дослідженні перевірялось, скільки грошей LLM-моделі зможуть заробити, виконуючи на біржі фрілансу реальні завдання з розробки програмного забезпечення. Тест виявив, що, хоча моделі штучного інтелекту можуть знаходити та виправляти помилки, вони не здатні зрозуміти, чому виникають ці помилки.

Під час тесту три моделі — GPT-4o та o1 від OpenAI і Claude-3.5 Sonnet від Anthropic — повинні були виконати 1488 завдань для фрілансерів-програмістів з платформи Upwork. Теоретично максимальний розмір виплат за всі виконані завдання досягав $1 мільйона. Всі завдання розділили на дві категорії: для окремих учасників (виправлення помилок або впровадження функцій) і завдання управління (де модель грає роль менеджера, який вибере найкращу пропозицію для вирішення проблем). 

Після проведення тесту дослідники виявили, що жодна з моделей не заробила повну суму в $1 мільйон. Claude 3.5 Sonnet, найефективніша модель, заробила лише $208 050, вирішивши 26,2% проблем окремих учасників. Однак «більшість її рішень були невірними». Далі, за Claude 3.5-Sonnet, кращий результат показала модель o1, на третьому місці — GPT-4o.

Порівняльні тести показали, що LLM-моделі можуть вирішувати деякі проблеми з кодуванням «низького рівня», але поки не можуть замінити людей-програмістів «низького рівня». Моделі часто робили помилки та не могли знайти першопричину проблем в коді. Хоча моделі можуть допомогати у вирішенні помилок, вони поки навіть не здатні почати самостійно заробляти гроші в якості фрілансера.

 

Останні статті

Штучний інтелект поки не може замінити фрілансерів-кодерів, але цей день наближається

Дослідники з консалтингової компанії PeopleTec (Алабама, США) вирішили порівняти, як чотири LLM-моделі справляються з роботою…

22.05.2025

Devstral — нова LLM-модель з відкритим кодом, створена спеціально для розробки ПЗ

Французький стартап Mistral випустив Devstral — нову LLM-модель з відкритим кодом, яка створена спеціально для…

22.05.2025

Помічник з кодування Google Jules став загальнодоступним

Google оголосила, що її новий помічник з кодування Jules тепер доступний в усьому світі в…

22.05.2025

JetBrains та Azul стверджують, що новий Zing JDK підвищує продуктивність Kotlin на 25%

Компанії JetBrains та Azul оголосили про «стратегічну технічну співпрацю» заради покращення продуктивності застосунків Kotlin, які…

22.05.2025

У PyPI виявили трояни, які сканували e-mail на наявність прив’язаних акаунтів TikTok та Instagram

У каталозі Python-пакетів PyPI виявили три шкідливих пакети, які діють як інструменти перевірки викрадених адрес…

22.05.2025

Google Meet навчили перекладати розмови в реальному часі. «Перекладачем» виступить Gemini

Компанія представила нову технологію, яка дозволить перекладати мову співрозмовників у сервісі Google Meet у онлайн-режимі.…

21.05.2025