Штучний інтелект не зможе замінити програмістів «низького рівня» — дослідження OpenAI
Фахівці компанії OpenAI опублікували статтю, в якій піддали сумніву здатність LLM-моделей конкурувати з програмістами «низького рівня». До цього висновку вони прийшли після проведення тесту під назвою SWE-Lancer, повідомляє Venture Beat.
У цьому дослідженні перевірялось, скільки грошей LLM-моделі зможуть заробити, виконуючи на біржі фрілансу реальні завдання з розробки програмного забезпечення. Тест виявив, що, хоча моделі штучного інтелекту можуть знаходити та виправляти помилки, вони не здатні зрозуміти, чому виникають ці помилки.
Під час тесту три моделі — GPT-4o та o1 від OpenAI і Claude-3.5 Sonnet від Anthropic — повинні були виконати 1488 завдань для фрілансерів-програмістів з платформи Upwork. Теоретично максимальний розмір виплат за всі виконані завдання досягав $1 мільйона. Всі завдання розділили на дві категорії: для окремих учасників (виправлення помилок або впровадження функцій) і завдання управління (де модель грає роль менеджера, який вибере найкращу пропозицію для вирішення проблем).
Після проведення тесту дослідники виявили, що жодна з моделей не заробила повну суму в $1 мільйон. Claude 3.5 Sonnet, найефективніша модель, заробила лише $208 050, вирішивши 26,2% проблем окремих учасників. Однак «більшість її рішень були невірними». Далі, за Claude 3.5-Sonnet, кращий результат показала модель o1, на третьому місці — GPT-4o.
Порівняльні тести показали, що LLM-моделі можуть вирішувати деякі проблеми з кодуванням «низького рівня», але поки не можуть замінити людей-програмістів «низького рівня». Моделі часто робили помилки та не могли знайти першопричину проблем в коді. Хоча моделі можуть допомогати у вирішенні помилок, вони поки навіть не здатні почати самостійно заробляти гроші в якості фрілансера.
Дослідники з консалтингової компанії PeopleTec (Алабама, США) вирішили порівняти, як чотири LLM-моделі справляються з роботою…
Французький стартап Mistral випустив Devstral — нову LLM-модель з відкритим кодом, яка створена спеціально для…
Google оголосила, що її новий помічник з кодування Jules тепер доступний в усьому світі в…
Компанії JetBrains та Azul оголосили про «стратегічну технічну співпрацю» заради покращення продуктивності застосунків Kotlin, які…
У каталозі Python-пакетів PyPI виявили три шкідливих пакети, які діють як інструменти перевірки викрадених адрес…
Компанія представила нову технологію, яка дозволить перекладати мову співрозмовників у сервісі Google Meet у онлайн-режимі.…