Рубріки: Новини

Штучний інтелект не зможе замінити програмістів «низького рівня» — дослідження OpenAI

Дмитро Сімагін

Фахівці компанії OpenAI опублікували статтю, в якій піддали сумніву здатність LLM-моделей конкурувати з програмістами «низького рівня». До цього висновку вони прийшли після проведення тесту під назвою SWE-Lancer, повідомляє Venture Beat.

У цьому дослідженні перевірялось, скільки грошей LLM-моделі зможуть заробити, виконуючи на біржі фрілансу реальні завдання з розробки програмного забезпечення. Тест виявив, що, хоча моделі штучного інтелекту можуть знаходити та виправляти помилки, вони не здатні зрозуміти, чому виникають ці помилки.

Під час тесту три моделі — GPT-4o та o1 від OpenAI і Claude-3.5 Sonnet від Anthropic — повинні були виконати 1488 завдань для фрілансерів-програмістів з платформи Upwork. Теоретично максимальний розмір виплат за всі виконані завдання досягав $1 мільйона. Всі завдання розділили на дві категорії: для окремих учасників (виправлення помилок або впровадження функцій) і завдання управління (де модель грає роль менеджера, який вибере найкращу пропозицію для вирішення проблем). 

Після проведення тесту дослідники виявили, що жодна з моделей не заробила повну суму в $1 мільйон. Claude 3.5 Sonnet, найефективніша модель, заробила лише $208 050, вирішивши 26,2% проблем окремих учасників. Однак «більшість її рішень були невірними». Далі, за Claude 3.5-Sonnet, кращий результат показала модель o1, на третьому місці — GPT-4o.

Порівняльні тести показали, що LLM-моделі можуть вирішувати деякі проблеми з кодуванням «низького рівня», але поки не можуть замінити людей-програмістів «низького рівня». Моделі часто робили помилки та не могли знайти першопричину проблем в коді. Хоча моделі можуть допомогати у вирішенні помилок, вони поки навіть не здатні почати самостійно заробляти гроші в якості фрілансера.

 

Останні статті

В Anthropic проаналізували роботу своїх програмістів, щоб дізнатись, які переваги дає штучний інтелект

В Anthropic провели внутрішнє опитування 132 програмістів та дослідників, 53 поглиблених інтерв'ю та проаналізували використання…

04.12.2025

AWS випустила три нові інструменти для покращення кодування на базі штучного інтелекту

На щорічній конференції Re:Invent, яка проходить цими днями в Лас-Вегасі, керівник AWS Метт Гарман оголосив…

04.12.2025

OpenAI готує реліз нової моделі Garlic, яка спеціалізується на кодуванні

Компанія OpenAI працює над новою LLM-моделлю Garlic («Часник»), яка спеціалізується на програмуванні та логічних завданнях.…

03.12.2025

Верховна Рада не буде підвищувати податки для ФОП третьої групи

Верховна Рада України не буде розглядати питання щодо впровадження ПДВ для фізичних осіб підприємців з…

03.12.2025

Розробники з КНДР тепер готові орендувати особисті дані за третину зарплати

Шукаючи віддалену роботу в західних компаніях, громадяни КНДР тепер готові не тільки «орендувати ноутбук», але…

03.12.2025

Віддалена робота шкодить молодим співробітникам та якості їхнього коду

Молоді спеціалісти, які працюють віддалено, гірше оволодівають новими навичками та мають менше можливостей для кар'єрного…

03.12.2025