Рубріки: Новини

Штучний інтелект не зможе замінити програмістів «низького рівня» — дослідження OpenAI

Дмитро Сімагін

Фахівці компанії OpenAI опублікували статтю, в якій піддали сумніву здатність LLM-моделей конкурувати з програмістами «низького рівня». До цього висновку вони прийшли після проведення тесту під назвою SWE-Lancer, повідомляє Venture Beat.

У цьому дослідженні перевірялось, скільки грошей LLM-моделі зможуть заробити, виконуючи на біржі фрілансу реальні завдання з розробки програмного забезпечення. Тест виявив, що, хоча моделі штучного інтелекту можуть знаходити та виправляти помилки, вони не здатні зрозуміти, чому виникають ці помилки.

Під час тесту три моделі — GPT-4o та o1 від OpenAI і Claude-3.5 Sonnet від Anthropic — повинні були виконати 1488 завдань для фрілансерів-програмістів з платформи Upwork. Теоретично максимальний розмір виплат за всі виконані завдання досягав $1 мільйона. Всі завдання розділили на дві категорії: для окремих учасників (виправлення помилок або впровадження функцій) і завдання управління (де модель грає роль менеджера, який вибере найкращу пропозицію для вирішення проблем). 

Після проведення тесту дослідники виявили, що жодна з моделей не заробила повну суму в $1 мільйон. Claude 3.5 Sonnet, найефективніша модель, заробила лише $208 050, вирішивши 26,2% проблем окремих учасників. Однак «більшість її рішень були невірними». Далі, за Claude 3.5-Sonnet, кращий результат показала модель o1, на третьому місці — GPT-4o.

Порівняльні тести показали, що LLM-моделі можуть вирішувати деякі проблеми з кодуванням «низького рівня», але поки не можуть замінити людей-програмістів «низького рівня». Моделі часто робили помилки та не могли знайти першопричину проблем в коді. Хоча моделі можуть допомогати у вирішенні помилок, вони поки навіть не здатні почати самостійно заробляти гроші в якості фрілансера.

 

Останні статті

Україна — п’ята у світі за кількістю кібератак

Україна опинилась на пʼятому місці у світі серед країн, на які найчастіше спрямовані кібератаки. Про…

17.10.2025

Gemini тепер може виконувати багатоетапні завдання в Google Таблицях

Google удосконалила помічник Gemini, додавши до його функціоналу можливість виконувати в Google Таблицях кілька дій…

17.10.2025

Знання C++ надає максимальні шанси знайти роботу в українському IT, найважче — JavaScript-розробникам

Володіння мовою програмування С++ значно посилює шанси отримати посаду розробника ПЗ в українській IT-компанії. Фахівці…

17.10.2025

Помічником Copilot тепер можна керувати голосом

Microsoft оголосила про масштабну трансформацію Windows 11, яка стосується розширення функціональності Copilot. Відтепер користувачі можуть…

17.10.2025

Anthropic презентує Skills — набір папок, скриптів та інструкцій для Claude

Компанія Anthropic оголосила про випуск інструмента Skills (Навички). Він складається з папок, що містять інструкції,…

17.10.2025

Популярний ML-фреймворк PyTorch оновлено до версії 2.9

Відкритий фреймворк PyTorch, який розроблено в стінах Facebook, і на якому зараз навчають більшість сучасних…

16.10.2025