Рубріки: Новини

Штучний інтелект не зможе замінити програмістів «низького рівня» — дослідження OpenAI

Дмитро Сімагін

Фахівці компанії OpenAI опублікували статтю, в якій піддали сумніву здатність LLM-моделей конкурувати з програмістами «низького рівня». До цього висновку вони прийшли після проведення тесту під назвою SWE-Lancer, повідомляє Venture Beat.

У цьому дослідженні перевірялось, скільки грошей LLM-моделі зможуть заробити, виконуючи на біржі фрілансу реальні завдання з розробки програмного забезпечення. Тест виявив, що, хоча моделі штучного інтелекту можуть знаходити та виправляти помилки, вони не здатні зрозуміти, чому виникають ці помилки.

Під час тесту три моделі — GPT-4o та o1 від OpenAI і Claude-3.5 Sonnet від Anthropic — повинні були виконати 1488 завдань для фрілансерів-програмістів з платформи Upwork. Теоретично максимальний розмір виплат за всі виконані завдання досягав $1 мільйона. Всі завдання розділили на дві категорії: для окремих учасників (виправлення помилок або впровадження функцій) і завдання управління (де модель грає роль менеджера, який вибере найкращу пропозицію для вирішення проблем). 

Після проведення тесту дослідники виявили, що жодна з моделей не заробила повну суму в $1 мільйон. Claude 3.5 Sonnet, найефективніша модель, заробила лише $208 050, вирішивши 26,2% проблем окремих учасників. Однак «більшість її рішень були невірними». Далі, за Claude 3.5-Sonnet, кращий результат показала модель o1, на третьому місці — GPT-4o.

Порівняльні тести показали, що LLM-моделі можуть вирішувати деякі проблеми з кодуванням «низького рівня», але поки не можуть замінити людей-програмістів «низького рівня». Моделі часто робили помилки та не могли знайти першопричину проблем в коді. Хоча моделі можуть допомогати у вирішенні помилок, вони поки навіть не здатні почати самостійно заробляти гроші в якості фрілансера.

 

Останні статті

Meta закриває проект Workrooms — віртуальні простори для віддаленої роботи

Керівництво Meta ухвалило рішення припинити підтримку Workrooms як окремого додатку з 16 лютого 2026 року.…

16.01.2026

У ChatGPT з’явився розширений пошук в історії діалогів. Тільки для платних користувачів

Компанія OpenAI випустила велике оновлення для ChatGPT з підтримкою розширеного пошуку в історії чатів, але…

16.01.2026

У програмах, згенерованих штучним інтелектом, багато помилок безпеки — дослідження

Застосунки, створені за допомогою вайб-кодування, де розробник надає агенту штучного інтелекту повну свободу дій, ймовірно,…

16.01.2026

Українська компанія MacPaw закриває свій маркетплейс Setapp Mobile

Одна з найбільших українських продуктових IT-компаній MacPaw оголосила про закриття з 16 лютого 2026 року…

16.01.2026

Replit запускає інструмент вайб-кодингу iOS-додатків

Компанія Replit оголосила про запуск нового веб-інструменту вайб-кодування під назвою Mobile Apps on Replit. Він…

16.01.2026

GPT-5.2 написала веб-браузер з нуля. Модель створила три мільйони рядків коду і працювала безперервно цілий тиждень

Генеральний директор компанії Cursor AI Майкл Труелл повідомив, що LLM-модель GPT-5.2, яку задіяли через агент…

15.01.2026