Рубріки: Новини

Штучний інтелект не зможе замінити програмістів «низького рівня» — дослідження OpenAI

Дмитро Сімагін

Фахівці компанії OpenAI опублікували статтю, в якій піддали сумніву здатність LLM-моделей конкурувати з програмістами «низького рівня». До цього висновку вони прийшли після проведення тесту під назвою SWE-Lancer, повідомляє Venture Beat.

У цьому дослідженні перевірялось, скільки грошей LLM-моделі зможуть заробити, виконуючи на біржі фрілансу реальні завдання з розробки програмного забезпечення. Тест виявив, що, хоча моделі штучного інтелекту можуть знаходити та виправляти помилки, вони не здатні зрозуміти, чому виникають ці помилки.

Під час тесту три моделі — GPT-4o та o1 від OpenAI і Claude-3.5 Sonnet від Anthropic — повинні були виконати 1488 завдань для фрілансерів-програмістів з платформи Upwork. Теоретично максимальний розмір виплат за всі виконані завдання досягав $1 мільйона. Всі завдання розділили на дві категорії: для окремих учасників (виправлення помилок або впровадження функцій) і завдання управління (де модель грає роль менеджера, який вибере найкращу пропозицію для вирішення проблем). 

Після проведення тесту дослідники виявили, що жодна з моделей не заробила повну суму в $1 мільйон. Claude 3.5 Sonnet, найефективніша модель, заробила лише $208 050, вирішивши 26,2% проблем окремих учасників. Однак «більшість її рішень були невірними». Далі, за Claude 3.5-Sonnet, кращий результат показала модель o1, на третьому місці — GPT-4o.

Порівняльні тести показали, що LLM-моделі можуть вирішувати деякі проблеми з кодуванням «низького рівня», але поки не можуть замінити людей-програмістів «низького рівня». Моделі часто робили помилки та не могли знайти першопричину проблем в коді. Хоча моделі можуть допомогати у вирішенні помилок, вони поки навіть не здатні почати самостійно заробляти гроші в якості фрілансера.

 

Останні статті

Екс-менеджер Meta: Лише 2% розробників використовують штучний інтелект правильно. Решта ризикують своєю роботою

Кун Чен — колишній розробник Microsoft та Atlassian, а також інженерний менеджер Meta — впевнений:…

01.05.2026

Пентагон розробляє лазерну зброю потужністю 300 кВт для знищення крилатих ракет

Міністерство оборони США офіційно підтверджує роботу над принципово новою системою лазерної зброї в рамках масштабної…

01.05.2026

GPT-5.5 зрівнявся з Claude Mythos у тестах на кібератаки — висновки британського AISI

Британський Інститут безпеки штучного інтелекту (AISI) перевірив модель штучного інтелекту GPT-5.5 від OpenAI і встановив,…

01.05.2026

«Термінатора» в зал суду не пустили: Ілон Маск перетворив позов проти OpenAI на sci-fi шоу

Ілон Маск три дні свідчив в рамках судового позову проти Сема Альтмана та OpenAI —…

01.05.2026

Програмна археологія: Microsoft публікує код найстарішої версії DOS, яку вважали втраченою

Microsoft продовжує розкривати сторінки своєї цифрової спадщини. Днями компанія опублікувала найстаріший із виявлених на сьогодні…

01.05.2026

Моделі Anthropic з’являться в Microsoft Word для роботи з документами

Компанія Microsoft оголосила про додавання моделей штучного інтелекту від Anthropic до Microsoft 365 Copilot у…

01.05.2026