Рубріки: Новини

Штучний інтелект не зможе замінити програмістів «низького рівня» — дослідження OpenAI

Дмитро Сімагін

Фахівці компанії OpenAI опублікували статтю, в якій піддали сумніву здатність LLM-моделей конкурувати з програмістами «низького рівня». До цього висновку вони прийшли після проведення тесту під назвою SWE-Lancer, повідомляє Venture Beat.

У цьому дослідженні перевірялось, скільки грошей LLM-моделі зможуть заробити, виконуючи на біржі фрілансу реальні завдання з розробки програмного забезпечення. Тест виявив, що, хоча моделі штучного інтелекту можуть знаходити та виправляти помилки, вони не здатні зрозуміти, чому виникають ці помилки.

Під час тесту три моделі — GPT-4o та o1 від OpenAI і Claude-3.5 Sonnet від Anthropic — повинні були виконати 1488 завдань для фрілансерів-програмістів з платформи Upwork. Теоретично максимальний розмір виплат за всі виконані завдання досягав $1 мільйона. Всі завдання розділили на дві категорії: для окремих учасників (виправлення помилок або впровадження функцій) і завдання управління (де модель грає роль менеджера, який вибере найкращу пропозицію для вирішення проблем). 

Після проведення тесту дослідники виявили, що жодна з моделей не заробила повну суму в $1 мільйон. Claude 3.5 Sonnet, найефективніша модель, заробила лише $208 050, вирішивши 26,2% проблем окремих учасників. Однак «більшість її рішень були невірними». Далі, за Claude 3.5-Sonnet, кращий результат показала модель o1, на третьому місці — GPT-4o.

Порівняльні тести показали, що LLM-моделі можуть вирішувати деякі проблеми з кодуванням «низького рівня», але поки не можуть замінити людей-програмістів «низького рівня». Моделі часто робили помилки та не могли знайти першопричину проблем в коді. Хоча моделі можуть допомогати у вирішенні помилок, вони поки навіть не здатні почати самостійно заробляти гроші в якості фрілансера.

 

Останні статті

29% запитів до ChatGPT пов’язані з програмуванням. Рік тому було 44%

Згідно зі статистичними даними, зібраними Sensor Tower за період з березня по квітень 2025 року,…

14.07.2025

OpenAI: майбутньому програмісту достатньо буде писати якісні промпти, а не код

Шон Гроув, фахівець з етики моделей в компанії OpenAI, заявив, що в майбутньому найбільш цінними…

14.07.2025

xAI вимагає від співробітників встановити на свої пристрої софт для стеження

Компанія Ілона Маска xAI зіткнулася з критикою після того, як стало відомо, що від її…

14.07.2025

В Україні підрахували зарплати тестувальників програмного забезпечення

Актуальні дані про зарплати QA-фахівців (тестувальників ПЗ) свідчать, що загальна медіана зросла з $2000 до…

14.07.2025

Застаріла мова програмування Ada потрапила в Топ-10 рейтингу TIOBE

Розроблена в 1970-х роках мова системного програмування Ada вперше за багато років переживає сплеск популярності.…

14.07.2025

Розробник порівняв Claude 4 Opus і Grok 4 на тестах з програмування

Автор блогу Forge Code порівняв на практиці дві потужні LLM-моделі: перевірений Claude 4 Opus і…

11.07.2025