Рубріки: Новини

OpenAI запідозрили у маніпуляціях з тестами LLM-моделі o3

Дмитро Сімагін

Результати незалежних тестів поставили під сумнів твердження OpenAI про те, що її нова велика мовна модель o3 здатна впоратися з більш ніж 25% складних математичних завдань FrontierMath, тоді як інші моделі справлялися лише з 2% завдань із цього набору. Розбіжності між результатами внутрішніх та незалежних тестів ставлять питання про якість тестування нейромереж у OpenAI, пише TechCrunch.

На момент анонсу моделі o3 у грудні 2024 року представник OpenAI спеціально звернув увагу на результати алгоритму при вирішенні завдань FrontierMath. Однак виявилось, що o3 не так добре справляється з математичними задачами. Це може вказувати на те, що OpenAI або завищила результати тестування, або в них задіяли іншу версію o3, яка більш здатна до вирішення математичних завдань.

Дослідники з Epoch AI, які стоять за FrontierMath, опублікували результати незалежних тестів загальнодоступної версії LLM-моделі o3. Виявилося, що алгоритм зумів впоратися лише з 10% завдань, що значно нижче за заявлені OpenAI 25%. 

Розбіжність у результатах тестування не означає, що OpenAI спеціально завищила показники своєї моделі. Нижня межа результатів тестування OpenAI практично збігається з результатами Epoch AI. У Epoch AI також відзначили, що модель, що ними тестується, швидше за все, відрізняється від тієї, що тестувалася OpenAI. 

«Різниця між нашими результатами та результатами OpenAI може бути пов’язана з тим, що OpenAI оцінює результати за допомогою більш потужної внутрішньої версії, використовуючи більше часу для обчислень, або тому, що ці результати були отримані на іншому наборі завдань FrontierMath (180 завдань у frontiermath-2024-11-26 проти 29 frontiermath-2025-02-28)», — повідомили в Epoch AI.

Співробітниця OpenAI Венда Чжоу розповіла, що публічна версія o3 «більш оптимізована для реальних випадків використання» та підвищення швидкості обробки запитів порівняно з версією o3, яку компанія тестувала у грудні. За її словами, це є причиною того, що результати тестування в бенчмарках можуть відрізнятися від того, що демонстрували в OpenAI.

Останні статті

Відповідала за Резерв+ та Армія+. Заступниця міністра оборони Катерина Черногоренко подала у відставку

Катерина Черногоренко, яка з вересня 2023‑го очолювала цифрову трансформацію в Міністерстві оборони України, оголосила про завершення роботи…

23.07.2025

Ілон Маск: перший гігаватний суперкомп’ютер Colossus 2 запустять в найближчі тижні

Засновник компанії xAI Ілон Маск поділився про майбутнє найбільшого в світу дата-центру, який зараз будується…

23.07.2025

Alibaba випустила «найпотужнішу» LLM-модель для програмування — Qwen3-Coder

Alibaba представила нову велику мовну модель з відкритою ліцензією Qwen3-Coder. У компанії назвали модель найкращим…

23.07.2025

Amazon вводить обмеження на безкоштовне використання Kiro

Amazon Web Services (AWS) обмежує безкоштовне використання Kiro,  інструменту для вайб-кодингу, який має функціонал інтегрованого…

23.07.2025

Вийшов Python 3.14 RC1: реліз-кандидат з прискореним інтерпретатором

Команда Python оголосила про вихід першої версії реліз-кандидата Python 3.14. Це фінальна стадія перед повноцінним…

23.07.2025

16% працівників у США брешуть про використання штучного інтелекту, щоб догодити начальству

Результати опитування, проведеного компанією Howdy, свідчать про те, що кожен шостий американський працівник (16%) бреше…

23.07.2025