Рубріки: Новини

OpenAI запідозрили у маніпуляціях з тестами LLM-моделі o3

Дмитро Сімагін

Результати незалежних тестів поставили під сумнів твердження OpenAI про те, що її нова велика мовна модель o3 здатна впоратися з більш ніж 25% складних математичних завдань FrontierMath, тоді як інші моделі справлялися лише з 2% завдань із цього набору. Розбіжності між результатами внутрішніх та незалежних тестів ставлять питання про якість тестування нейромереж у OpenAI, пише TechCrunch.

На момент анонсу моделі o3 у грудні 2024 року представник OpenAI спеціально звернув увагу на результати алгоритму при вирішенні завдань FrontierMath. Однак виявилось, що o3 не так добре справляється з математичними задачами. Це може вказувати на те, що OpenAI або завищила результати тестування, або в них задіяли іншу версію o3, яка більш здатна до вирішення математичних завдань.

Дослідники з Epoch AI, які стоять за FrontierMath, опублікували результати незалежних тестів загальнодоступної версії LLM-моделі o3. Виявилося, що алгоритм зумів впоратися лише з 10% завдань, що значно нижче за заявлені OpenAI 25%. 

Розбіжність у результатах тестування не означає, що OpenAI спеціально завищила показники своєї моделі. Нижня межа результатів тестування OpenAI практично збігається з результатами Epoch AI. У Epoch AI також відзначили, що модель, що ними тестується, швидше за все, відрізняється від тієї, що тестувалася OpenAI. 

«Різниця між нашими результатами та результатами OpenAI може бути пов’язана з тим, що OpenAI оцінює результати за допомогою більш потужної внутрішньої версії, використовуючи більше часу для обчислень, або тому, що ці результати були отримані на іншому наборі завдань FrontierMath (180 завдань у frontiermath-2024-11-26 проти 29 frontiermath-2025-02-28)», — повідомили в Epoch AI.

Співробітниця OpenAI Венда Чжоу розповіла, що публічна версія o3 «більш оптимізована для реальних випадків використання» та підвищення швидкості обробки запитів порівняно з версією o3, яку компанія тестувала у грудні. За її словами, це є причиною того, що результати тестування в бенчмарках можуть відрізнятися від того, що демонстрували в OpenAI.

Останні статті

JetBrains представляє нові інструменти для програмістів: Air та Junie CLI

Компанія JetBrains представила два нових інструменти для розробки програмного забезпечення: Air, середовище для делегування завдань…

11.03.2026

Після скандалу найдорожча IT-компанія з українським корінням Grammarly (Superhuman) змінила нову функцію

Реліз нової функції Expert Review спричинив хвилю критики, через яку компанія Superhuman (нова назва Grammarly)…

11.03.2026

Gemini в Google Docs тепер самостійно пише тексти. Але не для всіх

Google перетворює хмарний редактор на інтелектуальний конвеєр. LLM-модель Gemini в Google Docs бере на себе…

11.03.2026

Між NASA та SpaceX виникла суперечка: не можуть обрати варіант висадки на Місяць

Космічне агентство NASA та приватна компанія Ілона Маска SpaceX мають різні погляди на безпеку та…

11.03.2026

Zoom випустить фотореалістичних аватарів, які замінять людей на нарадах

Відеосервіс Zoom анонсує технологію цифрових двійників, які самостійно відвідуватимуть робочі зустрічі. Про це пише TechCrunch.…

10.03.2026

Meta купує Moltbook: соціальну мережу для агентів та ботів

IT-гігант Meta (материнська компанія Facebook) офіційно оголосив про придбання Moltbook — вірусної соціальної мережі, яка…

10.03.2026