Рубріки: Новини

OpenAI запідозрили у маніпуляціях з тестами LLM-моделі o3

Дмитро Сімагін

Результати незалежних тестів поставили під сумнів твердження OpenAI про те, що її нова велика мовна модель o3 здатна впоратися з більш ніж 25% складних математичних завдань FrontierMath, тоді як інші моделі справлялися лише з 2% завдань із цього набору. Розбіжності між результатами внутрішніх та незалежних тестів ставлять питання про якість тестування нейромереж у OpenAI, пише TechCrunch.

На момент анонсу моделі o3 у грудні 2024 року представник OpenAI спеціально звернув увагу на результати алгоритму при вирішенні завдань FrontierMath. Однак виявилось, що o3 не так добре справляється з математичними задачами. Це може вказувати на те, що OpenAI або завищила результати тестування, або в них задіяли іншу версію o3, яка більш здатна до вирішення математичних завдань.

Дослідники з Epoch AI, які стоять за FrontierMath, опублікували результати незалежних тестів загальнодоступної версії LLM-моделі o3. Виявилося, що алгоритм зумів впоратися лише з 10% завдань, що значно нижче за заявлені OpenAI 25%. 

Розбіжність у результатах тестування не означає, що OpenAI спеціально завищила показники своєї моделі. Нижня межа результатів тестування OpenAI практично збігається з результатами Epoch AI. У Epoch AI також відзначили, що модель, що ними тестується, швидше за все, відрізняється від тієї, що тестувалася OpenAI. 

«Різниця між нашими результатами та результатами OpenAI може бути пов’язана з тим, що OpenAI оцінює результати за допомогою більш потужної внутрішньої версії, використовуючи більше часу для обчислень, або тому, що ці результати були отримані на іншому наборі завдань FrontierMath (180 завдань у frontiermath-2024-11-26 проти 29 frontiermath-2025-02-28)», — повідомили в Epoch AI.

Співробітниця OpenAI Венда Чжоу розповіла, що публічна версія o3 «більш оптимізована для реальних випадків використання» та підвищення швидкості обробки запитів порівняно з версією o3, яку компанія тестувала у грудні. За її словами, це є причиною того, що результати тестування в бенчмарках можуть відрізнятися від того, що демонстрували в OpenAI.

Останні статті

Масштабний хакатон ETHKyiv 2025 повертається влітку: головна подія для тих, хто створює технології майбутнього

ETHKyiv 2025 — головна подія року для тих, хто створює технологічні рішення майбутнього — пройде…

21.04.2025

«Той рівень життя, який був у ІТ-спеціалістів в Україні, дуже важко підтримувати в Європі» — топ-менеджер Luxoft Ukraine

Представниця однієї з найбільших в Україні аутсорсингових компаній переконана, що наші співвітчизники, які працюють в…

21.04.2025

«Фільм у 4К за кілька секунд». У Китаї публічна інтернет-мережа досягла швидкості 9834 Мбіт/с

Китайські компанії Huawei та China Unicom запустили першу інтернет-мережу 10G у районі Сюн'ань (провінція Хебей,…

21.04.2025

В Україні порахували, скільки часу потрібно для пошуку розробника

В українському IT медіана для пошуку розробника складає 37 днів. Найдовше шукають C++, .NET i…

21.04.2025

Доступ до інструментів штучного інтелекту в IDE JetBrains тепер надається лише за наявності підписки

Інструменти JetBrains на базі штучного інтелекту, зокрема покращений інструмент AI Assistant та агент кодування Junie,…

21.04.2025

Більше 8 млрд грн податків. Стільки сплатили резиденти Дія.City в І кварталі 2025 року

Резиденти Дія.City сплатили до бюджету понад 8 млрд грн податків в І кварталі 2025 року.…

18.04.2025