OpenAI повертає лідерство: GPT-5.5 випередила Claude Opus 4.7 у ключовому бенчмарку Terminal-Bench 2.0
Компанія OpenAI представила GPT-5.5 — нову LLM-модель, орієнтовану на виконання складних багатоетапних завдань з мінімальним втручанням людини. Це перша повністю перенавчена базова модель з часів GPT-4.5.
OpenAI позиціонує GPT-5.5 як «найрозумнішу й найінтуїтивнішу» LLM, яка може самостійно планувати завдання, використовувати інструменти, перевіряти проміжні результати й доводити справу до кінця без потреби контролювати кожен крок.
GPT-5.5 побудована та обслуговується на кластерах NVIDIA GB200 і GB300-NVL72, при цьому затримка на токен залишається на рівні GPT-5.4. Примітно, що GPT-5.5 сама допомагала оптимізувати власну інфраструктуру: зокрема, розробила евристику балансування навантаження, що підвищили швидкість генерації токенів на понад 20%.
Ключові покращення по напрямках
- Кодування. На Terminal-Bench 2.0 модель набрала 82.7% — найвищий результат серед усіх публічно доступних моделей. На внутрішньому бенчмарку Expert-SWE, де задачі мають медіанний час виконання 20 годин людиною, GPT-5.5 перевершує попередника. SWE-Bench Pro — 58.6%, хоча Claude Opus 4.7 тут іще попереду з 64.3% (OpenAI зазначає можливу меморизацію в результатах Anthropic).
- Робота з комп’ютером. На OSWorld-Verified — 78.7%, що вперше виводить флагманську модель OpenAI вперед Anthropic у повноцінному керуванні робочим столом.
- Наукові дослідження. На BixBench (біоінформатика та аналіз даних) — найкращий результат серед моделей з опублікованими оцінками. Внутрішня версія GPT-5.5 знайшла новий доказ асимптотичного факту про позадіагональні числа Ремсі в комбінаториці, пізніше перевірений у Lean.
- Знання. FinanceAgent — 60.0%, завдання інвестиційного банкінгу — 88.5%, OfficeQA Pro — 54.1%, GDPval (84 професії) — 84.9%.
«Модель демонструє суттєві покращення в науково-технічних дослідницьких робочих процесах і може реально допомогти науковцям просуватися вперед, зокрема у відкритті ліків», — пише Марк Чен, директор з досліджень OpenAI:
| Бенчмарк | GPT-5.5 | Claude Opus 4.7 | Gemini 3.1 Pro | Напрямок |
|---|---|---|---|---|
| Terminal-Bench 2.0 | 82.7% ★ | 69.4% | 68.5% | Кодування |
| SWE-Bench Pro | 58.6% | 64.3% ★ | — | GitHub issues |
| OSWorld-Verified | 78.7% ★ | 78.0% | — | Комп’ютерна робота |
| GDPval (84 професії) | 84.9% ★ | 80.3% | 67.3% | Економічна цінність |
| FrontierMath Tier 4 | 35.4% ★ | 22.9% | 16.7% | Складна математика |
| BrowseComp (Pro) | 90.1% ★ | — | 85.9% | Веб-пошук |
| CyberGym | 81.8% | 73.1% | Mythos: 83.1% | Кібербезпека |
| AA-Omniscience (галюцинації) | 86% ⚠ | 36% | 50% | Менше — краще |
| Artificial Analysis Index | 60 ★ | 57 | 57 | Загальний рейтинг |
Слабкі сторони та застереження
Незважаючи на рекордні показники, компанія сама визнає ряд обмежень. Найсуттєвіше — рівень галюцинацій: 86% за незалежним бенчмарком AA-Omniscience (для порівняння: Claude Opus 4.7 — 36%). Модель демонструє найвищу точність (57%), але впевнено відповідає навіть тоді, коли помиляється — це критично для юридичних, фінансових та медичних застосувань.
На деяких тестах MRCR-v2 у діапазоні 16К–64К токенів GPT-5.5 дещо поступається GPT-5.4, хоча на довгих контекстах (до 1M) суттєво виграє. SWE-Bench Pro все ще за Claude Opus 4.7. Доступ через API затримується через вимоги безпеки — модель отримала класифікацію High за Preparedness Framework. Легітимні дослідники у сфері кібербезпеки мають реєструватися в програмі Trusted Access for Cyber.
Курс на «суперзастосунок» та конкуренція з Anthropic
Грег Брокман і Сем Альтман давно говорять про створення єдиного «суперзастосунку», що об’єднає ChatGPT, Codex і AI-браузер в одну платформу для бізнесу. GPT-5.5 — черговий крок у цьому напрямку. Головний науковець OpenAI Якуб Пахоцький зазначив, що компанія очікує «дуже значних покращень у середньостроковій перспективі», назвавши останні два роки «напрочуд повільними».
Наразі нова модель доступна в двох варіантах:
| Параметр | GPT-5.5 | GPT-5.5 Pro |
|---|---|---|
| Дата випуску | 23 квітня 2026 (ChatGPT + Codex); API — незабаром | |
| Тип моделі | Текст + зображення; без нативного аудіо/відео на виході | |
| Контекстне вікно | 1 000 000 токенів | |
| Рівні зусиль (reasoning) | non-reasoning / low / medium / high / xhigh | |
| API — вхідні токени | $5 / 1M | $30 / 1M |
| API — вихідні токени | $30 / 1M | $180 / 1M |
| Batch / Flex | 50% від стандартної ціни | |
| Priority | 2.5× від стандартної ціни | |
| Codex Fast Mode | 1.5× швидше, 2.5× дорожче | |
| Контекст у Codex | 400 000 токенів | |
| Доступ у ChatGPT | Plus, Pro, Business, Enterprise | Pro, Business, Enterprise |
| Доступ у Codex | Plus, Pro, Business, Enterprise, Edu, Go | — |
| Апаратна платформа | NVIDIA GB200 + GB300-NVL72 | |
| Рівень ризику (Preparedness) | High — біологія/хімія та кібербезпека | |
| Ефективність токенів | ~40% менше вихідних токенів проти GPT-5.4 | |
| Ідентифікатор у API | gpt-5.5 | gpt-5.5-pro |
На жаль, для сторонніх розробників програмного забезпечення, доступ до API поки що недоступний ні для GPT-5.5, ні для GPT-5.5 Pro. Але компанія обіцяє додати цю опцію «дуже скоро».
Модель GPT-5.5 зараз можуть спробувати лише платні користувачі ChatGPT Plus ($20 на місяць), Pro ($100-200 на місяць), Business та Enterprise, причому доступ до GPT-5.5 Pro починається з рівня Pro і вище.
Нагадаємо, кілька днів тому OpenAI презентувала ChatGPT Images 2.0: візуальну модель, яка забезпечує прорив у генерації зображень.
Підписуйтесь на нас у соцмережах: Telegram | Facebook | LinkedIn












Сообщить об опечатке
Текст, который будет отправлен нашим редакторам: