Рубріки: Новини

OpenAI повертає лідерство: GPT-5.5 випередила Claude Opus 4.7 у ключовому бенчмарку Terminal-Bench 2.0

Олександр Остапенко

Компанія OpenAI представила GPT-5.5 — нову LLM-модель, орієнтовану на виконання складних багатоетапних завдань з мінімальним втручанням людини. Це перша повністю перенавчена базова модель з часів GPT-4.5.

OpenAI позиціонує GPT-5.5 як «найрозумнішу й найінтуїтивнішу» LLM, яка може самостійно планувати завдання, використовувати інструменти, перевіряти проміжні результати й доводити справу до кінця без потреби контролювати кожен крок.

GPT-5.5 побудована та обслуговується на кластерах NVIDIA GB200 і GB300-NVL72, при цьому затримка на токен залишається на рівні GPT-5.4. Примітно, що GPT-5.5 сама допомагала оптимізувати власну інфраструктуру: зокрема, розробила евристику балансування навантаження, що підвищили швидкість генерації токенів на понад 20%.

Ключові покращення по напрямках

  • Кодування. На Terminal-Bench 2.0 модель набрала 82.7% — найвищий результат серед усіх публічно доступних моделей. На внутрішньому бенчмарку Expert-SWE, де задачі мають медіанний час виконання 20 годин людиною, GPT-5.5 перевершує попередника. SWE-Bench Pro — 58.6%, хоча Claude Opus 4.7 тут іще попереду з 64.3% (OpenAI зазначає можливу меморизацію в результатах Anthropic).
  • Робота з комп’ютером. На OSWorld-Verified — 78.7%, що вперше виводить флагманську модель OpenAI вперед Anthropic у повноцінному керуванні робочим столом.
  • Наукові дослідження. На BixBench (біоінформатика та аналіз даних) — найкращий результат серед моделей з опублікованими оцінками. Внутрішня версія GPT-5.5 знайшла новий доказ асимптотичного факту про позадіагональні числа Ремсі в комбінаториці, пізніше перевірений у Lean.
  • Знання. FinanceAgent — 60.0%, завдання інвестиційного банкінгу — 88.5%, OfficeQA Pro — 54.1%, GDPval (84 професії) — 84.9%.

«Модель демонструє суттєві покращення в науково-технічних дослідницьких робочих процесах і може реально допомогти науковцям просуватися вперед, зокрема у відкритті ліків», — пише Марк Чен, директор з досліджень OpenAI: 

Бенчмарк GPT-5.5 Claude Opus 4.7 Gemini 3.1 Pro Напрямок
Terminal-Bench 2.0 82.7% ★ 69.4% 68.5% Кодування
SWE-Bench Pro 58.6% 64.3% ★ GitHub issues
OSWorld-Verified 78.7% ★ 78.0% Комп’ютерна робота
GDPval (84 професії) 84.9% ★ 80.3% 67.3% Економічна цінність
FrontierMath Tier 4 35.4% ★ 22.9% 16.7% Складна математика
BrowseComp (Pro) 90.1% ★ 85.9% Веб-пошук
CyberGym 81.8% 73.1% Mythos: 83.1% Кібербезпека
AA-Omniscience (галюцинації) 86% ⚠ 36% 50% Менше — краще
Artificial Analysis Index 60 ★ 57 57 Загальний рейтинг

Слабкі сторони та застереження

Незважаючи на рекордні показники, компанія сама визнає ряд обмежень. Найсуттєвіше — рівень галюцинацій: 86% за незалежним бенчмарком AA-Omniscience (для порівняння: Claude Opus 4.7 — 36%). Модель демонструє найвищу точність (57%), але впевнено відповідає навіть тоді, коли помиляється — це критично для юридичних, фінансових та медичних застосувань.

На деяких тестах MRCR-v2 у діапазоні 16К–64К токенів GPT-5.5 дещо поступається GPT-5.4, хоча на довгих контекстах (до 1M) суттєво виграє. SWE-Bench Pro все ще за Claude Opus 4.7. Доступ через API затримується через вимоги безпеки — модель отримала класифікацію High за Preparedness Framework. Легітимні дослідники у сфері кібербезпеки мають реєструватися в програмі Trusted Access for Cyber.

Курс на «суперзастосунок» та конкуренція з Anthropic

Грег Брокман і Сем Альтман давно говорять про створення єдиного «суперзастосунку», що об’єднає ChatGPT, Codex і AI-браузер в одну платформу для бізнесу. GPT-5.5 — черговий крок у цьому напрямку. Головний науковець OpenAI Якуб Пахоцький зазначив, що компанія очікує «дуже значних покращень у середньостроковій перспективі», назвавши останні два роки «напрочуд повільними».

Наразі нова модель доступна в двох варіантах:

Параметр GPT-5.5 GPT-5.5 Pro
Дата випуску 23 квітня 2026 (ChatGPT + Codex); API — незабаром
Тип моделі Текст + зображення; без нативного аудіо/відео на виході
Контекстне вікно 1 000 000 токенів
Рівні зусиль (reasoning) non-reasoning / low / medium / high / xhigh
API — вхідні токени $5 / 1M $30 / 1M
API — вихідні токени $30 / 1M $180 / 1M
Batch / Flex 50% від стандартної ціни
Priority 2.5× від стандартної ціни
Codex Fast Mode 1.5× швидше, 2.5× дорожче
Контекст у Codex 400 000 токенів
Доступ у ChatGPT Plus, Pro, Business, Enterprise Pro, Business, Enterprise
Доступ у Codex Plus, Pro, Business, Enterprise, Edu, Go
Апаратна платформа NVIDIA GB200 + GB300-NVL72
Рівень ризику (Preparedness) High — біологія/хімія та кібербезпека
Ефективність токенів ~40% менше вихідних токенів проти GPT-5.4
Ідентифікатор у API gpt-5.5 gpt-5.5-pro

На жаль, для сторонніх розробників програмного забезпечення, доступ до API поки що недоступний ні для GPT-5.5, ні для GPT-5.5 Pro. Але компанія обіцяє додати цю опцію «дуже скоро».

Модель GPT-5.5 зараз можуть спробувати лише платні користувачі ChatGPT Plus ($20 на місяць), Pro ($100-200 на місяць), Business та Enterprise, причому доступ до GPT-5.5 Pro починається з рівня Pro і вище.

Нагадаємо, кілька днів тому OpenAI презентувала ChatGPT Images 2.0: візуальну модель, яка забезпечує прорив у генерації зображень.

Підписуйтесь на нас у соцмережах: Telegram | Facebook | LinkedIn

Останні статті

Вайб-воркінг: Microsoft дозволить агентам працювати за вас у Word та Excel

Компанія Microsoft розширює застосування концепції під назвою Vibe Working (вайб-воркінг) та спеціального режиму роботи Agent…

24.04.2026

Тім Кук розповів про свою найбільшу помилку на посаді CEO Apple

Тім Кук вирішив озирнутись на роки правління компанією, виділивши два полярні моменти: запуск Apple Maps…

24.04.2026

Неможливе стало реальністю: новий Linux тепер можна запускати на старому ПК з Windows 95

Якщо у вас десь в коморі припадає пилом старенький ПК на базі Intel 486 із…

23.04.2026

Ідеально для студентів: Google Gemini тепер конспектує лекції та робить нотатки на офлайн-нарадах

Компанія Google оновила функціонал свого віртуального помічника Gemini, додавши можливість автоматичного створення нотаток під час…

23.04.2026

Кінець «безліміту»: GitHub Copilot переходить на оплату за використані токени

Модель підписки для програмування за допомогою штучного інтелекту, схоже, добігає кінця. Ціноутворення в розмірі $20-30…

23.04.2026

Оцінка Anthropic досягла $1 трильйону. Два місяці тому компанія коштувала $380 мільярдів

На ринку pre-IPO акцій спостерігається справжній ажіотаж навколо цінних паперів Anthropic. Інвестори готові купляти акції…

23.04.2026