Grok 4 перевершив PhD-рівень по всіх тестах, максимальний тариф коштує $300 щомісяця
Компанія xAI випустила Grok 4 — флагманську LLM-модель у сімействі Grok. Перші тести демонструють результати, які можна порівняти з рівнем PhD (доктор наук). Ілон Маск вже заявив, що Grok 4 — «найрозумніший штучний інтелект в історії людства».
Результати тестів Grok 4:
- Новий рекорд на Humanity’s Last Exam — 50,7% при використанні багатоагентної архітектури.
- Без багатоагентного режиму результат все одно вражає — 25%, що вище, ніж у інших LLM-моделей.
- На AIME 25 (математична олімпіада) — 100% правильних відповідей.
- На ARC-AGI-2 (тест на загальний штучний інтелект) — 16% (попередні лідери показували 12-13%).
Багатоагентний режим передбачає, що замість одного модуля штучного інтелекту Grok запускає кілька агентів, які працюють над завданням паралельно, порівнюють гіпотези і приходять до спільного рішення. Це нагадує командну роботу людей — підхід, який активно досліджується у контексті AGI.
Grok 4 матиме спеціалізований інструмент для роботи з кодом, функціонал якого схожий на конкурентів: GitHub Copilot і GPT-4 Code Interpreter.
Модель Grok 4 доступна в двох варіантах: базова версія, яка входить у вартість звичайної передплати на X Premium, та максимальна Grok 4 Heavy за $300 на місяць.
Сообщить об опечатке
Текст, который будет отправлен нашим редакторам: