Рубріки: Новини

Grok 4 перевершив PhD-рівень по всіх тестах, максимальний тариф коштує $300 щомісяця

Дмитро Сімагін

Компанія xAI випустила Grok 4 — флагманську LLM-модель у сімействі Grok. Перші тести демонструють результати, які можна порівняти з рівнем PhD (доктор наук). Ілон Маск вже заявив, що Grok 4 — «найрозумніший штучний інтелект в історії людства».

Результати тестів Grok 4:

  • Новий рекорд на Humanity’s Last Exam — 50,7% при використанні багатоагентної архітектури.
  • Без багатоагентного режиму результат все одно вражає — 25%, що вище, ніж у інших LLM-моделей.
  • На AIME 25 (математична олімпіада) — 100% правильних відповідей.
  • На ARC-AGI-2 (тест на загальний штучний інтелект) — 16% (попередні лідери показували 12-13%).

Багатоагентний режим передбачає, що замість одного модуля штучного інтелекту Grok запускає кілька агентів, які працюють над завданням паралельно, порівнюють гіпотези і приходять до спільного рішення. Це нагадує командну роботу людей — підхід, який активно досліджується у контексті AGI.

Grok 4 матиме спеціалізований інструмент для роботи з кодом, функціонал якого схожий на конкурентів: GitHub Copilot і GPT-4 Code Interpreter.

Модель Grok 4 доступна в двох варіантах: базова версія, яка входить у вартість звичайної передплати на X Premium, та максимальна Grok 4 Heavy за $300 на місяць.

Останні статті

Безінтернетний месенджер Bitchat від Джека Дорсі провалив перевірку безпеки

Дослідники заявили, що новий месенджер Bitchat, створений засновником Twitter Джеком Дорсі, містить критичні вразливості, які…

10.07.2025

Docker розширює можливості для розробки, розгортання та запуску агентних програм

Компанія Docker оголосила про запуск нових функцій для спрощення розробки, розгортання та запуску агентних додатків…

10.07.2025

Білл Гейтс: програмування залишиться на 100% людською професією навіть через століття

Співзасновник Microsoft Білл Гейтс стверджує, що генеративному штучному інтелекту бракує креативності та розсудливості, щоб замінити…

10.07.2025

Після 30 місяців роботи над JIT-компілятором Python він все ще повільніший за інтерпретатор

Кен Джин, розробник ядра CPython, який працює над оптимізацією JIT-компілятора, заявив, що після двох з…

10.07.2025

OpenAI найближчим часом планує випустити браузер зі штучним інтелектом

Компанія OpenAI планує випустити власний браузер зі штучним інтелектом уже в найближчі тижні. Про це повідомила Speka. Новий браузер стане…

09.07.2025

У airSlate ймовірні зміни у керівництві. На посаду повертається Вадим Ясиновський

В ІТ-компанії airSlate, вірогідно, відбулася зміна CEO. Посаду замість Бориса Шахновича зайняв співзасновник бізнесу Вадим Ясиновський. Про…

09.07.2025