Рубріки: Новини

Grok 4 перевершив PhD-рівень по всіх тестах, максимальний тариф коштує $300 щомісяця

Дмитро Сімагін

Компанія xAI випустила Grok 4 — флагманську LLM-модель у сімействі Grok. Перші тести демонструють результати, які можна порівняти з рівнем PhD (доктор наук). Ілон Маск вже заявив, що Grok 4 — «найрозумніший штучний інтелект в історії людства».

Результати тестів Grok 4:

  • Новий рекорд на Humanity’s Last Exam — 50,7% при використанні багатоагентної архітектури.
  • Без багатоагентного режиму результат все одно вражає — 25%, що вище, ніж у інших LLM-моделей.
  • На AIME 25 (математична олімпіада) — 100% правильних відповідей.
  • На ARC-AGI-2 (тест на загальний штучний інтелект) — 16% (попередні лідери показували 12-13%).

Багатоагентний режим передбачає, що замість одного модуля штучного інтелекту Grok запускає кілька агентів, які працюють над завданням паралельно, порівнюють гіпотези і приходять до спільного рішення. Це нагадує командну роботу людей — підхід, який активно досліджується у контексті AGI.

Grok 4 матиме спеціалізований інструмент для роботи з кодом, функціонал якого схожий на конкурентів: GitHub Copilot і GPT-4 Code Interpreter.

Модель Grok 4 доступна в двох варіантах: базова версія, яка входить у вартість звичайної передплати на X Premium, та максимальна Grok 4 Heavy за $300 на місяць.

Останні статті

Google розробляє нову операційну систему Aluminium, яка перенесе Android на ПК

Google має намір об'єднати операційні системи ChromeOS та Android в єдину платформу для настільних комп'ютерів…

25.11.2025

ChatGPT тепер може виконувати складні дослідження покупок для пошуку ідеального товару

OpenAI додала в ChatGPT нову функцію «дослідження покупок», яка допоможе користувачам у процесі обрання найкращого…

25.11.2025

Китайська LLM-модель DeepSeek-R1 генерує небезпечний код, якщо в запитах згадується Тибет або уйгури

Дослідження компанії кібербезпеки CrowdStrike показало, що LLM-модель DeepSeek-R1 створює більше вразливостей безпеки в коді, якщо…

25.11.2025

Amazon примушує своїх розробників відмовитися від сторонніх інструментів кодування на користь Kiro

Amazon пропонує своїм розробникам відмовитися від інструментів генерації коду від сторонніх компаній на користь власного…

25.11.2025

Anthropic стверджує, що її нова модель Claude Opus 4.5 перевершує всіх в програмуванні

Anthropic випустила нову LLM-модель Claude Opus 4.5. Стверджується, що це найкраща модель у світі для…

25.11.2025

Китайський інструмент вайб-кодингу LingGuang обігнав за популярністю ChatGPT і Sora 2

Інструмент кодування LingGuang від китайської компанії Ant Group менше ніж за тиждень досяг першого мільйона…

24.11.2025