Рубріки: Новини

Старшокласник придумав спосіб оцінювати ШІ-моделі за допомогою Minecraft

Андрій Губін

Старшокласник, на ім’я Аді Сінгха створив сайт Minecraft Benchmark (або MC-Bench), який унікально використовує гру-пісочницю Minecraft для оцінювання різних ШІ-моделей. Про це повідомили в Dev.ua.

MC-Bench пропонує інтуїтивно зрозумілий і цікавий спосіб оцінювання моделей штучного інтелекту. Розробники вводять різні підказки в ШІ-моделі, а ті генерують відповідні структури Minecraft. Користувачі голосують за найкращий результат, не знаючи, яка саме модель ШІ створила збірку. Тільки після голосування користувачі бачать ШІ-творця. Такий механізм «сліпого вибору» спрямований на більш об’єктивне відображення реальних можливостей ШІ-моделей.

Аді Сінгх каже, що вибір Minecraft був зумовлений не лише його популярністю, а тим, що візуальний стиль гри дозволяють навіть не гравцям легко визначити, який об’єкт на основі блоків виглядає більш реалістично. Він вважає, що Minecraft робить «прогрес у розробці ШІ більш помітним», пропонуючи більш переконливу візуальну оцінку, ніж суто текстові показники.

Ініціатором створення MC-Bench був Аді Сінгх, а його команда складається з волонтерів. Провідні компанії в галузі штучного інтелекту, зокрема Anthropic, Google, OpenAI та Alibaba, надають субсидоване використання своїх продуктів для проведення тестів, хоча на сайті уточнюється, що ці компанії не беруть участі в інших проєктах.

Сінгх припускає, що ігри можуть стати безпечним і контрольованим середовищем для тестування можливостей «агентного мислення» ШІ, перевершуючи обмеження тестування в реальному світі.

Останні статті

Використання штучного інтелекту знижує розуміння кодової бази та перешкоджає розвитку розробників — дослідження Anthropic

Застосування інструментів на базі штучного інтелекту підвищує продуктивність, але знижує розуміння кодової бази та перешкоджає…

30.01.2026

ChatGPT Agent втратив 75% користувачів, оскільки ніхто не знає, для чого він потрібен

Компанія OpenAI може відмовитися від ChatGPT Agent — інструменту, який випустили лише шість місяців тому.…

30.01.2026

Експерти попередили про небезпеку LLM-моделей з відкритим кодом

У дослідженні, яке спільно провели компанії з кібербезпеки SentinelOne та Censys, стверджується, що LLM-моделі з…

30.01.2026

Онлайн перемагає офлайн? Зібрали досвід сучасних шкіл та ділимось, як технології допомагають навчатися краще

Ще кілька років тому дистанційне навчання сприймали як вимушений компроміс. Батьки чекали, коли світ повернеться…

30.01.2026

Google відкрила доступ до генератора ігрових світів Project Genie

Експериментальний генератор інтерактивних ігрових світів Project Genie від Google, який створює 3D-середовища з текстових або…

30.01.2026

Гейм-розробники більше не хочуть створювати ігри для Xbox

Платформи Steam та Windows лідирують в геймдеві, оскільки підтримка консолей, здається, більше не є пріоритетом…

30.01.2026