Рубріки: Новини

Старшокласник придумав спосіб оцінювати ШІ-моделі за допомогою Minecraft

Андрій Губін

Старшокласник, на ім’я Аді Сінгха створив сайт Minecraft Benchmark (або MC-Bench), який унікально використовує гру-пісочницю Minecraft для оцінювання різних ШІ-моделей. Про це повідомили в Dev.ua.

MC-Bench пропонує інтуїтивно зрозумілий і цікавий спосіб оцінювання моделей штучного інтелекту. Розробники вводять різні підказки в ШІ-моделі, а ті генерують відповідні структури Minecraft. Користувачі голосують за найкращий результат, не знаючи, яка саме модель ШІ створила збірку. Тільки після голосування користувачі бачать ШІ-творця. Такий механізм «сліпого вибору» спрямований на більш об’єктивне відображення реальних можливостей ШІ-моделей.

Аді Сінгх каже, що вибір Minecraft був зумовлений не лише його популярністю, а тим, що візуальний стиль гри дозволяють навіть не гравцям легко визначити, який об’єкт на основі блоків виглядає більш реалістично. Він вважає, що Minecraft робить «прогрес у розробці ШІ більш помітним», пропонуючи більш переконливу візуальну оцінку, ніж суто текстові показники.

Ініціатором створення MC-Bench був Аді Сінгх, а його команда складається з волонтерів. Провідні компанії в галузі штучного інтелекту, зокрема Anthropic, Google, OpenAI та Alibaba, надають субсидоване використання своїх продуктів для проведення тестів, хоча на сайті уточнюється, що ці компанії не беруть участі в інших проєктах.

Сінгх припускає, що ігри можуть стати безпечним і контрольованим середовищем для тестування можливостей «агентного мислення» ШІ, перевершуючи обмеження тестування в реальному світі.

Останні статті

Архівувати дані все складніше: HDD подорожчали, сайти блокують пошукових ботів

Організації, які займаються архівуванням інтернет-даних, опинилися під подвійним тиском: ціни на накопичувачі злетіли через попит…

08.05.2026

З відеокартою Nvidia RTX 5090 можна зламати 60% паролів менш ніж за годину

60% паролів, захищених алгоритмом MD5, можна зламати менш ніж за годину за допомогою однієї відеокарти…

08.05.2026

OpenAI додає Codex у Chrome: тепер це однозначно головний конкурент Claude Code

Компанія OpenAI офіційно випустила розширення Codex для браузера Google Chrome, що стало важливим кроком у…

08.05.2026

КНУ імені Шевченка зняв заборону на Telegram: що змусило ректора змінити рішення

Київський національний університет імені Тараса Шевченка розблокував Telegram у своїй внутрішній мережі. Ректор підписав відповідний…

08.05.2026

Хто в Україні вміє впроваджувати CRM: з’явився перший незалежний рейтинг інтеграторів

Кожна п'ята українська компанія, яка використовує CRM, досі робить це за допомогою російського софту. А…

08.05.2026

40% розробників C++ використовують штучний інтелект, але довіра до нього залишається низькою — опитування

Щорічне опитування Standard C++ Foundation зафіксувало стрімке зростання використання штучного інтелекту серед C++-розробників — однак…

08.05.2026