Рубріки: Новини

Старшокласник придумав спосіб оцінювати ШІ-моделі за допомогою Minecraft

Андрій Губін

Старшокласник, на ім’я Аді Сінгха створив сайт Minecraft Benchmark (або MC-Bench), який унікально використовує гру-пісочницю Minecraft для оцінювання різних ШІ-моделей. Про це повідомили в Dev.ua.

MC-Bench пропонує інтуїтивно зрозумілий і цікавий спосіб оцінювання моделей штучного інтелекту. Розробники вводять різні підказки в ШІ-моделі, а ті генерують відповідні структури Minecraft. Користувачі голосують за найкращий результат, не знаючи, яка саме модель ШІ створила збірку. Тільки після голосування користувачі бачать ШІ-творця. Такий механізм «сліпого вибору» спрямований на більш об’єктивне відображення реальних можливостей ШІ-моделей.

Аді Сінгх каже, що вибір Minecraft був зумовлений не лише його популярністю, а тим, що візуальний стиль гри дозволяють навіть не гравцям легко визначити, який об’єкт на основі блоків виглядає більш реалістично. Він вважає, що Minecraft робить «прогрес у розробці ШІ більш помітним», пропонуючи більш переконливу візуальну оцінку, ніж суто текстові показники.

Ініціатором створення MC-Bench був Аді Сінгх, а його команда складається з волонтерів. Провідні компанії в галузі штучного інтелекту, зокрема Anthropic, Google, OpenAI та Alibaba, надають субсидоване використання своїх продуктів для проведення тестів, хоча на сайті уточнюється, що ці компанії не беруть участі в інших проєктах.

Сінгх припускає, що ігри можуть стати безпечним і контрольованим середовищем для тестування можливостей «агентного мислення» ШІ, перевершуючи обмеження тестування в реальному світі.

Останні статті

Користувачі Windows зможуть працювати з файлами без необхідності їх відкривати

Microsoft тестує нові функції Провідника на базі штучного інтелекту, які дозволяють користувачам Windows 11 працювати…

09.09.2025

Nvidia відкрила для українських студентів безкоштовний доступ до 11 курсів про штучний інтелект

Компанія Nvidia разом з Київським IT-кластером запускає для українських університетів безплатний доступ до платформи Deep…

09.09.2025

Google додає в Gemini підтримку аудіофайлів, завантаження папок з кодом і репозиторіїв

Компанія Google додала в Gemini можливість завантаження аудіофайлів на всіх платформах: Android, iOS та у…

09.09.2025

Microsoft спрощує написання формул в Excel завдяки автодоповненню Copilot

Microsoft додає нову функцію Copilot в Excel, яка автоматично доповнює формули під час введення. Автодоповнення…

09.09.2025

«Наймасштабніша JS-атака в історії»: хакери зламали обліковий запис NPM

Компанія Aikido Security виявила наймасштабнішу атаку на екосистему JavaScript. Хакери зламали обліковий запис одного з…

09.09.2025

Середній вік співробітників IT-компаній зріс на 5 років, кількість зумерів скоротилась вдвічі

Співробітників IT-компаній віком від 21 до 25 років за два з половиною роки поменшало вдвічі,…

08.09.2025