Рубріки: Новини

Старшокласник придумав спосіб оцінювати ШІ-моделі за допомогою Minecraft

Андрій Губін

Старшокласник, на ім’я Аді Сінгха створив сайт Minecraft Benchmark (або MC-Bench), який унікально використовує гру-пісочницю Minecraft для оцінювання різних ШІ-моделей. Про це повідомили в Dev.ua.

MC-Bench пропонує інтуїтивно зрозумілий і цікавий спосіб оцінювання моделей штучного інтелекту. Розробники вводять різні підказки в ШІ-моделі, а ті генерують відповідні структури Minecraft. Користувачі голосують за найкращий результат, не знаючи, яка саме модель ШІ створила збірку. Тільки після голосування користувачі бачать ШІ-творця. Такий механізм «сліпого вибору» спрямований на більш об’єктивне відображення реальних можливостей ШІ-моделей.

Аді Сінгх каже, що вибір Minecraft був зумовлений не лише його популярністю, а тим, що візуальний стиль гри дозволяють навіть не гравцям легко визначити, який об’єкт на основі блоків виглядає більш реалістично. Він вважає, що Minecraft робить «прогрес у розробці ШІ більш помітним», пропонуючи більш переконливу візуальну оцінку, ніж суто текстові показники.

Ініціатором створення MC-Bench був Аді Сінгх, а його команда складається з волонтерів. Провідні компанії в галузі штучного інтелекту, зокрема Anthropic, Google, OpenAI та Alibaba, надають субсидоване використання своїх продуктів для проведення тестів, хоча на сайті уточнюється, що ці компанії не беруть участі в інших проєктах.

Сінгх припускає, що ігри можуть стати безпечним і контрольованим середовищем для тестування можливостей «агентного мислення» ШІ, перевершуючи обмеження тестування в реальному світі.

Останні статті

Microsoft оприлюднила системні вимоги до ігрових ПК на Windows 11

Microsoft вперше опублікувала детальні системні вимоги до ігрових ПК під Windows 11, розділивши їх на…

15.12.2025

За три місяці в Україні вдвічі зросла кількість miltech-вакансій. Але без віддаленої роботи

За останній квартал в Україні вдвічі збільшилась кількість miltech-вакансій. Зараз на Djinni розміщено 360 вакансій…

15.12.2025

В Android 17 з’явиться функція блокування окремих програм

Google готується додати в Android 17 нову функцію блокування окремих застосунків, ймовірно, за допомогою пароля…

15.12.2025

Українська освіта не встигає реагувати на дефіцит інженерів у DefenceTech — дослідження ITExpert

Навіть приріст у +82% заяв на окремі технічні спеціальності не покриває потреби ринку. На окремі…

15.12.2025

У Чернівцях судять студента-програміста КПІ, який зламав Netflix з метою продажу чужих акаунтів

Шевченківський районний суд міста Чернівці почав розгляд справи студента 2-го курсу факультету інформатики та обчислювальної…

15.12.2025

«Великий стрибок у програмуванні»: експерти поділились враженнями від GPT-5.2

Реакція експертів на нову LLM-модель GPT-5.2 від OpenAI, малює двояку картину: реліз названо великим кроком…

15.12.2025