Рубріки: Новини

Старшокласник придумав спосіб оцінювати ШІ-моделі за допомогою Minecraft

Андрій Губін

Старшокласник, на ім’я Аді Сінгха створив сайт Minecraft Benchmark (або MC-Bench), який унікально використовує гру-пісочницю Minecraft для оцінювання різних ШІ-моделей. Про це повідомили в Dev.ua.

MC-Bench пропонує інтуїтивно зрозумілий і цікавий спосіб оцінювання моделей штучного інтелекту. Розробники вводять різні підказки в ШІ-моделі, а ті генерують відповідні структури Minecraft. Користувачі голосують за найкращий результат, не знаючи, яка саме модель ШІ створила збірку. Тільки після голосування користувачі бачать ШІ-творця. Такий механізм «сліпого вибору» спрямований на більш об’єктивне відображення реальних можливостей ШІ-моделей.

Аді Сінгх каже, що вибір Minecraft був зумовлений не лише його популярністю, а тим, що візуальний стиль гри дозволяють навіть не гравцям легко визначити, який об’єкт на основі блоків виглядає більш реалістично. Він вважає, що Minecraft робить «прогрес у розробці ШІ більш помітним», пропонуючи більш переконливу візуальну оцінку, ніж суто текстові показники.

Ініціатором створення MC-Bench був Аді Сінгх, а його команда складається з волонтерів. Провідні компанії в галузі штучного інтелекту, зокрема Anthropic, Google, OpenAI та Alibaba, надають субсидоване використання своїх продуктів для проведення тестів, хоча на сайті уточнюється, що ці компанії не беруть участі в інших проєктах.

Сінгх припускає, що ігри можуть стати безпечним і контрольованим середовищем для тестування можливостей «агентного мислення» ШІ, перевершуючи обмеження тестування в реальному світі.

Останні статті

MiMo-V2-Pro від Xiaomi: майже наздоганяє GPT-5.2 та Opus 4.6 і коштує в 6-7 разів дешевше

Xiaomi Labs офіційно представила MiMo-V2-Pro — свою флагманську LLM-модель, яка має 1 трильйон параметрів. Бенчмарки…

19.03.2026

Meta закриє доступ до Horizon Worlds через VR. Залишиться лише мобільна версія

Віртуальний всесвіт Horizon Worlds стане недоступним через VR-гарнітуру після 15 червня 2026 року. У лютому…

19.03.2026

Голосовий UI-дизайн від Google: що вміє оновлений вайб-інструмент Stitch

Команда Google Labs представила масштабне оновлення свого експериментального інструменту Stitch, запровадивши концепцію «вайб-дизайну». Якщо коротко:…

19.03.2026

Новий тренд: Китай фінансує тисячі ШІ-компаній без найманих працівників

Влада Китаю почала субсидувати тисячі «одноосібних компаній» (One-Person Companies, OPC), які спеціалізуються на технологіях штучного…

19.03.2026

У вас є 20 000 підписників в YouTube чи TikTok? Якщо так, Facebook буде вам платити $100 щомісяця

Meta розгортає масштабну кампанію залучення топових авторів контенту з конкуруючих платформ на Facebook. Завдяки новій…

19.03.2026

Apple блокує оновлення програм вайб-кодингу в App Store

Корпорація Apple розпочала кампанію з обмеження розповсюдження застосунків, які сприяють в розробці інших програм за…

19.03.2026