Рубріки: Новини

Старшокласник придумав спосіб оцінювати ШІ-моделі за допомогою Minecraft

Андрій Губін

Старшокласник, на ім’я Аді Сінгха створив сайт Minecraft Benchmark (або MC-Bench), який унікально використовує гру-пісочницю Minecraft для оцінювання різних ШІ-моделей. Про це повідомили в Dev.ua.

MC-Bench пропонує інтуїтивно зрозумілий і цікавий спосіб оцінювання моделей штучного інтелекту. Розробники вводять різні підказки в ШІ-моделі, а ті генерують відповідні структури Minecraft. Користувачі голосують за найкращий результат, не знаючи, яка саме модель ШІ створила збірку. Тільки після голосування користувачі бачать ШІ-творця. Такий механізм «сліпого вибору» спрямований на більш об’єктивне відображення реальних можливостей ШІ-моделей.

Аді Сінгх каже, що вибір Minecraft був зумовлений не лише його популярністю, а тим, що візуальний стиль гри дозволяють навіть не гравцям легко визначити, який об’єкт на основі блоків виглядає більш реалістично. Він вважає, що Minecraft робить «прогрес у розробці ШІ більш помітним», пропонуючи більш переконливу візуальну оцінку, ніж суто текстові показники.

Ініціатором створення MC-Bench був Аді Сінгх, а його команда складається з волонтерів. Провідні компанії в галузі штучного інтелекту, зокрема Anthropic, Google, OpenAI та Alibaba, надають субсидоване використання своїх продуктів для проведення тестів, хоча на сайті уточнюється, що ці компанії не беруть участі в інших проєктах.

Сінгх припускає, що ігри можуть стати безпечним і контрольованим середовищем для тестування можливостей «агентного мислення» ШІ, перевершуючи обмеження тестування в реальному світі.

Останні статті

FAVBET Tech сплатили ₴650 млн податків у 2025-му. Це 20 тис. дронів або 40 тис. антидронових рушниць

За дев’ять місяців 2025 року українська ІТ-компанія FAVBET Tech перерахувала до державного бюджету понад 650…

24.10.2025

Microsoft додає в Copilot групи з підтримкою до 32 учасників, режим репетитора Learn Live та анімованого помічника

Microsoft впроваджує деякі суттєві зміни до свого помічника Copilot. По-перше, з’явилася нова функція груп, яка…

24.10.2025

У Google Meet з’явились «кімнати очікування»

Компанія Google додає в свій сервіс відеозв'язку Meet «кімнати очікування», які покращують контроль над онлайн-зустріччю…

24.10.2025

ChatGPT тепер може аналізувати внутрішні корпоративні дані

OpenAI додає в ChatGPT функцію під назвою Company knowledge. Вона працює на базі версії GPT-5,…

24.10.2025

PyTorch представляє Monarch — фреймворк для програмування на тисячах комп’ютерів

Команда PyTorch випустила фреймворк з відкритим кодом Monarch, який дозволяє Python-розробникам програмувати розподілені системи так,…

24.10.2025

Агент Cursor врятував розробника від хакера, який видавав себе за українця

Розробник Девід Додда каже, що був лише «за 30 секунд» від запуску шкідливого програмного забезпечення…

24.10.2025