Рубріки: Новини

Старшокласник придумав спосіб оцінювати ШІ-моделі за допомогою Minecraft

Андрій Губін

Старшокласник, на ім’я Аді Сінгха створив сайт Minecraft Benchmark (або MC-Bench), який унікально використовує гру-пісочницю Minecraft для оцінювання різних ШІ-моделей. Про це повідомили в Dev.ua.

MC-Bench пропонує інтуїтивно зрозумілий і цікавий спосіб оцінювання моделей штучного інтелекту. Розробники вводять різні підказки в ШІ-моделі, а ті генерують відповідні структури Minecraft. Користувачі голосують за найкращий результат, не знаючи, яка саме модель ШІ створила збірку. Тільки після голосування користувачі бачать ШІ-творця. Такий механізм «сліпого вибору» спрямований на більш об’єктивне відображення реальних можливостей ШІ-моделей.

Аді Сінгх каже, що вибір Minecraft був зумовлений не лише його популярністю, а тим, що візуальний стиль гри дозволяють навіть не гравцям легко визначити, який об’єкт на основі блоків виглядає більш реалістично. Він вважає, що Minecraft робить «прогрес у розробці ШІ більш помітним», пропонуючи більш переконливу візуальну оцінку, ніж суто текстові показники.

Ініціатором створення MC-Bench був Аді Сінгх, а його команда складається з волонтерів. Провідні компанії в галузі штучного інтелекту, зокрема Anthropic, Google, OpenAI та Alibaba, надають субсидоване використання своїх продуктів для проведення тестів, хоча на сайті уточнюється, що ці компанії не беруть участі в інших проєктах.

Сінгх припускає, що ігри можуть стати безпечним і контрольованим середовищем для тестування можливостей «агентного мислення» ШІ, перевершуючи обмеження тестування в реальному світі.

Останні статті

Стався масштабний збій Starlink. Спостерігаються проблеми в роботі по всьому світу

Увечері 24 липня по всьому світу почали повідомляти про збій роботи Starlink. Проблеми в роботі…

24.07.2025

У Верховній раді зареєстровано законопроєкт про заборону російського ПЗ

У Раді зареєстрували законопроєкт, який забороняє використовувати та продавати в Україні ІТ-продукти, пов’язані з росією.…

24.07.2025

Microsoft планує масштабне оновлення Visual Studio

Microsoft планує серйозне оновлення інтегрованого середовища розробки Visual Studio. Журналісти видання Business Insider ознайомились з…

24.07.2025

AWS пропонує безкоштовний тариф з віртуальними $200 для тестування сервісів та розгортання програм

Хмарний сервіс Amazon Web Services представив новий безкоштовний тариф — AWS Free Tier. Він дозволяє…

24.07.2025

Microsoft випустила інструмент GitHub Spark для створення програм за текстовим описом

Microsoft перевела в публічний доступ інструмент на базі штучного інтелекту GitHub Spark, призначений для створення…

24.07.2025

Користувачі ChatGPT тепер можуть персоналізувати діалог з чат-ботом

OpenAI запускає нову функцію персоналізації у веб-додатку ChatGPT. Вона дозволяє обирати між кількома особистостями, з…

24.07.2025