Google випустила Magika 1.0 — систему, яка визначає вміст файлів включно з мовами програмування
Google випустила стабільний реліз системи визначення вмісту файлів Magika 1.0. Вона вміє аналізувати тип та вміст файлів включно з мовами програмування, які використовувались при розробці, методами стиснення, інсталяційними пакетами, кодом, видами розмітки, форматами звуку, відео, документів та зображень. Про це інформує блог Google.
Magika 1.0 має відкритий код і поширюються під ліцензією Apache 2.0. Система вміє ідентифікувати понад 200 типів контенту, що вдвічі більше, ніж під час виходу початкової версії.
Однією з основних змін Magika 1.0 є те, що код системи переписано з Python на Rust. На MacBook Pro (M4) продуктивність нового рушія Magika дозволяє обробляти близько 1000 файлів за секунду.
Серед інших нововведень Magika 1.0 варто виділити:
- Нативний клієнт командного рядка Rust, який максимально прискорює роботу.
- Підвищена точність для складних текстових форматів, таких як код та файли конфігурації.
- Оновлений модуль Magika для Python та TypeScript для ще легшої інтеграції.
Від схожих проектів, що визначають MIME-тип за вмістом, Magika відрізняється застосуванням методів машинного навчання, високою продуктивністю та точністю визначення. Модель навчена з використанням фреймворку Keras на 100 млн. прикладів файлів (розмір набору даних більше 3 терабайт) і підтримує розпізнавання 200 типів даних з точністю не менше 99%. Модель скомпонована у форматі ONNX і має розмір лише кілька мегабайт.












Сообщить об опечатке
Текст, который будет отправлен нашим редакторам: