Netflix випустив безкоштовну модель штучного інтелекту, яка видаляє об’єкти на відео
Стрімінговий сервіс Netflix спільно з дослідниками Університету Софії (Каліфорнія) випустив VOID (Video Object and Interaction Deletion) — нову відкриту модель штучного інтелекту, яка обіцяє революцію в кіномонтажі та обробці відео.
Модель доступна на Hugging Face та GitHub під ліцензією Apache 2.0, пише The Register. Для її локального запуску потрібна відеокарта з 40 ГБ відеопам’яті.
У чому її особливість?
Головна відмінність VOID від існуючих інструментів — здатність розуміти причинно-наслідкові зв’язки у сцені. Вона розуміє фізику взаємодії та здатна повністю переписати логіку сцени.

Звичайні методи просто зафарбовують область за віддаленим об’єктом та коригують тіні та відображення, але не справляються з фізичними взаємодіями. VOID використовує спеціальну чотирикомпонентну маску (quadmask), яка позначає як сам об’єкт, а й зони, куди він впливає — зокрема, предмети, які він підтримував чи зміщував. Для визначення таких зон модель використовує мультимодальну модель Gemini та систему сегментації SAM2.
Хоча зараз існують інші інструменти для зміни сцен на відео, такі як Runway, Generative Omnimatte, DiffuEraser, ROSE, MiniMax-Remover та ProPainter, представники Netflix стверджують, що VOID значно їх перевершує. Згідно з опитуванням 25 осіб за кількома сценаріями роботи, VOID віддали перевагу у 64,8% випадків, тоді як найближчий конкурент Runway посів друге місце з великим відривом — 18,4%.
Технічно VOID побудована на базі CogVideoX-Fun — відеодифузійного трансформера з 5 млрд параметрів від Alibaba PAI. Модель навчали на синтетичних парних відео, де сцени з об’єктом і без нього генерувалися в Blender з фізичною симуляцією (набір даних HUMOTO) та на рушії Kubric від Google. Для навчання використовували 8 GPU A100 80 ГБ.
Як це працює на практиці:
- ДТП без аварії: Якщо на відео зафіксовано зіткнення двох автомобілів, VOID може видалити один із них. При цьому ШІ не просто «замаже» машину, а згенерує відео, де інший автомобіль продовжує спокійно їхати порожньою дорогою — без диму, вогню чи уламків, які були в оригіналі.
- Спокійна вода: Якщо людина стрибає в басейн, створюючи купу бризок, VOID може видалити людину так, що поверхня води залишиться абсолютно нерухомою, ніби в неї ніхто й не стрибав.
Доступність
Найцікавішим є те, що Netflix не став закривати технологію всередині компанії. Модель уже опублікована на платформі Hugging Face, що дає можливість розробникам та монтажникам у всьому світі випробувати її у власних проєктах.
Цей крок підкреслює стратегію стрімінгового гіганта на впровадження генеративного ШІ у виробничі цикли, що дозволяє значно економити на перезйомках та складних візуальних ефектах.
Нагадаємо, що Netflix збирається створювати ігри за допомогою штучного інтелекту.
Підписуйтесь на нас у соцмережах: Telegram | Facebook | LinkedIn












Сообщить об опечатке
Текст, который будет отправлен нашим редакторам: