Netflix VOID : Suppression révolutionnaire d'objets vidéo avec conscience physique

Netflix a open-sourcé VOID (Video Object and Interaction Deletion), un modèle de pointe qui va au-delà de l'inpainting vidéo traditionnel. VOID ne se contente pas d'effacer les objets – il supprime leurs interactions physiques avec l'environnement, créant des résultats incroyablement réalistes.

Qu'est-ce qui rend VOID différent ?

Les outils de montage vidéo traditionnels peinent avec les effets de mouvement secondaire. Supprimer une personne tenant une guitare ? La guitare reste en l'air. VOID résout cela :

Suppression de l'objet principal (personne = disparue)
Régions d'interaction (la guitare tombe naturellement grâce à la physique)
Système quadmask (0=objet, 63=chevauchement, 127=affecté, 255=conserver)

https://github.com/Netflix/void-model/raw/main/assets/teaser-with-name.mp4

🚀 Démarrage rapide (prêt pour Colab)

# 1. Ouvrir le notebook Colab (40GB+ VRAM recommandé)
# 2. Les modèles se téléchargent automatiquement depuis Hugging Face
# 3. Traiter une vidéo d'exemple en quelques minutes

Démo en direct : Interface Gradio

🛠️ Analyse technique

Pipeline en deux étapes

Passe 1 : Inpainting de base avec le transformeur VOID
Passe 2 : Raffinement par bruit déformé pour la cohérence temporelle

Génération de masques intelligente

SAM2 pour une segmentation précise
Gemini VLM raisonne sur les régions d'interaction
Éditeur GUI pour le raffinement manuel des masques

Format d'entrée

my-video/
├── input_video.mp4
├── quadmask_0.mp4
└── prompt.json  # {"bg": "Une table avec une tasse dessus."}

Entraînement from scratch

VOID est livré avec des pipelines complets de génération de données :

HUMOTO : Physique humain-objet avec Blender
Kubric : Interactions objet-seul

Générer des vidéos contrefactuelles appariées (avec/sans objet) et entraîner les deux passes.

Applications dans le monde réel

Nettoyage VFX : Supprimer les éléments indésirables avec une physique réaliste
Protection de la vie privée : Anonymiser les personnes tout en préservant les dynamiques de scène
Montage vidéo créatif : Réorganiser les scènes avec un mouvement naturel

Extensions communautaires

Démo Web Gradio
Historique des étoiles : 488⭐ en quelques jours
Licence Apache 2.0

Commencez dès aujourd'hui

Cloner : git clone https://github.com/Netflix/void-model
Installer : pip install -r requirements.txt
Télécharger les modèles depuis Hugging Face
Exécuter le notebook Colab

Article : arXiv:2604.02296

VOID représente le nec plus ultra de la compréhension vidéo – combinant raisonnement VLM, segmentation SAM2 et modèles de diffusion pour des capacités de manipulation vidéo sans précédent.