Netflix VOID : Supprimer les objets et interactions des vidéos
Netflix VOID : Suppression révolutionnaire d'objets vidéo avec conscience physique
Netflix a open-sourcé VOID (Video Object and Interaction Deletion), un modèle de pointe qui va au-delà de l'inpainting vidéo traditionnel. VOID ne se contente pas d'effacer les objets – il supprime leurs interactions physiques avec l'environnement, créant des résultats incroyablement réalistes.
Qu'est-ce qui rend VOID différent ?
Les outils de montage vidéo traditionnels peinent avec les effets de mouvement secondaire. Supprimer une personne tenant une guitare ? La guitare reste en l'air. VOID résout cela :
- Suppression de l'objet principal (personne = disparue)
- Régions d'interaction (la guitare tombe naturellement grâce à la physique)
- Système quadmask (0=objet, 63=chevauchement, 127=affecté, 255=conserver)
https://github.com/Netflix/void-model/raw/main/assets/teaser-with-name.mp4
🚀 Démarrage rapide (prêt pour Colab)
# 1. Ouvrir le notebook Colab (40GB+ VRAM recommandé)
# 2. Les modèles se téléchargent automatiquement depuis Hugging Face
# 3. Traiter une vidéo d'exemple en quelques minutes
Démo en direct : Interface Gradio
🛠️ Analyse technique
Pipeline en deux étapes
- Passe 1 : Inpainting de base avec le transformeur VOID
- Passe 2 : Raffinement par bruit déformé pour la cohérence temporelle
Génération de masques intelligente
- SAM2 pour une segmentation précise
- Gemini VLM raisonne sur les régions d'interaction
- Éditeur GUI pour le raffinement manuel des masques
Format d'entrée
my-video/
├── input_video.mp4
├── quadmask_0.mp4
└── prompt.json # {"bg": "Une table avec une tasse dessus."}
Entraînement from scratch
VOID est livré avec des pipelines complets de génération de données :
- HUMOTO : Physique humain-objet avec Blender
- Kubric : Interactions objet-seul
Générer des vidéos contrefactuelles appariées (avec/sans objet) et entraîner les deux passes.
Applications dans le monde réel
- Nettoyage VFX : Supprimer les éléments indésirables avec une physique réaliste
- Protection de la vie privée : Anonymiser les personnes tout en préservant les dynamiques de scène
- Montage vidéo créatif : Réorganiser les scènes avec un mouvement naturel
Extensions communautaires
- Démo Web Gradio
- Historique des étoiles : 488⭐ en quelques jours
- Licence Apache 2.0
Commencez dès aujourd'hui
- Cloner :
git clone https://github.com/Netflix/void-model - Installer :
pip install -r requirements.txt - Télécharger les modèles depuis Hugging Face
- Exécuter le notebook Colab
Article : arXiv:2604.02296
VOID représente le nec plus ultra de la compréhension vidéo – combinant raisonnement VLM, segmentation SAM2 et modèles de diffusion pour des capacités de manipulation vidéo sans précédent.