Netflix VOID : Supprimer les objets et interactions des vidéos

Découvrez VOID, le modèle open-source révolutionnaire de Netflix qui supprime les objets des vidéos ainsi que leurs interactions physiques. Contrairement à l'inpainting traditionnel, VOID gère les objets tombants, les éléments déplacés et les dynamiques de scène lorsque vous effacez une personne tenant une guitare – la guitare tombe naturellement. Construit sur CogVideoX avec conditionnement quadmask conscient des interactions, il propose des notebooks Colab, des démos Gradio et des pipelines d'entraînement complets. Parfait pour les monteurs vidéo, les artistes VFX et les chercheurs en IA.

Netflix VOID : Suppression révolutionnaire d'objets vidéo avec conscience physique

Netflix a open-sourcé VOID (Video Object and Interaction Deletion), un modèle de pointe qui va au-delà de l'inpainting vidéo traditionnel. VOID ne se contente pas d'effacer les objets – il supprime leurs interactions physiques avec l'environnement, créant des résultats incroyablement réalistes.

Qu'est-ce qui rend VOID différent ?

Les outils de montage vidéo traditionnels peinent avec les effets de mouvement secondaire. Supprimer une personne tenant une guitare ? La guitare reste en l'air. VOID résout cela :

  • Suppression de l'objet principal (personne = disparue)
  • Régions d'interaction (la guitare tombe naturellement grâce à la physique)
  • Système quadmask (0=objet, 63=chevauchement, 127=affecté, 255=conserver)

https://github.com/Netflix/void-model/raw/main/assets/teaser-with-name.mp4

🚀 Démarrage rapide (prêt pour Colab)

# 1. Ouvrir le notebook Colab (40GB+ VRAM recommandé)
# 2. Les modèles se téléchargent automatiquement depuis Hugging Face
# 3. Traiter une vidéo d'exemple en quelques minutes

Démo en direct : Interface Gradio

🛠️ Analyse technique

Pipeline en deux étapes

  1. Passe 1 : Inpainting de base avec le transformeur VOID
  2. Passe 2 : Raffinement par bruit déformé pour la cohérence temporelle

Génération de masques intelligente

  • SAM2 pour une segmentation précise
  • Gemini VLM raisonne sur les régions d'interaction
  • Éditeur GUI pour le raffinement manuel des masques

Format d'entrée

my-video/
├── input_video.mp4
├── quadmask_0.mp4
└── prompt.json  # {"bg": "Une table avec une tasse dessus."}

Entraînement from scratch

VOID est livré avec des pipelines complets de génération de données :

  1. HUMOTO : Physique humain-objet avec Blender
  2. Kubric : Interactions objet-seul

Générer des vidéos contrefactuelles appariées (avec/sans objet) et entraîner les deux passes.

Applications dans le monde réel

  • Nettoyage VFX : Supprimer les éléments indésirables avec une physique réaliste
  • Protection de la vie privée : Anonymiser les personnes tout en préservant les dynamiques de scène
  • Montage vidéo créatif : Réorganiser les scènes avec un mouvement naturel

Extensions communautaires

  • Démo Web Gradio
  • Historique des étoiles : 488⭐ en quelques jours
  • Licence Apache 2.0

Commencez dès aujourd'hui

  1. Cloner : git clone https://github.com/Netflix/void-model
  2. Installer : pip install -r requirements.txt
  3. Télécharger les modèles depuis Hugging Face
  4. Exécuter le notebook Colab

Article : arXiv:2604.02296

VOID représente le nec plus ultra de la compréhension vidéo – combinant raisonnement VLM, segmentation SAM2 et modèles de diffusion pour des capacités de manipulation vidéo sans précédent.