Netflix VOID : Supprimer les objets et interactions des vidéos

Netflix VOID : Suppression révolutionnaire d'objets vidéo avec conscience physique

Netflix a open-sourcé VOID (Video Object and Interaction Deletion), un modèle de pointe qui va au-delà de l'inpainting vidéo traditionnel. VOID ne se contente pas d'effacer les objets – il supprime leurs interactions physiques avec l'environnement, créant des résultats incroyablement réalistes.

Qu'est-ce qui rend VOID différent ?

Les outils de montage vidéo traditionnels peinent avec les effets de mouvement secondaire. Supprimer une personne tenant une guitare ? La guitare reste en l'air. VOID résout cela :

  • Suppression de l'objet principal (personne = disparue)
  • Régions d'interaction (la guitare tombe naturellement grâce à la physique)
  • Système quadmask (0=objet, 63=chevauchement, 127=affecté, 255=conserver)

https://github.com/Netflix/void-model/raw/main/assets/teaser-with-name.mp4

🚀 Démarrage rapide (prêt pour Colab)

# 1. Ouvrir le notebook Colab (40GB+ VRAM recommandé)
# 2. Les modèles se téléchargent automatiquement depuis Hugging Face
# 3. Traiter une vidéo d'exemple en quelques minutes

Démo en direct : Interface Gradio

🛠️ Analyse technique

Pipeline en deux étapes

  1. Passe 1 : Inpainting de base avec le transformeur VOID
  2. Passe 2 : Raffinement par bruit déformé pour la cohérence temporelle

Génération de masques intelligente

  • SAM2 pour une segmentation précise
  • Gemini VLM raisonne sur les régions d'interaction
  • Éditeur GUI pour le raffinement manuel des masques

Format d'entrée

my-video/
├── input_video.mp4
├── quadmask_0.mp4
└── prompt.json  # {"bg": "Une table avec une tasse dessus."}

Entraînement from scratch

VOID est livré avec des pipelines complets de génération de données :

  1. HUMOTO : Physique humain-objet avec Blender
  2. Kubric : Interactions objet-seul

Générer des vidéos contrefactuelles appariées (avec/sans objet) et entraîner les deux passes.

Applications dans le monde réel

  • Nettoyage VFX : Supprimer les éléments indésirables avec une physique réaliste
  • Protection de la vie privée : Anonymiser les personnes tout en préservant les dynamiques de scène
  • Montage vidéo créatif : Réorganiser les scènes avec un mouvement naturel

Extensions communautaires

  • Démo Web Gradio
  • Historique des étoiles : 488⭐ en quelques jours
  • Licence Apache 2.0

Commencez dès aujourd'hui

  1. Cloner : git clone https://github.com/Netflix/void-model
  2. Installer : pip install -r requirements.txt
  3. Télécharger les modèles depuis Hugging Face
  4. Exécuter le notebook Colab

Article : arXiv:2604.02296

VOID représente le nec plus ultra de la compréhension vidéo – combinant raisonnement VLM, segmentation SAM2 et modèles de diffusion pour des capacités de manipulation vidéo sans précédent.

Article original: Voir l'original

Partager cet article