Netflix VOID: Eliminar objetos e interacciones de videos

Netflix VOID: Eliminación revolucionaria de objetos de video con conciencia física

Netflix ha open-sourced VOID (Video Object and Interaction Deletion), un modelo de última generación que va más allá del inpintado tradicional de video. VOID no solo borra objetos – elimina sus interacciones físicas con el entorno, creando resultados increíblemente realistas.

¿Qué hace diferente a VOID?

Las herramientas tradicionales de edición de video luchan con los efectos de movimiento secundario. ¿Eliminar a una persona sosteniendo una guitarra? La guitarra queda flotando. VOID lo soluciona:

  • Eliminación del objeto principal (persona = desaparecida)
  • Regiones de interacción (la guitarra cae naturalmente debido a la física)
  • Sistema quadmask (0=objeto, 63=superposición, 127=afectado, 255=conservar)

https://github.com/Netflix/void-model/raw/main/assets/teaser-with-name.mp4

🚀 Inicio rápido (Listo para Colab)

# 1. Abrir notebook de Colab (se recomienda 40GB+ VRAM)
# 2. Modelos se descargan automáticamente desde Hugging Face
# 3. Procesar video de muestra en minutos

Demo en vivo: Interfaz Gradio

🛠️ Desglose técnico

Pipeline de dos etapas

  1. Pase 1: Inpintado base con transformer VOID
  2. Pase 2: Refinamiento de ruido deformado para consistencia temporal

Generación inteligente de máscaras

  • SAM2 para segmentación precisa
  • Gemini VLM razona sobre regiones de interacción
  • Editor GUI para refinamiento manual de máscaras

Formato de entrada

my-video/
├── input_video.mp4
├── quadmask_0.mp4
└── prompt.json  # {"bg": "Una mesa con una taza encima."}

Entrenamiento desde cero

VOID incluye pipelines completos de generación de datos:

  1. HUMOTO: Física humano-objeto usando Blender
  2. Kubric: Interacciones solo de objetos

Genera videos contrafactuales pareados (con/sin objeto) y entrena ambos pases.

Aplicaciones en el mundo real

  • Limpieza VFX: Eliminar elementos no deseados con física realista
  • Protección de privacidad: Anonimizar personas preservando dinámicas de escena
  • Edición creativa de video: Reorganizar escenas con movimiento natural

Extensiones de la comunidad

  • Demo web Gradio
  • Historia de estrellas: 488⭐ en días
  • Licencia Apache 2.0

Comienza hoy

  1. Clonar: git clone https://github.com/Netflix/void-model
  2. Instalar: pip install -r requirements.txt
  3. Descargar modelos desde Hugging Face
  4. Ejecutar notebook de Colab

Paper: arXiv:2604.02296

VOID representa la vanguardia en comprensión de video – combinando razonamiento VLM, segmentación SAM2 y modelos de difusión para capacidades de manipulación de video sin precedentes.

Artículo original: Ver original

Compartir este artículo