Netflix VOID: Eliminar objetos e interacciones de videos
Netflix VOID: Eliminación revolucionaria de objetos de video con conciencia física
Netflix ha open-sourced VOID (Video Object and Interaction Deletion), un modelo de última generación que va más allá del inpintado tradicional de video. VOID no solo borra objetos – elimina sus interacciones físicas con el entorno, creando resultados increíblemente realistas.
¿Qué hace diferente a VOID?
Las herramientas tradicionales de edición de video luchan con los efectos de movimiento secundario. ¿Eliminar a una persona sosteniendo una guitarra? La guitarra queda flotando. VOID lo soluciona:
- Eliminación del objeto principal (persona = desaparecida)
- Regiones de interacción (la guitarra cae naturalmente debido a la física)
- Sistema quadmask (0=objeto, 63=superposición, 127=afectado, 255=conservar)
https://github.com/Netflix/void-model/raw/main/assets/teaser-with-name.mp4
🚀 Inicio rápido (Listo para Colab)
# 1. Abrir notebook de Colab (se recomienda 40GB+ VRAM)
# 2. Modelos se descargan automáticamente desde Hugging Face
# 3. Procesar video de muestra en minutos
Demo en vivo: Interfaz Gradio
🛠️ Desglose técnico
Pipeline de dos etapas
- Pase 1: Inpintado base con transformer VOID
- Pase 2: Refinamiento de ruido deformado para consistencia temporal
Generación inteligente de máscaras
- SAM2 para segmentación precisa
- Gemini VLM razona sobre regiones de interacción
- Editor GUI para refinamiento manual de máscaras
Formato de entrada
my-video/
├── input_video.mp4
├── quadmask_0.mp4
└── prompt.json # {"bg": "Una mesa con una taza encima."}
Entrenamiento desde cero
VOID incluye pipelines completos de generación de datos:
- HUMOTO: Física humano-objeto usando Blender
- Kubric: Interacciones solo de objetos
Genera videos contrafactuales pareados (con/sin objeto) y entrena ambos pases.
Aplicaciones en el mundo real
- Limpieza VFX: Eliminar elementos no deseados con física realista
- Protección de privacidad: Anonimizar personas preservando dinámicas de escena
- Edición creativa de video: Reorganizar escenas con movimiento natural
Extensiones de la comunidad
- Demo web Gradio
- Historia de estrellas: 488⭐ en días
- Licencia Apache 2.0
Comienza hoy
- Clonar:
git clone https://github.com/Netflix/void-model - Instalar:
pip install -r requirements.txt - Descargar modelos desde Hugging Face
- Ejecutar notebook de Colab
Paper: arXiv:2604.02296
VOID representa la vanguardia en comprensión de video – combinando razonamiento VLM, segmentación SAM2 y modelos de difusión para capacidades de manipulación de video sin precedentes.