Netflix VOID: Eliminar objetos e interacciones de videos

April 05, 2026

Categoría: Proyectos Prácticos de Código Abierto

Etiquetas:

video inpainting object removal Netflix AI CogVideoX video editing

Netflix VOID: Eliminación revolucionaria de objetos de video con conciencia física

Netflix ha open-sourced VOID (Video Object and Interaction Deletion), un modelo de última generación que va más allá del inpintado tradicional de video. VOID no solo borra objetos – elimina sus interacciones físicas con el entorno, creando resultados increíblemente realistas.

¿Qué hace diferente a VOID?

Las herramientas tradicionales de edición de video luchan con los efectos de movimiento secundario. ¿Eliminar a una persona sosteniendo una guitarra? La guitarra queda flotando. VOID lo soluciona:

Eliminación del objeto principal (persona = desaparecida)
Regiones de interacción (la guitarra cae naturalmente debido a la física)
Sistema quadmask (0=objeto, 63=superposición, 127=afectado, 255=conservar)

https://github.com/Netflix/void-model/raw/main/assets/teaser-with-name.mp4

🚀 Inicio rápido (Listo para Colab)

# 1. Abrir notebook de Colab (se recomienda 40GB+ VRAM)
# 2. Modelos se descargan automáticamente desde Hugging Face
# 3. Procesar video de muestra en minutos

Demo en vivo: Interfaz Gradio

🛠️ Desglose técnico

Pipeline de dos etapas

Pase 1: Inpintado base con transformer VOID
Pase 2: Refinamiento de ruido deformado para consistencia temporal

Generación inteligente de máscaras

SAM2 para segmentación precisa
Gemini VLM razona sobre regiones de interacción
Editor GUI para refinamiento manual de máscaras

Formato de entrada

my-video/
├── input_video.mp4
├── quadmask_0.mp4
└── prompt.json  # {"bg": "Una mesa con una taza encima."}

Entrenamiento desde cero

VOID incluye pipelines completos de generación de datos:

HUMOTO: Física humano-objeto usando Blender
Kubric: Interacciones solo de objetos

Genera videos contrafactuales pareados (con/sin objeto) y entrena ambos pases.

Aplicaciones en el mundo real

Limpieza VFX: Eliminar elementos no deseados con física realista
Protección de privacidad: Anonimizar personas preservando dinámicas de escena
Edición creativa de video: Reorganizar escenas con movimiento natural

Extensiones de la comunidad

Demo web Gradio
Historia de estrellas: 488⭐ en días
Licencia Apache 2.0

Comienza hoy

Clonar: git clone https://github.com/Netflix/void-model
Instalar: pip install -r requirements.txt
Descargar modelos desde Hugging Face
Ejecutar notebook de Colab

Paper: arXiv:2604.02296

VOID representa la vanguardia en comprensión de video – combinando razonamiento VLM, segmentación SAM2 y modelos de difusión para capacidades de manipulación de video sin precedentes.

Artículo original: Ver original

Compartir este artículo