Netflix VOID:从视频中移除物体及交互

Netflix VOID:具备物理感知的革命性视频物体移除

Netflix 已开源 VOID(Video Object and Interaction Deletion,视频物体及交互删除),这是一个超越传统视频修复的先进模型。VOID 不仅仅擦除物体——它还会移除物体与环境的物理交互,创造出令人难以置信的真实效果。

VOID 的独特之处?

传统视频编辑工具难以处理次级运动效果。移除一个手持吉他的人的时候?吉他会悬浮在空中。VOID 解决了这个问题:

  • 主要物体移除(人 = 消失)
  • 交互区域(吉他因物理效果自然掉落)
  • 四值蒙版系统(0=物体,63=重叠,127=受影响,255=保留)

https://github.com/Netflix/void-model/raw/main/assets/teaser-with-name.mp4

🚀 快速开始(Colab 就绪)

# 1. 打开 Colab 笔记本(推荐 40GB+ VRAM)
# 2. 模型自动从 Hugging Face 下载
# 3. 几分钟内处理示例视频

实时演示Gradio 接口

🛠️ 技术详解

两阶段流水线

  1. 第一遍:使用 VOID 变换器进行基础修复
  2. 第二遍:扭曲噪声精炼以确保时间一致性

智能蒙版生成

  • SAM2 用于精确分割
  • Gemini VLM 推理交互区域
  • GUI 编辑器 用于手动蒙版调整

输入格式

my-video/
├── input_video.mp4
├── quadmask_0.mp4
└── prompt.json  # {"bg": "A table with a cup on it."}

从头训练

VOID 提供完整的 数据生成流水线:

  1. HUMOTO:使用 Blender 模拟人-物体物理
  2. Kubric:仅物体交互

生成配对的反事实视频(有/无物体)并训练两阶段模型。

实际应用

  • VFX 清理:使用真实物理移除不需要元素
  • 隐私保护:匿名化人物同时保留场景动态
  • 创意视频编辑:重新排列场景并保持自然运动

社区扩展

立即开始

  1. 克隆:git clone https://github.com/Netflix/void-model
  2. 安装:pip install -r requirements.txt
  3. 从 Hugging Face 下载模型
  4. 运行 Colab 笔记本

论文arXiv:2604.02296

VOID 代表了视频理解的前沿——结合 VLM 推理、SAM2 分割和扩散模型,实现前所未有的视频操作能力。

原始文章: 查看原文

分享这篇文章