Netflix VOID:从视频中移除物体及交互
Netflix VOID:具备物理感知的革命性视频物体移除
Netflix 已开源 VOID(Video Object and Interaction Deletion,视频物体及交互删除),这是一个超越传统视频修复的先进模型。VOID 不仅仅擦除物体——它还会移除物体与环境的物理交互,创造出令人难以置信的真实效果。
VOID 的独特之处?
传统视频编辑工具难以处理次级运动效果。移除一个手持吉他的人的时候?吉他会悬浮在空中。VOID 解决了这个问题:
- 主要物体移除(人 = 消失)
- 交互区域(吉他因物理效果自然掉落)
- 四值蒙版系统(0=物体,63=重叠,127=受影响,255=保留)
https://github.com/Netflix/void-model/raw/main/assets/teaser-with-name.mp4
🚀 快速开始(Colab 就绪)
# 1. 打开 Colab 笔记本(推荐 40GB+ VRAM)
# 2. 模型自动从 Hugging Face 下载
# 3. 几分钟内处理示例视频
实时演示:Gradio 接口
🛠️ 技术详解
两阶段流水线
- 第一遍:使用 VOID 变换器进行基础修复
- 第二遍:扭曲噪声精炼以确保时间一致性
智能蒙版生成
- SAM2 用于精确分割
- Gemini VLM 推理交互区域
- GUI 编辑器 用于手动蒙版调整
输入格式
my-video/
├── input_video.mp4
├── quadmask_0.mp4
└── prompt.json # {"bg": "A table with a cup on it."}
从头训练
VOID 提供完整的 数据生成流水线:
- HUMOTO:使用 Blender 模拟人-物体物理
- Kubric:仅物体交互
生成配对的反事实视频(有/无物体)并训练两阶段模型。
实际应用
- VFX 清理:使用真实物理移除不需要元素
- 隐私保护:匿名化人物同时保留场景动态
- 创意视频编辑:重新排列场景并保持自然运动
社区扩展
- Gradio Web 演示
- 星标历史:几天内 488⭐
- Apache 2.0 许可
立即开始
- 克隆:
git clone https://github.com/Netflix/void-model - 安装:
pip install -r requirements.txt - 从 Hugging Face 下载模型
- 运行 Colab 笔记本
VOID 代表了视频理解的前沿——结合 VLM 推理、SAM2 分割和扩散模型,实现前所未有的视频操作能力。
原始文章:
查看原文