Netflix VOID:動画から物体と相互作用を除去
April 05, 2026
カテゴリ:
実用的なオープンソースプロジェクト
Netflix VOID:物理認識による革新的な動画物体除去
NetflixはVOID (Video Object and Interaction Deletion)をオープンソース化しました。これは従来の動画補完を超えた最先端モデルです。VOIDは単に物体を消すだけでなく、環境との物理的相互作用を除去し、驚くほど現実的な結果を生み出します。
VOIDの特徴は?
従来の動画編集ツールは二次運動効果に苦戦します。ギターを持った人を除去しても、ギターが浮いたままになります。VOIDはこれを解決します:
- 主物体除去 (人 = 消去)
- 相互作用領域 (ギターが物理的に自然に落下)
- Quadmaskシステム (0=物体、63=重なり、127=影響、255=保持)
https://github.com/Netflix/void-model/raw/main/assets/teaser-with-name.mp4
🚀 クイックスタート (Colab対応)
# 1. Colabノートブックを開く (40GB+ VRAM推奨)
# 2. モデルをHugging Faceから自動ダウンロード
# 3. サンプル動画を数分で処理
ライブデモ: Gradio Interface
🛠️ 技術的詳細
2段階パイプライン
- Pass 1: VOIDトランスフォーマーによる基本補完
- Pass 2: 時間的一貫性のためのワープノイズ精緻化
スマートマスク生成
- SAM2 で精密セグメンテーション
- Gemini VLM で相互作用領域の推論
- GUIエディタ で手動マスク調整
入力形式
my-video/
├── input_video.mp4
├── quadmask_0.mp4
└── prompt.json # {"bg": "A table with a cup on it."}
ゼロからのトレーニング
VOIDには完全なデータ生成パイプラインが付属:
- HUMOTO: Blenderを使った人間-物体物理
- Kubric: 物体のみの相互作用
ペアの反事実動画(物体あり/なし)を生成し、両パスをトレーニング。
実世界アプリケーション
- VFXクリーニング: 現実的な物理で不要要素を除去
- プライバシー保護: シーン動態を保持しつつ人を匿名化
- クリエイティブ動画編集: 自然な動きでシーンを再配置
コミュニティ拡張
- Gradio Web Demo
- スター履歴: 数日で488⭐
- Apache 2.0ライセンス
今日から始めよう
- クローン:
git clone https://github.com/Netflix/void-model - インストール:
pip install -r requirements.txt - Hugging Faceからモデルをダウンロード
- Colabノートブックを実行
論文: arXiv:2604.02296
VOIDは動画理解の最先端を体現 – VLM推論、SAM2セグメンテーション、拡散モデルを組み合わせ、前例のない動画操作能力を提供します。
オリジナル記事:
オリジナルを表示