Netflix VOID:動画から物体と相互作用を除去

Netflix VOID:物理認識による革新的な動画物体除去

NetflixはVOID (Video Object and Interaction Deletion)をオープンソース化しました。これは従来の動画補完を超えた最先端モデルです。VOIDは単に物体を消すだけでなく、環境との物理的相互作用を除去し、驚くほど現実的な結果を生み出します。

VOIDの特徴は?

従来の動画編集ツールは二次運動効果に苦戦します。ギターを持った人を除去しても、ギターが浮いたままになります。VOIDはこれを解決します:

  • 主物体除去 (人 = 消去)
  • 相互作用領域 (ギターが物理的に自然に落下)
  • Quadmaskシステム (0=物体、63=重なり、127=影響、255=保持)

https://github.com/Netflix/void-model/raw/main/assets/teaser-with-name.mp4

🚀 クイックスタート (Colab対応)

# 1. Colabノートブックを開く (40GB+ VRAM推奨)
# 2. モデルをHugging Faceから自動ダウンロード
# 3. サンプル動画を数分で処理

ライブデモ: Gradio Interface

🛠️ 技術的詳細

2段階パイプライン

  1. Pass 1: VOIDトランスフォーマーによる基本補完
  2. Pass 2: 時間的一貫性のためのワープノイズ精緻化

スマートマスク生成

  • SAM2 で精密セグメンテーション
  • Gemini VLM で相互作用領域の推論
  • GUIエディタ で手動マスク調整

入力形式

my-video/
├── input_video.mp4
├── quadmask_0.mp4
└── prompt.json  # {"bg": "A table with a cup on it."}

ゼロからのトレーニング

VOIDには完全なデータ生成パイプラインが付属:

  1. HUMOTO: Blenderを使った人間-物体物理
  2. Kubric: 物体のみの相互作用

ペアの反事実動画(物体あり/なし)を生成し、両パスをトレーニング。

実世界アプリケーション

  • VFXクリーニング: 現実的な物理で不要要素を除去
  • プライバシー保護: シーン動態を保持しつつ人を匿名化
  • クリエイティブ動画編集: 自然な動きでシーンを再配置

コミュニティ拡張

  • Gradio Web Demo
  • スター履歴: 数日で488⭐
  • Apache 2.0ライセンス

今日から始めよう

  1. クローン: git clone https://github.com/Netflix/void-model
  2. インストール: pip install -r requirements.txt
  3. Hugging Faceからモデルをダウンロード
  4. Colabノートブックを実行

論文: arXiv:2604.02296

VOIDは動画理解の最先端を体現 – VLM推論、SAM2セグメンテーション、拡散モデルを組み合わせ、前例のない動画操作能力を提供します。

オリジナル記事: オリジナルを表示

この記事を共有