FunCineForge: ゼロショット映画ダビングパイプライン

FunCineForge: オープンソースの力でゼロショット映画ダビングを革新

自動ダビングの未来がここに

FunAudioLLMからのFunCineForgeは、AI駆動の映画ダビングにおける画期的な成果です。この包括的なオープンソースプロジェクトは、統一データセットパイプラインマルチモーダルLLMベースのダビングモデルの両方を提供し、独白やナレーションから複雑な複数話者対話まで、多様な映画シーンで優れた性能を発揮します。

FunCineForgeの特別な点は?

🎬 エンドツーエンドデータセットパイプライン

このパイプラインは、生の動画映像を制作準備完了のダビングデータセットに変換します:

  1. 動画正規化&トリミング (normalize_trim.py)
  2. 音声分離 (ボーカルと背景音楽の分離)
  3. 動画クリッピング 中国語/英語の二言語字幕対応
  4. 話者分離 マルチモーダルアクティブスピーカー検出を使用
  5. CoT修正 MLLM (Gemini-3-Pro) を使用して0.94% CER精度

🤖 最先端ダビングモデル

  • 優れた音声品質
  • 完璧なリップ同期
  • シームレスな音色遷移
  • 優れた指示追従

🚀 クイックスタートガイド

git clone [email protected]:FunAudioLLM/FunCineForge.git
conda create -n FunCineForge python=3.10
conda activate FunCineForge
python setup.py

データセット処理:

python normalize_trim.py --root datasets/raw_zh --intro 10 --outro 10
cd speech_separation && python run.py --root datasets/clean/zh
cd ../video_clip && bash run.sh --stage 1 --stop_stage 2 --lang zh

推論:

cd exps
bash infer.sh

📊 主要結果

  • CineDub-CN: 初の中国語TVダビング大規模データセット
  • CER 4.53% → 0.94% に低減
  • 話者分離エラー: 8.38% → 1.20%
  • コンシューマー級GPU推論

🎯 誰が使うべきか?

  • AI研究者 音声/動画データセット構築
  • コンテンツクリエイター 自動ダビングが必要
  • 映画スタジオ ローカライズソリューション探索
  • 開発者 マルチモーダルTTS作業

最近の更新 (2026年3月)

  • ✅ 推論コード + チェックポイントをオープンソース化
  • ✅ 英語データセット (CineDub-EN) リリース
  • ✅ 二言語パイプラインサポート
  • ✅ funcineforge.github.io でデモサンプル公開

📚 引用

@misc{liu2026funcineforgeunifieddatasettoolkit,
title={FunCineForge: A Unified Dataset Toolkit...},
author={Jiaxuan Liu and Yang Xiang...}

⭐ リポジトリにスターを付け、Tongyi Lab Speech Teamのミッションに参加して、プロフェッショナルダビングを誰でも利用可能に。

GitHubでFunCineForgeを探る | データセットデモ

この記事を共有