FunCineForge: ゼロショット映画ダビングパイプライン
March 17, 2026
カテゴリ:
実用的なオープンソースプロジェクト
FunCineForge: オープンソースの力でゼロショット映画ダビングを革新
自動ダビングの未来がここに
FunAudioLLMからのFunCineForgeは、AI駆動の映画ダビングにおける画期的な成果です。この包括的なオープンソースプロジェクトは、統一データセットパイプラインとマルチモーダルLLMベースのダビングモデルの両方を提供し、独白やナレーションから複雑な複数話者対話まで、多様な映画シーンで優れた性能を発揮します。
FunCineForgeの特別な点は?
🎬 エンドツーエンドデータセットパイプライン
このパイプラインは、生の動画映像を制作準備完了のダビングデータセットに変換します:
- 動画正規化&トリミング (
normalize_trim.py) - 音声分離 (ボーカルと背景音楽の分離)
- 動画クリッピング 中国語/英語の二言語字幕対応
- 話者分離 マルチモーダルアクティブスピーカー検出を使用
- CoT修正 MLLM (Gemini-3-Pro) を使用して0.94% CER精度
🤖 最先端ダビングモデル
- 優れた音声品質
- 完璧なリップ同期
- シームレスな音色遷移
- 優れた指示追従
🚀 クイックスタートガイド
git clone [email protected]:FunAudioLLM/FunCineForge.git
conda create -n FunCineForge python=3.10
conda activate FunCineForge
python setup.py
データセット処理:
python normalize_trim.py --root datasets/raw_zh --intro 10 --outro 10
cd speech_separation && python run.py --root datasets/clean/zh
cd ../video_clip && bash run.sh --stage 1 --stop_stage 2 --lang zh
推論:
cd exps
bash infer.sh
📊 主要結果
- CineDub-CN: 初の中国語TVダビング大規模データセット
- CER 4.53% → 0.94% に低減
- 話者分離エラー: 8.38% → 1.20%
- コンシューマー級GPU推論
🎯 誰が使うべきか?
- AI研究者 音声/動画データセット構築
- コンテンツクリエイター 自動ダビングが必要
- 映画スタジオ ローカライズソリューション探索
- 開発者 マルチモーダルTTS作業
最近の更新 (2026年3月)
- ✅ 推論コード + チェックポイントをオープンソース化
- ✅ 英語データセット (CineDub-EN) リリース
- ✅ 二言語パイプラインサポート
- ✅ funcineforge.github.io でデモサンプル公開
📚 引用
@misc{liu2026funcineforgeunifieddatasettoolkit,
title={FunCineForge: A Unified Dataset Toolkit...},
author={Jiaxuan Liu and Yang Xiang...}
⭐ リポジトリにスターを付け、Tongyi Lab Speech Teamのミッションに参加して、プロフェッショナルダビングを誰でも利用可能に。
元の記事:
オリジナルを見る