FunCineForge: ゼロショット映画ダビングパイプライン

March 17, 2026

タグ:

movie dubbing dataset pipeline zero-shot AI speech diarization multimodal LLM

FunCineForge: オープンソースの力でゼロショット映画ダビングを革新

自動ダビングの未来がここに

FunAudioLLMからのFunCineForgeは、AI駆動の映画ダビングにおける画期的な成果です。この包括的なオープンソースプロジェクトは、統一データセットパイプラインとマルチモーダルLLMベースのダビングモデルの両方を提供し、独白やナレーションから複雑な複数話者対話まで、多様な映画シーンで優れた性能を発揮します。

FunCineForgeの特別な点は？

🎬 エンドツーエンドデータセットパイプライン

このパイプラインは、生の動画映像を制作準備完了のダビングデータセットに変換します：

動画正規化＆トリミング (normalize_trim.py)
音声分離 (ボーカルと背景音楽の分離)
動画クリッピング 中国語/英語の二言語字幕対応
話者分離 マルチモーダルアクティブスピーカー検出を使用
CoT修正 MLLM (Gemini-3-Pro) を使用して0.94% CER精度

🤖 最先端ダビングモデル

優れた音声品質
完璧なリップ同期
シームレスな音色遷移
優れた指示追従

🚀 クイックスタートガイド

git clone [email protected]:FunAudioLLM/FunCineForge.git
conda create -n FunCineForge python=3.10
conda activate FunCineForge
python setup.py

データセット処理：

python normalize_trim.py --root datasets/raw_zh --intro 10 --outro 10
cd speech_separation && python run.py --root datasets/clean/zh
cd ../video_clip && bash run.sh --stage 1 --stop_stage 2 --lang zh

推論：

cd exps
bash infer.sh

📊 主要結果

CineDub-CN: 初の中国語TVダビング大規模データセット
CER 4.53% → 0.94% に低減
話者分離エラー: 8.38% → 1.20%
コンシューマー級GPU推論

🎯 誰が使うべきか？

AI研究者 音声/動画データセット構築
コンテンツクリエイター 自動ダビングが必要
映画スタジオ ローカライズソリューション探索
開発者 マルチモーダルTTS作業

最近の更新 (2026年3月)

✅ 推論コード + チェックポイントをオープンソース化
✅ 英語データセット (CineDub-EN) リリース
✅ 二言語パイプラインサポート
✅ funcineforge.github.io でデモサンプル公開

📚 引用

@misc{liu2026funcineforgeunifieddatasettoolkit,
title={FunCineForge: A Unified Dataset Toolkit...},
author={Jiaxuan Liu and Yang Xiang...}

⭐ リポジトリにスターを付け、Tongyi Lab Speech Teamのミッションに参加して、プロフェッショナルダビングを誰でも利用可能に。

GitHubでFunCineForgeを探る | データセットデモ

オリジナル記事: オリジナルを表示

この記事を共有