FunCineForge:零样本电影配音流水线
探索FunCineForge,这一开创性的开源工具包,用于创建大规模电影配音数据集和部署零样本配音模型。这一端到端流水线处理视频处理、语音分离、说话人分割和使用MLLMs的多模态校正。从原始素材构建CineDub-CN/EN数据集,并生成高质量配音,完美唇同步和音色匹配。包含推理代码、demo样本,并支持中英文。完美适用于AI研究人员和内容创作者。
FunCineForge:用开源力量革新零样本电影配音
自动化配音的未来已来
FunAudioLLM推出的FunCineForge代表了AI驱动电影配音的突破。这一全面开源项目提供了统一的dataset流水线和基于多模态LLM的配音模型,在各种电影场景中表现出色——从独白和旁白到复杂的多说话人对话。
FunCineForge有何特别之处?
🎬 端到端数据集流水线
该流水线将原始视频素材转化为生产就绪的配音数据集:
- 视频归一化和裁剪 (
normalize_trim.py) - 语音分离(人声与背景音乐分离)
- 视频剪辑 支持双语字幕(中文/英文)
- 说话人分割 使用多模态主动说话者检测
- CoT校正 使用MLLMs(Gemini-3-Pro)达到0.94% CER准确率
🤖 最先进的配音模型
- 卓越的音频质量
- 完美的唇部同步
- 无缝音色转换
- 出色的指令遵循
🚀 快速开始指南
git clone [email protected]:FunAudioLLM/FunCineForge.git
conda create -n FunCineForge python=3.10
conda activate FunCineForge
python setup.py
数据集处理:
python normalize_trim.py --root datasets/raw_zh --intro 10 --outro 10
cd speech_separation && python run.py --root datasets/clean/zh
cd ../video_clip && bash run.sh --stage 1 --stop_stage 2 --lang zh
推理:
cd exps
bash infer.sh
📊 关键结果
- CineDub-CN:首个大规模中文电视剧配音数据集
- CER从4.53%降低到0.94%
- 说话人分割错误率:8.38% → 1.20%
- 消费级GPU推理
🎯 谁应该使用这个?
- AI研究人员 构建语音/视频数据集
- 内容创作者 需要自动化配音
- 电影工作室 探索本地化解决方案
- 开发者 从事多模态TTS工作
最近更新(2026年3月)
- ✅ 开源推理代码 + 检查点
- ✅ 发布英文数据集(CineDub-EN)
- ✅ 双语流水线支持
- ✅ Demo样本可在funcineforge.github.io获取
📚 引用
@misc{liu2026funcineforgeunifieddatasettoolkit,
title={FunCineForge: A Unified Dataset Toolkit...},
author={Jiaxuan Liu and Yang Xiang...}
⭐ 给仓库点星,加入Tongyi Lab语音团队的使命,让专业配音人人可及。