FunCineForge:零样本电影配音流水线
March 17, 2026
类别:
实用开源项目
FunCineForge:用开源力量革新零样本电影配音
自动化配音的未来已来
FunAudioLLM推出的FunCineForge代表了AI驱动电影配音的突破。这一全面开源项目提供了统一的dataset流水线和基于多模态LLM的配音模型,在各种电影场景中表现出色——从独白和旁白到复杂的多说话人对话。
FunCineForge有何特别之处?
🎬 端到端数据集流水线
该流水线将原始视频素材转化为生产就绪的配音数据集:
- 视频归一化和裁剪 (
normalize_trim.py) - 语音分离(人声与背景音乐分离)
- 视频剪辑 支持双语字幕(中文/英文)
- 说话人分割 使用多模态主动说话者检测
- CoT校正 使用MLLMs(Gemini-3-Pro)达到0.94% CER准确率
🤖 最先进的配音模型
- 卓越的音频质量
- 完美的唇部同步
- 无缝音色转换
- 出色的指令遵循
🚀 快速开始指南
git clone [email protected]:FunAudioLLM/FunCineForge.git
conda create -n FunCineForge python=3.10
conda activate FunCineForge
python setup.py
数据集处理:
python normalize_trim.py --root datasets/raw_zh --intro 10 --outro 10
cd speech_separation && python run.py --root datasets/clean/zh
cd ../video_clip && bash run.sh --stage 1 --stop_stage 2 --lang zh
推理:
cd exps
bash infer.sh
📊 关键结果
- CineDub-CN:首个大规模中文电视剧配音数据集
- CER从4.53%降低到0.94%
- 说话人分割错误率:8.38% → 1.20%
- 消费级GPU推理
🎯 谁应该使用这个?
- AI研究人员 构建语音/视频数据集
- 内容创作者 需要自动化配音
- 电影工作室 探索本地化解决方案
- 开发者 从事多模态TTS工作
最近更新(2026年3月)
- ✅ 开源推理代码 + 检查点
- ✅ 发布英文数据集(CineDub-EN)
- ✅ 双语流水线支持
- ✅ Demo样本可在funcineforge.github.io获取
📚 引用
@misc{liu2026funcineforgeunifieddatasettoolkit,
title={FunCineForge: A Unified Dataset Toolkit...},
author={Jiaxuan Liu and Yang Xiang...}
⭐ 给仓库点星,加入Tongyi Lab语音团队的使命,让专业配音人人可及。
原创文章:
查看原文