FunCineForge：零样本电影配音流水线

March 17, 2026

分类: 实用开源项目

标签:

movie dubbing dataset pipeline zero-shot AI speech diarization multimodal LLM

FunCineForge：用开源力量革新零样本电影配音

自动化配音的未来已来

FunAudioLLM推出的FunCineForge代表了AI驱动电影配音的突破。这一全面开源项目提供了统一的dataset流水线和基于多模态LLM的配音模型，在各种电影场景中表现出色——从独白和旁白到复杂的多说话人对话。

FunCineForge有何特别之处？

🎬 端到端数据集流水线

该流水线将原始视频素材转化为生产就绪的配音数据集：

视频归一化和裁剪 (normalize_trim.py)
语音分离（人声与背景音乐分离）
视频剪辑 支持双语字幕（中文/英文）
说话人分割 使用多模态主动说话者检测
CoT校正 使用MLLMs（Gemini-3-Pro）达到0.94% CER准确率

🤖 最先进的配音模型

卓越的音频质量
完美的唇部同步
无缝音色转换
出色的指令遵循

🚀 快速开始指南

git clone [email protected]:FunAudioLLM/FunCineForge.git
conda create -n FunCineForge python=3.10
conda activate FunCineForge
python setup.py

数据集处理：

python normalize_trim.py --root datasets/raw_zh --intro 10 --outro 10
cd speech_separation && python run.py --root datasets/clean/zh
cd ../video_clip && bash run.sh --stage 1 --stop_stage 2 --lang zh

推理：

cd exps
bash infer.sh

📊 关键结果

CineDub-CN：首个大规模中文电视剧配音数据集
CER从4.53%降低到0.94%
说话人分割错误率：8.38% → 1.20%
消费级GPU推理

🎯 谁应该使用这个？

AI研究人员 构建语音/视频数据集
内容创作者 需要自动化配音
电影工作室 探索本地化解决方案
开发者 从事多模态TTS工作

最近更新（2026年3月）

✅ 开源推理代码 + 检查点
✅ 发布英文数据集（CineDub-EN）
✅ 双语流水线支持
✅ Demo样本可在funcineforge.github.io获取

📚 引用

@misc{liu2026funcineforgeunifieddatasettoolkit,
title={FunCineForge: A Unified Dataset Toolkit...},
author={Jiaxuan Liu and Yang Xiang...}

⭐ 给仓库点星，加入Tongyi Lab语音团队的使命，让专业配音人人可及。

在GitHub上探索FunCineForge | 数据集Demo

原始文章: 查看原文

分享这篇文章