FunCineForge : Pipeline de doublage de films en zero-shot
March 17, 2026
Catégorie:
Projets Open Source Pratiques
FunCineForge : Révolutionner le doublage de films en zero-shot avec la puissance open-source
L'avenir du doublage automatisé est là
FunCineForge de FunAudioLLM représente une avancée majeure dans le doublage de films piloté par l'IA. Ce projet open-source complet propose à la fois un pipeline de dataset unifié et un modèle de doublage basé sur LLM multimodal qui excelle dans diverses scènes cinématographiques – des monologues et narrations aux dialogues multi-locuteurs complexes.
Qu'est-ce qui rend FunCineForge spécial ?
🎬 Pipeline de dataset de bout en bout
Le pipeline transforme des vidéos brutes en datasets de doublage prêts pour la production :
- Normalisation et découpage vidéo (
normalize_trim.py) - Séparation de la parole (voix de la musique de fond)
- Découpage vidéo avec support de sous-titres bilingues (chinois/anglais)
- Diarisation des locuteurs utilisant la détection active de locuteur multimodal
- Correction CoT avec MLLMs (Gemini-3-Pro) pour une précision CER de 0,94 %
🤖 Modèle de doublage de pointe
- Qualité audio supérieure
- Synchronisation labiale parfaite
- Transitions de timbre fluides
- Suivi d'instructions excellent
🚀 Guide de démarrage rapide
git clone [email protected]:FunAudioLLM/FunCineForge.git
conda create -n FunCineForge python=3.10
conda activate FunCineForge
python setup.py
Traitement des datasets :
python normalize_trim.py --root datasets/raw_zh --intro 10 --outro 10
cd speech_separation && python run.py --root datasets/clean/zh
cd ../video_clip && bash run.sh --stage 1 --stop_stage 2 --lang zh
Inférence :
cd exps
bash infer.sh
📊 Résultats clés
- CineDub-CN : Premier dataset de doublage TV chinois à grande échelle
- CER réduit de 4,53 % → 0,94 %
- Erreur de diarisation des locuteurs : 8,38 % → 1,20 %
- Inférence sur GPU grand public
🎯 Qui devrait utiliser cela ?
- Chercheurs en IA construisant des datasets parole/vidéo
- Créateurs de contenu ayant besoin de doublage automatisé
- Studios de cinéma explorant des solutions de localisation
- Développeurs travaillant sur TTS multimodal
Mises à jour récentes (mars 2026)
- ✅ Code d'inférence open-source + checkpoints
- ✅ Dataset anglais (CineDub-EN) publié
- ✅ Support de pipeline bilingue
- ✅ Échantillons de démo disponibles sur funcineforge.github.io
📚 Citation
@misc{liu2026funcineforgeunifieddatasettoolkit,
title={FunCineForge: A Unified Dataset Toolkit...},
author={Jiaxuan Liu and Yang Xiang...}
⭐ Starrez le repo et rejoignez la mission de l'équipe Speech de Tongyi Lab pour rendre le doublage professionnel accessible à tous.
Original Article:
Voir l’original