FunCineForge : Pipeline de doublage de films en zero-shot

March 17, 2026

Catégorie: Projets Open Source Pratiques

Étiquettes:

movie dubbing dataset pipeline zero-shot AI speech diarization multimodal LLM

FunCineForge : Révolutionner le doublage de films en zero-shot avec la puissance open-source

L'avenir du doublage automatisé est là

FunCineForge de FunAudioLLM représente une avancée majeure dans le doublage de films piloté par l'IA. Ce projet open-source complet propose à la fois un pipeline de dataset unifié et un modèle de doublage basé sur LLM multimodal qui excelle dans diverses scènes cinématographiques – des monologues et narrations aux dialogues multi-locuteurs complexes.

Qu'est-ce qui rend FunCineForge spécial ?

🎬 Pipeline de dataset de bout en bout

Le pipeline transforme des vidéos brutes en datasets de doublage prêts pour la production :

Normalisation et découpage vidéo (normalize_trim.py)
Séparation de la parole (voix de la musique de fond)
Découpage vidéo avec support de sous-titres bilingues (chinois/anglais)
Diarisation des locuteurs utilisant la détection active de locuteur multimodal
Correction CoT avec MLLMs (Gemini-3-Pro) pour une précision CER de 0,94 %

🤖 Modèle de doublage de pointe

Qualité audio supérieure
Synchronisation labiale parfaite
Transitions de timbre fluides
Suivi d'instructions excellent

🚀 Guide de démarrage rapide

git clone [email protected]:FunAudioLLM/FunCineForge.git
conda create -n FunCineForge python=3.10
conda activate FunCineForge
python setup.py

Traitement des datasets :

python normalize_trim.py --root datasets/raw_zh --intro 10 --outro 10
cd speech_separation && python run.py --root datasets/clean/zh
cd ../video_clip && bash run.sh --stage 1 --stop_stage 2 --lang zh

Inférence :

cd exps
bash infer.sh

📊 Résultats clés

CineDub-CN : Premier dataset de doublage TV chinois à grande échelle
CER réduit de 4,53 % → 0,94 %
Erreur de diarisation des locuteurs : 8,38 % → 1,20 %
Inférence sur GPU grand public

🎯 Qui devrait utiliser cela ?

Chercheurs en IA construisant des datasets parole/vidéo
Créateurs de contenu ayant besoin de doublage automatisé
Studios de cinéma explorant des solutions de localisation
Développeurs travaillant sur TTS multimodal

Mises à jour récentes (mars 2026)

✅ Code d'inférence open-source + checkpoints
✅ Dataset anglais (CineDub-EN) publié
✅ Support de pipeline bilingue
✅ Échantillons de démo disponibles sur funcineforge.github.io

📚 Citation

@misc{liu2026funcineforgeunifieddatasettoolkit,
title={FunCineForge: A Unified Dataset Toolkit...},
author={Jiaxuan Liu and Yang Xiang...}

⭐ Starrez le repo et rejoignez la mission de l'équipe Speech de Tongyi Lab pour rendre le doublage professionnel accessible à tous.

Explorez FunCineForge sur GitHub | Démos des datasets

Article original: Voir l'original

Partager cet article