FunCineForge : Pipeline de doublage de films en zero-shot

Découvrez FunCineForge, la boîte à outils open-source révolutionnaire pour créer des datasets de doublage de films à grande échelle et déployer des modèles de doublage zero-shot. Ce pipeline de bout en bout gère le traitement vidéo, la séparation de la parole, la diarisation des locuteurs et les corrections multimodales avec des MLLMs. Construisez les datasets CineDub-CN/EN à partir de vidéos brutes et générez des doublages de haute qualité avec synchronisation labiale parfaite et correspondance de timbre. Inclut du code d'inférence, des échantillons de démo, et supporte le chinois et l'anglais. Parfait pour les chercheurs en IA et les créateurs de contenu.

FunCineForge : Révolutionner le doublage de films en zero-shot avec la puissance open-source

L'avenir du doublage automatisé est là

FunCineForge de FunAudioLLM représente une avancée majeure dans le doublage de films piloté par l'IA. Ce projet open-source complet propose à la fois un pipeline de dataset unifié et un modèle de doublage basé sur LLM multimodal qui excelle dans diverses scènes cinématographiques – des monologues et narrations aux dialogues multi-locuteurs complexes.

Qu'est-ce qui rend FunCineForge spécial ?

🎬 Pipeline de dataset de bout en bout

Le pipeline transforme des vidéos brutes en datasets de doublage prêts pour la production :

  1. Normalisation et découpage vidéo (normalize_trim.py)
  2. Séparation de la parole (voix de la musique de fond)
  3. Découpage vidéo avec support de sous-titres bilingues (chinois/anglais)
  4. Diarisation des locuteurs utilisant la détection active de locuteur multimodal
  5. Correction CoT avec MLLMs (Gemini-3-Pro) pour une précision CER de 0,94 %

🤖 Modèle de doublage de pointe

  • Qualité audio supérieure
  • Synchronisation labiale parfaite
  • Transitions de timbre fluides
  • Suivi d'instructions excellent

🚀 Guide de démarrage rapide

git clone [email protected]:FunAudioLLM/FunCineForge.git
conda create -n FunCineForge python=3.10
conda activate FunCineForge
python setup.py

Traitement des datasets :

python normalize_trim.py --root datasets/raw_zh --intro 10 --outro 10
cd speech_separation && python run.py --root datasets/clean/zh
cd ../video_clip && bash run.sh --stage 1 --stop_stage 2 --lang zh

Inférence :

cd exps
bash infer.sh

📊 Résultats clés

  • CineDub-CN : Premier dataset de doublage TV chinois à grande échelle
  • CER réduit de 4,53 % → 0,94 %
  • Erreur de diarisation des locuteurs : 8,38 % → 1,20 %
  • Inférence sur GPU grand public

🎯 Qui devrait utiliser cela ?

  • Chercheurs en IA construisant des datasets parole/vidéo
  • Créateurs de contenu ayant besoin de doublage automatisé
  • Studios de cinéma explorant des solutions de localisation
  • Développeurs travaillant sur TTS multimodal

Mises à jour récentes (mars 2026)

  • ✅ Code d'inférence open-source + checkpoints
  • ✅ Dataset anglais (CineDub-EN) publié
  • ✅ Support de pipeline bilingue
  • ✅ Échantillons de démo disponibles sur funcineforge.github.io

📚 Citation

@misc{liu2026funcineforgeunifieddatasettoolkit,
title={FunCineForge: A Unified Dataset Toolkit...},
author={Jiaxuan Liu and Yang Xiang...}

⭐ Starrez le repo et rejoignez la mission de l'équipe Speech de Tongyi Lab pour rendre le doublage professionnel accessible à tous.

Explorez FunCineForge sur GitHub | Démos des datasets