FunCineForge : Pipeline de doublage de films en zero-shot

FunCineForge : Révolutionner le doublage de films en zero-shot avec la puissance open-source

L'avenir du doublage automatisé est là

FunCineForge de FunAudioLLM représente une avancée majeure dans le doublage de films piloté par l'IA. Ce projet open-source complet propose à la fois un pipeline de dataset unifié et un modèle de doublage basé sur LLM multimodal qui excelle dans diverses scènes cinématographiques – des monologues et narrations aux dialogues multi-locuteurs complexes.

Qu'est-ce qui rend FunCineForge spécial ?

🎬 Pipeline de dataset de bout en bout

Le pipeline transforme des vidéos brutes en datasets de doublage prêts pour la production :

  1. Normalisation et découpage vidéo (normalize_trim.py)
  2. Séparation de la parole (voix de la musique de fond)
  3. Découpage vidéo avec support de sous-titres bilingues (chinois/anglais)
  4. Diarisation des locuteurs utilisant la détection active de locuteur multimodal
  5. Correction CoT avec MLLMs (Gemini-3-Pro) pour une précision CER de 0,94 %

🤖 Modèle de doublage de pointe

  • Qualité audio supérieure
  • Synchronisation labiale parfaite
  • Transitions de timbre fluides
  • Suivi d'instructions excellent

🚀 Guide de démarrage rapide

git clone [email protected]:FunAudioLLM/FunCineForge.git
conda create -n FunCineForge python=3.10
conda activate FunCineForge
python setup.py

Traitement des datasets :

python normalize_trim.py --root datasets/raw_zh --intro 10 --outro 10
cd speech_separation && python run.py --root datasets/clean/zh
cd ../video_clip && bash run.sh --stage 1 --stop_stage 2 --lang zh

Inférence :

cd exps
bash infer.sh

📊 Résultats clés

  • CineDub-CN : Premier dataset de doublage TV chinois à grande échelle
  • CER réduit de 4,53 % → 0,94 %
  • Erreur de diarisation des locuteurs : 8,38 % → 1,20 %
  • Inférence sur GPU grand public

🎯 Qui devrait utiliser cela ?

  • Chercheurs en IA construisant des datasets parole/vidéo
  • Créateurs de contenu ayant besoin de doublage automatisé
  • Studios de cinéma explorant des solutions de localisation
  • Développeurs travaillant sur TTS multimodal

Mises à jour récentes (mars 2026)

  • ✅ Code d'inférence open-source + checkpoints
  • ✅ Dataset anglais (CineDub-EN) publié
  • ✅ Support de pipeline bilingue
  • ✅ Échantillons de démo disponibles sur funcineforge.github.io

📚 Citation

@misc{liu2026funcineforgeunifieddatasettoolkit,
title={FunCineForge: A Unified Dataset Toolkit...},
author={Jiaxuan Liu and Yang Xiang...}

⭐ Starrez le repo et rejoignez la mission de l'équipe Speech de Tongyi Lab pour rendre le doublage professionnel accessible à tous.

Explorez FunCineForge sur GitHub | Démos des datasets

Original Article: Voir l’original

Partager cet article