FunCineForge: Pipeline de Doblaje de Películas Zero-Shot

FunCineForge: Revolucionando el Doblaje de Películas Zero-Shot con el Poder de Código Abierto

El Futuro del Doblaje Automatizado Está Aquí

FunCineForge de FunAudioLLM representa un avance en el doblaje de películas impulsado por IA. Este proyecto integral de código abierto ofrece tanto un pipeline unificado de conjuntos de datos como un modelo de doblaje basado en LLM multimodal que destaca en diversas escenas cinematográficas, desde monólogos y narraciones hasta diálogos complejos de múltiples hablantes.

¿Qué Hace Especial a FunCineForge?

🎬 Pipeline de Conjuntos de Datos de Principio a Fin

El pipeline transforma material de video crudo en conjuntos de datos de doblaje listos para producción:

  1. Normalización y Recorte de Video (normalize_trim.py)
  2. Separación de Habla (voces del música de fondo)
  3. Recorte de Video con soporte de subtítulos bilingües (chino/inglés)
  4. Diarización de Hablantes usando detección multimodal de hablante activo
  5. Corrección CoT con MLLMs (Gemini-3-Pro) para una precisión CER del 0.94%

🤖 Modelo de Doblaje de Vanguardia

  • Calidad de audio superior
  • Sincronización perfecta de labios
  • Transiciones de timbre fluidas
  • Excelente seguimiento de instrucciones

🚀 Guía de Inicio Rápido

git clone [email protected]:FunAudioLLM/FunCineForge.git
conda create -n FunCineForge python=3.10
conda activate FunCineForge
python setup.py

Procesamiento de Conjuntos de Datos:

python normalize_trim.py --root datasets/raw_zh --intro 10 --outro 10
cd speech_separation && python run.py --root datasets/clean/zh
cd ../video_clip && bash run.sh --stage 1 --stop_stage 2 --lang zh

Inferencia:

cd exps
bash infer.sh

📊 Resultados Clave

  • CineDub-CN: Primer conjunto de datos a gran escala de doblaje de TV chino
  • CER reducido de 4.53% → 0.94%
  • Error de diarización de hablantes: 8.38% → 1.20%
  • Inferencia en GPU de consumo

🎯 ¿Quién Debería Usar Esto?

  • Investigadores de IA que construyen conjuntos de datos de habla/video
  • Creadores de Contenido que necesitan doblaje automatizado
  • Estudios de Cine que exploran soluciones de localización
  • Desarrolladores que trabajan en TTS multimodal

Actualizaciones Recientes (Marzo 2026)

  • ✅ Código de inferencia de código abierto + checkpoints
  • ✅ Conjunto de datos en inglés (CineDub-EN) lanzado
  • ✅ Soporte de pipeline bilingüe
  • ✅ Muestras de demo disponibles en funcineforge.github.io

📚 Citación

@misc{liu2026funcineforgeunifieddatasettoolkit,
title={FunCineForge: A Unified Dataset Toolkit...},
author={Jiaxuan Liu and Yang Xiang...}

⭐ Dale estrella al repositorio y únete a la misión del Equipo de Habla de Tongyi Lab para hacer el doblaje profesional accesible para todos.

Explora FunCineForge en GitHub | Demos de Conjuntos de Datos

Artículo original: Ver original

Compartir este artículo