FunCineForge: Pipeline de Doblaje de Películas Zero-Shot

March 17, 2026

Categoría: Proyectos Prácticos de Código Abierto

Etiquetas:

movie dubbing dataset pipeline zero-shot AI speech diarization multimodal LLM

FunCineForge: Revolucionando el Doblaje de Películas Zero-Shot con el Poder de Código Abierto

El Futuro del Doblaje Automatizado Está Aquí

FunCineForge de FunAudioLLM representa un avance en el doblaje de películas impulsado por IA. Este proyecto integral de código abierto ofrece tanto un pipeline unificado de conjuntos de datos como un modelo de doblaje basado en LLM multimodal que destaca en diversas escenas cinematográficas, desde monólogos y narraciones hasta diálogos complejos de múltiples hablantes.

¿Qué Hace Especial a FunCineForge?

🎬 Pipeline de Conjuntos de Datos de Principio a Fin

El pipeline transforma material de video crudo en conjuntos de datos de doblaje listos para producción:

Normalización y Recorte de Video (normalize_trim.py)
Separación de Habla (voces del música de fondo)
Recorte de Video con soporte de subtítulos bilingües (chino/inglés)
Diarización de Hablantes usando detección multimodal de hablante activo
Corrección CoT con MLLMs (Gemini-3-Pro) para una precisión CER del 0.94%

🤖 Modelo de Doblaje de Vanguardia

Calidad de audio superior
Sincronización perfecta de labios
Transiciones de timbre fluidas
Excelente seguimiento de instrucciones

🚀 Guía de Inicio Rápido

git clone [email protected]:FunAudioLLM/FunCineForge.git
conda create -n FunCineForge python=3.10
conda activate FunCineForge
python setup.py

Procesamiento de Conjuntos de Datos:

python normalize_trim.py --root datasets/raw_zh --intro 10 --outro 10
cd speech_separation && python run.py --root datasets/clean/zh
cd ../video_clip && bash run.sh --stage 1 --stop_stage 2 --lang zh

Inferencia:

cd exps
bash infer.sh

📊 Resultados Clave

CineDub-CN: Primer conjunto de datos a gran escala de doblaje de TV chino
CER reducido de 4.53% → 0.94%
Error de diarización de hablantes: 8.38% → 1.20%
Inferencia en GPU de consumo

🎯 ¿Quién Debería Usar Esto?

Investigadores de IA que construyen conjuntos de datos de habla/video
Creadores de Contenido que necesitan doblaje automatizado
Estudios de Cine que exploran soluciones de localización
Desarrolladores que trabajan en TTS multimodal

Actualizaciones Recientes (Marzo 2026)

✅ Código de inferencia de código abierto + checkpoints
✅ Conjunto de datos en inglés (CineDub-EN) lanzado
✅ Soporte de pipeline bilingüe
✅ Muestras de demo disponibles en funcineforge.github.io

📚 Citación

@misc{liu2026funcineforgeunifieddatasettoolkit,
title={FunCineForge: A Unified Dataset Toolkit...},
author={Jiaxuan Liu and Yang Xiang...}

⭐ Dale estrella al repositorio y únete a la misión del Equipo de Habla de Tongyi Lab para hacer el doblaje profesional accesible para todos.

Explora FunCineForge en GitHub | Demos de Conjuntos de Datos

Artículo original: Ver original

Compartir este artículo