FunCineForge: Pipeline de Doblaje de Películas Zero-Shot
March 17, 2026
Categoría:
Proyectos Prácticos de Código Abierto
FunCineForge: Revolucionando el Doblaje de Películas Zero-Shot con el Poder de Código Abierto
El Futuro del Doblaje Automatizado Está Aquí
FunCineForge de FunAudioLLM representa un avance en el doblaje de películas impulsado por IA. Este proyecto integral de código abierto ofrece tanto un pipeline unificado de conjuntos de datos como un modelo de doblaje basado en LLM multimodal que destaca en diversas escenas cinematográficas, desde monólogos y narraciones hasta diálogos complejos de múltiples hablantes.
¿Qué Hace Especial a FunCineForge?
🎬 Pipeline de Conjuntos de Datos de Principio a Fin
El pipeline transforma material de video crudo en conjuntos de datos de doblaje listos para producción:
- Normalización y Recorte de Video (
normalize_trim.py) - Separación de Habla (voces del música de fondo)
- Recorte de Video con soporte de subtítulos bilingües (chino/inglés)
- Diarización de Hablantes usando detección multimodal de hablante activo
- Corrección CoT con MLLMs (Gemini-3-Pro) para una precisión CER del 0.94%
🤖 Modelo de Doblaje de Vanguardia
- Calidad de audio superior
- Sincronización perfecta de labios
- Transiciones de timbre fluidas
- Excelente seguimiento de instrucciones
🚀 Guía de Inicio Rápido
git clone [email protected]:FunAudioLLM/FunCineForge.git
conda create -n FunCineForge python=3.10
conda activate FunCineForge
python setup.py
Procesamiento de Conjuntos de Datos:
python normalize_trim.py --root datasets/raw_zh --intro 10 --outro 10
cd speech_separation && python run.py --root datasets/clean/zh
cd ../video_clip && bash run.sh --stage 1 --stop_stage 2 --lang zh
Inferencia:
cd exps
bash infer.sh
📊 Resultados Clave
- CineDub-CN: Primer conjunto de datos a gran escala de doblaje de TV chino
- CER reducido de 4.53% → 0.94%
- Error de diarización de hablantes: 8.38% → 1.20%
- Inferencia en GPU de consumo
🎯 ¿Quién Debería Usar Esto?
- Investigadores de IA que construyen conjuntos de datos de habla/video
- Creadores de Contenido que necesitan doblaje automatizado
- Estudios de Cine que exploran soluciones de localización
- Desarrolladores que trabajan en TTS multimodal
Actualizaciones Recientes (Marzo 2026)
- ✅ Código de inferencia de código abierto + checkpoints
- ✅ Conjunto de datos en inglés (CineDub-EN) lanzado
- ✅ Soporte de pipeline bilingüe
- ✅ Muestras de demo disponibles en funcineforge.github.io
📚 Citación
@misc{liu2026funcineforgeunifieddatasettoolkit,
title={FunCineForge: A Unified Dataset Toolkit...},
author={Jiaxuan Liu and Yang Xiang...}
⭐ Dale estrella al repositorio y únete a la misión del Equipo de Habla de Tongyi Lab para hacer el doblaje profesional accesible para todos.
Explora FunCineForge en GitHub | Demos de Conjuntos de Datos
Artículo original:
Ver original