Voice‑Pro: Estudio de doblaje de IA de código abierto para medios multilingües
Voice‑Pro: El estudio de doblaje de IA todo en uno y de código abierto
El mundo de la creación de medios impulsado por IA se está expandiendo rápidamente. Si has estado buscando una solución gratuita y de código abierto que una la conversión de texto a voz (TTS), la clonación de voz, la traducción en tiempo real y el procesamiento multimedia, no busques más: Voice‑Pro.
¿Qué es Voice‑Pro?
- Interfaz web de código abierto construida sobre Gradio 5.14.0, publicad bajo la licencia GPL‑3.0.
- Reconocimiento de voz impulsado por Whisper, Faster‑Whisper, Whisper‑Timestamped y WhisperX.
- Clonación de voz sin entrenamiento (zero‑shot): E2‑TTS, F5‑TTS, CosyVoice y Kokoro.
- Conversión de texto a voz: Edge‑TTS (más de 100 idiomas, 400 voces), Kokoro (clasificado #2 en HF TTS Arena) y TTS de Azure (opcional y de pago).
- Traducción multilingüe con Deep‑Translator (más de 100 idiomas, Azure Translator opcional).
- Descargador de YouTube (yt‑dlp) + aislamiento de audio (Demucs) + generación de subtítulos.
- Compatible con Windows (GPU NVIDIA), macOS y Linux.
¿Quién puede beneficiarse?
- Podcasters y YouTubers: Crea episodios doblados con voces de IA sin pagar planes de suscripción.
- Educadores y creadores de e‑learning: Genera subtítulos y traducciones multilingües para vídeos.
- Desarrolladores e investigadores: Experimenta con modelos TTS de última generación en un entorno controlado.
- Creadores de contenido: Produce pistas de karaoke o audiolibros generados por IA.
Comenzando – Instalación
Requisitos previos
| Componente | Mínimo | Recomendado |
|---|---|---|
| Sistema Operativo | Windows 10/11, macOS 10.15+, Ubuntu 20.04+ | Todos |
| GPU | Ninguna para CPU, de lo contrario NVIDIA CUDA 12.4 | NVIDIA 8 GB+ VRAM |
| RAM | 4 GB | 8 GB+ |
| Disco | 20 GB libre | 30 GB+ |
Clonar el repositorio
git clone https://github.com/abus-aikorea/voice-pro.git
cd voice-pro
Configurar (Windows)
configure.bat # instala ffmpeg, verifica CUDA, descarga modelos
Configurar (macOS/Linux)
chmod +x configure.sh
./configure.sh
Tip: La primera ejecución descargará los puntos de control del modelo (~10 GB). Asegúrate de contar con una conexión a Internet rápida.
Ejecutar la WebUI
start.bat # Windows
./start.sh # macOS/Linux
http://127.0.0.1:7870/. Ábrela en tu navegador.
Usar Voice‑Pro – Paso a paso
- Sube Video o Audio – En la pestaña Dubbing Studio, pega una URL de YouTube o sube un archivo MP4/WAV.
- Extraer Audio – La herramienta llama automáticamente a yt‑dlp para extraer el audio del vídeo y a Demucs para separar las voces.
- Transcribir – WhisperX genera un guion de alta calidad en el idioma objetivo (elige entre más de 100 opciones).
- Traducir – Traducción instantánea a cualquier idioma usando Deep‑Translator.
- Selecciona una Voz – Escoge una voz existente mediante Edge‑TTS o clona una muestra de referencia con F5‑TTS/CosyVoice: no se requiere ajuste fino.
- Sintetizar – TTS con velocidad, volumen y tono ajustables. Exporta como WAV/FLAC/MP3.
- Sincronizar y Exportar – Crea automáticamente subtítulos SRT, los sube de nuevo a YouTube o los guarda localmente.
Funciones avanzadas
- Clonación sin entrenamiento: No se entrena modelo, basta con proporcionar un breve clip de audio.
- Tipo de cómputo personalizado: Cambia entre float32, float16 o int8 (cuantizado) para equilibrar calidad y uso de GPU.
- Demostraciones en tiempo real: En la pestaña Live Translation, habla al micrófono y observa cómo aparecen los subtítulos al instante.
- Interfaz similar a API: El servidor Gradio puede envolverlo con otros scripts en Python; mira
app/voice_pro.pypara ejemplos. - Biblioteca de voces comunitarias: Los colaboradores pueden añadir nuevas voces de celebridades mediante GitHub Issues; una lista curada se aloja en
celebrities30sREADME.
Por qué Voice‑Pro supera a los SaaS
Voice‑Pro elimina la fatiga de suscripciones:
- Gratis para todas las funciones principales – sin cargos por minuto.
- Código abierto – puedes modificar la cadena TTS o integrar tus propios modelos.
- Flexibilidad de GPU – ejecuta en una laptop o despliega en una instancia GPU en la nube.
- Paridad de funciones – Soporta los mismos motores TTS que servicios comerciales como ElevenLabs, con controles más profundos.
Soluciones rápidas de problemas
| Problema | Solución |
|---|---|
| CUDA OOM | Reduce el nivel de denoise o cambia al cómputo int8 |
| Errores de Whisper | Asegura que se haya instalado requirements-voice-gpu.txt o -cpu.txt; elimina installer_files y vuelve a ejecutar configure |
| Subtítulos fuera de sincronía | Usa la pestaña WhisperX para re‑alinear los timestamps |
Comunidad y próximos pasos
- Explora las discusiones de GitHub para solicitudes de funciones y soporte.
- Contribuye añadiendo nuevas muestras de voz o optimizando modelos existentes.
- Experimenta añadiendo tus propias tuberías de Hugging Face – el diseño modular hace que sea sencillo.
- Considera patrocinar el repositorio o comprar una actualización premium (Azure TTS/Translator) si necesitas calidad a nivel empresarial.
Palabras finales
Voice‑Pro es una alternativa poderosa y gratuita a los costosos servicios de doblaje de IA. Su naturaleza modular y de código abierto significa que no estás atado a un proveedor; posees el código, los modelos y los resultados. Ya seas un YouTuber que desea doblar un vídeo en 12 idiomas, un laboratorio de investigación que necesite prototipado rápido de clonaciones de voz o un estudiante en una clase de idiomas, Voice‑Pro te brinda las herramientas para convertir la voz y el texto en audio de alta fidelidad en minutos.
Comienza hoy mismo y lleva el futuro del audio de IA a tus proyectos—sin pagar ni un centavo.