Voice‑Pro: Estudio de doblaje de IA de código abierto para medios multilingües

January 16, 2026

Categoría: Proyectos Prácticos de Código Abierto

Etiquetas:

Open Source text-to-speech Voice Cloning multilingual translation AI webui

Voice‑Pro: El estudio de doblaje de IA todo en uno y de código abierto

El mundo de la creación de medios impulsado por IA se está expandiendo rápidamente. Si has estado buscando una solución gratuita y de código abierto que una la conversión de texto a voz (TTS), la clonación de voz, la traducción en tiempo real y el procesamiento multimedia, no busques más: Voice‑Pro.

¿Qué es Voice‑Pro?

Interfaz web de código abierto construida sobre Gradio 5.14.0, publicad bajo la licencia GPL‑3.0.
Reconocimiento de voz impulsado por Whisper, Faster‑Whisper, Whisper‑Timestamped y WhisperX.
Clonación de voz sin entrenamiento (zero‑shot): E2‑TTS, F5‑TTS, CosyVoice y Kokoro.
Conversión de texto a voz: Edge‑TTS (más de 100 idiomas, 400 voces), Kokoro (clasificado #2 en HF TTS Arena) y TTS de Azure (opcional y de pago).
Traducción multilingüe con Deep‑Translator (más de 100 idiomas, Azure Translator opcional).
Descargador de YouTube (yt‑dlp) + aislamiento de audio (Demucs) + generación de subtítulos.
Compatible con Windows (GPU NVIDIA), macOS y Linux.

¿Quién puede beneficiarse?

Podcasters y YouTubers: Crea episodios doblados con voces de IA sin pagar planes de suscripción.
Educadores y creadores de e‑learning: Genera subtítulos y traducciones multilingües para vídeos.
Desarrolladores e investigadores: Experimenta con modelos TTS de última generación en un entorno controlado.
Creadores de contenido: Produce pistas de karaoke o audiolibros generados por IA.

Comenzando – Instalación

Requisitos previos

Componente	Mínimo	Recomendado
Sistema Operativo	Windows 10/11, macOS 10.15+, Ubuntu 20.04+	Todos
GPU	Ninguna para CPU, de lo contrario NVIDIA CUDA 12.4	NVIDIA 8 GB+ VRAM
RAM	4 GB	8 GB+
Disco	20 GB libre	30 GB+

Clonar el repositorio

git clone https://github.com/abus-aikorea/voice-pro.git
cd voice-pro

Configurar (Windows)

configure.bat   # instala ffmpeg, verifica CUDA, descarga modelos

Configurar (macOS/Linux)

chmod +x configure.sh
./configure.sh

Tip: La primera ejecución descargará los puntos de control del modelo (~10 GB). Asegúrate de contar con una conexión a Internet rápida.

Ejecutar la WebUI

start.bat   # Windows

./start.sh  # macOS/Linux

La interfaz Gradio se iniciará en http://127.0.0.1:7870/. Ábrela en tu navegador.

Usar Voice‑Pro – Paso a paso

Sube Video o Audio – En la pestaña Dubbing Studio, pega una URL de YouTube o sube un archivo MP4/WAV.
Extraer Audio – La herramienta llama automáticamente a yt‑dlp para extraer el audio del vídeo y a Demucs para separar las voces.
Transcribir – WhisperX genera un guion de alta calidad en el idioma objetivo (elige entre más de 100 opciones).
Traducir – Traducción instantánea a cualquier idioma usando Deep‑Translator.
Selecciona una Voz – Escoge una voz existente mediante Edge‑TTS o clona una muestra de referencia con F5‑TTS/CosyVoice: no se requiere ajuste fino.
Sintetizar – TTS con velocidad, volumen y tono ajustables. Exporta como WAV/FLAC/MP3.
Sincronizar y Exportar – Crea automáticamente subtítulos SRT, los sube de nuevo a YouTube o los guarda localmente.

Funciones avanzadas

Clonación sin entrenamiento: No se entrena modelo, basta con proporcionar un breve clip de audio.
Tipo de cómputo personalizado: Cambia entre float32, float16 o int8 (cuantizado) para equilibrar calidad y uso de GPU.
Demostraciones en tiempo real: En la pestaña Live Translation, habla al micrófono y observa cómo aparecen los subtítulos al instante.
Interfaz similar a API: El servidor Gradio puede envolverlo con otros scripts en Python; mira app/voice_pro.py para ejemplos.
Biblioteca de voces comunitarias: Los colaboradores pueden añadir nuevas voces de celebridades mediante GitHub Issues; una lista curada se aloja en celebrities30sREADME.

Por qué Voice‑Pro supera a los SaaS

Voice‑Pro elimina la fatiga de suscripciones:

Gratis para todas las funciones principales – sin cargos por minuto.
Código abierto – puedes modificar la cadena TTS o integrar tus propios modelos.
Flexibilidad de GPU – ejecuta en una laptop o despliega en una instancia GPU en la nube.
Paridad de funciones – Soporta los mismos motores TTS que servicios comerciales como ElevenLabs, con controles más profundos.

Soluciones rápidas de problemas

Problema	Solución
CUDA OOM	Reduce el nivel de denoise o cambia al cómputo int8
Errores de Whisper	Asegura que se haya instalado `requirements-voice-gpu.txt` o `-cpu.txt`; elimina `installer_files` y vuelve a ejecutar `configure`
Subtítulos fuera de sincronía	Usa la pestaña WhisperX para re‑alinear los timestamps

Comunidad y próximos pasos

Explora las discusiones de GitHub para solicitudes de funciones y soporte.
Contribuye añadiendo nuevas muestras de voz o optimizando modelos existentes.
Experimenta añadiendo tus propias tuberías de Hugging Face – el diseño modular hace que sea sencillo.
Considera patrocinar el repositorio o comprar una actualización premium (Azure TTS/Translator) si necesitas calidad a nivel empresarial.

Palabras finales

Voice‑Pro es una alternativa poderosa y gratuita a los costosos servicios de doblaje de IA. Su naturaleza modular y de código abierto significa que no estás atado a un proveedor; posees el código, los modelos y los resultados. Ya seas un YouTuber que desea doblar un vídeo en 12 idiomas, un laboratorio de investigación que necesite prototipado rápido de clonaciones de voz o un estudiante en una clase de idiomas, Voice‑Pro te brinda las herramientas para convertir la voz y el texto en audio de alta fidelidad en minutos.

Comienza hoy mismo y lleva el futuro del audio de IA a tus proyectos—sin pagar ni un centavo.

Artículo original: Ver original

Compartir este artículo