Voice-Pro: Una Suite Integral de IA de Audio y Doblaje de Código Abierto | AIBit-Descubre proyectos de código abierto

Para creadores y desarrolladores, el panorama actual de las herramientas de audio con IA está fragmentado. A menudo te encuentras saltando entre un descargador de YouTube, una herramienta separada de aislamiento vocal, un servicio de transcripción y una plataforma de clonación de voz. Voice-Pro cambia eso al consolidar estas tareas esenciales en una única WebUI cohesiva basada en Gradio.

Originalmente un proyecto comercial, los desarrolladores han liberado recientemente todo el código fuente como código abierto, convirtiéndolo en una alternativa potente y gratuita a plataformas con suscripciones pesadas como ElevenLabs o Descript.

¿Qué es Voice-Pro?

Voice-Pro está diseñado como un "Estudio de Doblaje" que maneja todo el pipeline de creación de contenido multimedia. Ya seas un podcaster que busca traducir tu contenido a varios idiomas o un desarrollador que construye un pipeline automatizado de procesamiento de video, esta herramienta proporciona una interfaz unificada para los mejores modelos de código abierto disponibles hoy en día.

Capacidades Principales:

Extracción de Audio: Soporte integrado de yt-dlp para descargar y procesar contenido de YouTube directamente.
Aislamiento Vocal: Utiliza Demucs para separar limpiamente las voces de la música de fondo, esencial para una clonación de voz de alta calidad.
Reconocimiento de Voz a Texto (STT): Soporta varias implementaciones de Whisper, incluyendo Faster-Whisper, Whisper-Timestamped y WhisperX para una transcripción de alta precisión a nivel de palabra.
Clonación de Voz Zero-Shot: Incluye modelos de vanguardia como F5-TTS, E2-TTS y CosyVoice, permitiéndote clonar voces con un audio de referencia mínimo.
Texto a Voz (TTS): Incluye Edge-TTS para un habla de alta calidad y sonido natural, y kokoro, un modelo TTS de alto rendimiento que actualmente es tendencia en el ámbito de HuggingFace.
Traducción: Deep-Translator integrado para soporte multilingüe instantáneo en más de 100 idiomas.

Por Qué los Desarrolladores Deberían Interesarse

A diferencia de las plataformas SaaS que cobran tarifas por minuto, Voice-Pro es una solución auto-alojada. Si tienes una GPU NVIDIA (con al menos 4GB-8GB de VRAM), puedes ejecutar estos modelos localmente sin preocuparte por los costos de API o problemas de privacidad de datos.

Aspectos Destacados del Stack Técnico:

Framework: Construido sobre Python 3.10.15 con Gradio 5.14.0.
Cómputo: Optimizado para CUDA 12.4, asegurando inferencia rápida para tareas pesadas como clonación de voz y transcripción.
Extensibilidad: Debido a que es de código abierto, puedes modificar los scripts start-voice.py o one_click.py para integrar tus propios modelos personalizados o pesos ajustados.

Primeros Pasos

La instalación está diseñada para ser "de un solo clic" para usuarios de Windows, aunque también es compatible con entornos Linux y Mac.

Clona el repositorio:

git clone https://github.com/abus-aikorea/voice-pro.git

Configura el entorno: Ejecuta configure.bat (o configure.sh en Linux/Mac). Este script se encarga del trabajo pesado de configurar Git, FFmpeg y las dependencias CUDA necesarias.
Inicia la interfaz de usuario: Ejecuta start.bat. En la primera ejecución, la aplicación descargará los pesos del modelo necesarios (como el modelo CosyVoice de 9GB), así que asegúrate de tener una conexión a internet estable.

Solución de Problemas y Optimización

CUDA Fuera de Memoria (OOM): Si alcanzas los límites de memoria, intenta configurar el nivel de Denoise en 0 o 1. Además, usar tipos de cómputo int en lugar de float puede reducir significativamente el uso de VRAM a costa de una ligera degradación en la calidad.
Calidad de los Subtítulos: Si tus transcripciones no cumplen con tus estándares, recuerda que el tamaño del modelo importa. Mientras que los modelos large proporcionan la mejor precisión, requieren más cómputo. Experimenta con modelos medium o small si estás procesando contenido de larga duración en hardware de consumo.

Reflexiones Finales

Voice-Pro representa lo mejor de la comunidad de IA de código abierto. Al envolver modelos complejos como F5-TTS y WhisperX en una WebUI fácil de usar, reduce la barrera de entrada para la producción de contenido de alta calidad. Ya sea que lo uses para proyectos personales o como base para tu propia aplicación impulsada por IA, es un repositorio que vale la pena explorar.

Mira el proyecto en GitHub para contribuir o ver las últimas actualizaciones.

Fuente

abus-aikorea/voice-pro: Gradio WebUI para creadores y desarrolladores, con TTS clave (Edge-TTS, kokoro) y clonación de voz zero-shot (E2 & F5-TTS, CosyVoice), con procesamiento de audio Whisper, descarga de YouTube, aislamiento vocal Demucs y traducción multilingüe.