Voice‑Pro: Estudio de doblaje de IA de código abierto para medios multilingües

Descubre Voice‑Pro, una interfaz web de código abierto completa que desbloquea un potente TTS, clonación de voz sin entrenamiento (zero‑shot) y traducción multilingüe instantánea. Desde el reconocimiento de voz basado en Whisper hasta Edge‑TTS, E2‑TTS, F5‑TTS, CosyVoice y kokoro, Voice‑Pro cubre más de 100 idiomas y 400 voces, todo en una sola plataforma. También incorpora descarga de YouTube, aislamiento vocal con Demucs y generación de subtítulos. Aprende a instalar, ejecutar y personalizar Voice‑Pro en Windows, macOS o Linux, y observa ejemplos del mundo real que superan a las soluciones SaaS populares para doblaje, producción de podcasts y creación de subtítulos.

Voice‑Pro: El estudio de doblaje de IA todo en uno y de código abierto

El mundo de la creación de medios impulsado por IA se está expandiendo rápidamente. Si has estado buscando una solución gratuita y de código abierto que una la conversión de texto a voz (TTS), la clonación de voz, la traducción en tiempo real y el procesamiento multimedia, no busques más: Voice‑Pro.

¿Qué es Voice‑Pro?

  • Interfaz web de código abierto construida sobre Gradio 5.14.0, publicad bajo la licencia GPL‑3.0.
  • Reconocimiento de voz impulsado por Whisper, Faster‑Whisper, Whisper‑Timestamped y WhisperX.
  • Clonación de voz sin entrenamiento (zero‑shot): E2‑TTS, F5‑TTS, CosyVoice y Kokoro.
  • Conversión de texto a voz: Edge‑TTS (más de 100 idiomas, 400 voces), Kokoro (clasificado #2 en HF TTS Arena) y TTS de Azure (opcional y de pago).
  • Traducción multilingüe con Deep‑Translator (más de 100 idiomas, Azure Translator opcional).
  • Descargador de YouTube (yt‑dlp) + aislamiento de audio (Demucs) + generación de subtítulos.
  • Compatible con Windows (GPU NVIDIA), macOS y Linux.

¿Quién puede beneficiarse?

  • Podcasters y YouTubers: Crea episodios doblados con voces de IA sin pagar planes de suscripción.
  • Educadores y creadores de e‑learning: Genera subtítulos y traducciones multilingües para vídeos.
  • Desarrolladores e investigadores: Experimenta con modelos TTS de última generación en un entorno controlado.
  • Creadores de contenido: Produce pistas de karaoke o audiolibros generados por IA.

Comenzando – Instalación

Requisitos previos

Componente Mínimo Recomendado
Sistema Operativo Windows 10/11, macOS 10.15+, Ubuntu 20.04+ Todos
GPU Ninguna para CPU, de lo contrario NVIDIA CUDA 12.4 NVIDIA 8 GB+ VRAM
RAM 4 GB 8 GB+
Disco 20 GB libre 30 GB+

Clonar el repositorio

git clone https://github.com/abus-aikorea/voice-pro.git
cd voice-pro

Configurar (Windows)

configure.bat   # instala ffmpeg, verifica CUDA, descarga modelos

Configurar (macOS/Linux)

chmod +x configure.sh
./configure.sh

Tip: La primera ejecución descargará los puntos de control del modelo (~10 GB). Asegúrate de contar con una conexión a Internet rápida.

Ejecutar la WebUI

start.bat   # Windows
./start.sh  # macOS/Linux

La interfaz Gradio se iniciará en http://127.0.0.1:7870/. Ábrela en tu navegador.

Usar Voice‑Pro – Paso a paso

  1. Sube Video o Audio – En la pestaña Dubbing Studio, pega una URL de YouTube o sube un archivo MP4/WAV.
  2. Extraer Audio – La herramienta llama automáticamente a yt‑dlp para extraer el audio del vídeo y a Demucs para separar las voces.
  3. Transcribir – WhisperX genera un guion de alta calidad en el idioma objetivo (elige entre más de 100 opciones).
  4. Traducir – Traducción instantánea a cualquier idioma usando Deep‑Translator.
  5. Selecciona una Voz – Escoge una voz existente mediante Edge‑TTS o clona una muestra de referencia con F5‑TTS/CosyVoice: no se requiere ajuste fino.
  6. Sintetizar – TTS con velocidad, volumen y tono ajustables. Exporta como WAV/FLAC/MP3.
  7. Sincronizar y Exportar – Crea automáticamente subtítulos SRT, los sube de nuevo a YouTube o los guarda localmente.

Funciones avanzadas

  • Clonación sin entrenamiento: No se entrena modelo, basta con proporcionar un breve clip de audio.
  • Tipo de cómputo personalizado: Cambia entre float32, float16 o int8 (cuantizado) para equilibrar calidad y uso de GPU.
  • Demostraciones en tiempo real: En la pestaña Live Translation, habla al micrófono y observa cómo aparecen los subtítulos al instante.
  • Interfaz similar a API: El servidor Gradio puede envolverlo con otros scripts en Python; mira app/voice_pro.py para ejemplos.
  • Biblioteca de voces comunitarias: Los colaboradores pueden añadir nuevas voces de celebridades mediante GitHub Issues; una lista curada se aloja en celebrities30sREADME.

Por qué Voice‑Pro supera a los SaaS

Voice‑Pro elimina la fatiga de suscripciones:

  • Gratis para todas las funciones principales – sin cargos por minuto.
  • Código abierto – puedes modificar la cadena TTS o integrar tus propios modelos.
  • Flexibilidad de GPU – ejecuta en una laptop o despliega en una instancia GPU en la nube.
  • Paridad de funciones – Soporta los mismos motores TTS que servicios comerciales como ElevenLabs, con controles más profundos.

Soluciones rápidas de problemas

Problema Solución
CUDA OOM Reduce el nivel de denoise o cambia al cómputo int8
Errores de Whisper Asegura que se haya instalado requirements-voice-gpu.txt o -cpu.txt; elimina installer_files y vuelve a ejecutar configure
Subtítulos fuera de sincronía Usa la pestaña WhisperX para re‑alinear los timestamps

Comunidad y próximos pasos

  • Explora las discusiones de GitHub para solicitudes de funciones y soporte.
  • Contribuye añadiendo nuevas muestras de voz o optimizando modelos existentes.
  • Experimenta añadiendo tus propias tuberías de Hugging Face – el diseño modular hace que sea sencillo.
  • Considera patrocinar el repositorio o comprar una actualización premium (Azure TTS/Translator) si necesitas calidad a nivel empresarial.

Palabras finales

Voice‑Pro es una alternativa poderosa y gratuita a los costosos servicios de doblaje de IA. Su naturaleza modular y de código abierto significa que no estás atado a un proveedor; posees el código, los modelos y los resultados. Ya seas un YouTuber que desea doblar un vídeo en 12 idiomas, un laboratorio de investigación que necesite prototipado rápido de clonaciones de voz o un estudiante en una clase de idiomas, Voice‑Pro te brinda las herramientas para convertir la voz y el texto en audio de alta fidelidad en minutos.

Comienza hoy mismo y lleva el futuro del audio de IA a tus proyectos—sin pagar ni un centavo.