Voice‑Pro: Estudio de doblaje de IA de código abierto para medios multilingües

Voice‑Pro: El estudio de doblaje de IA todo en uno y de código abierto

El mundo de la creación de medios impulsado por IA se está expandiendo rápidamente. Si has estado buscando una solución gratuita y de código abierto que una la conversión de texto a voz (TTS), la clonación de voz, la traducción en tiempo real y el procesamiento multimedia, no busques más: Voice‑Pro.

¿Qué es Voice‑Pro?

  • Interfaz web de código abierto construida sobre Gradio 5.14.0, publicad bajo la licencia GPL‑3.0.
  • Reconocimiento de voz impulsado por Whisper, Faster‑Whisper, Whisper‑Timestamped y WhisperX.
  • Clonación de voz sin entrenamiento (zero‑shot): E2‑TTS, F5‑TTS, CosyVoice y Kokoro.
  • Conversión de texto a voz: Edge‑TTS (más de 100 idiomas, 400 voces), Kokoro (clasificado #2 en HF TTS Arena) y TTS de Azure (opcional y de pago).
  • Traducción multilingüe con Deep‑Translator (más de 100 idiomas, Azure Translator opcional).
  • Descargador de YouTube (yt‑dlp) + aislamiento de audio (Demucs) + generación de subtítulos.
  • Compatible con Windows (GPU NVIDIA), macOS y Linux.

¿Quién puede beneficiarse?

  • Podcasters y YouTubers: Crea episodios doblados con voces de IA sin pagar planes de suscripción.
  • Educadores y creadores de e‑learning: Genera subtítulos y traducciones multilingües para vídeos.
  • Desarrolladores e investigadores: Experimenta con modelos TTS de última generación en un entorno controlado.
  • Creadores de contenido: Produce pistas de karaoke o audiolibros generados por IA.

Comenzando – Instalación

Requisitos previos

Componente Mínimo Recomendado
Sistema Operativo Windows 10/11, macOS 10.15+, Ubuntu 20.04+ Todos
GPU Ninguna para CPU, de lo contrario NVIDIA CUDA 12.4 NVIDIA 8 GB+ VRAM
RAM 4 GB 8 GB+
Disco 20 GB libre 30 GB+

Clonar el repositorio

git clone https://github.com/abus-aikorea/voice-pro.git
cd voice-pro

Configurar (Windows)

configure.bat   # instala ffmpeg, verifica CUDA, descarga modelos

Configurar (macOS/Linux)

chmod +x configure.sh
./configure.sh

Tip: La primera ejecución descargará los puntos de control del modelo (~10 GB). Asegúrate de contar con una conexión a Internet rápida.

Ejecutar la WebUI

start.bat   # Windows
./start.sh  # macOS/Linux
La interfaz Gradio se iniciará en http://127.0.0.1:7870/. Ábrela en tu navegador.

Usar Voice‑Pro – Paso a paso

  1. Sube Video o Audio – En la pestaña Dubbing Studio, pega una URL de YouTube o sube un archivo MP4/WAV.
  2. Extraer Audio – La herramienta llama automáticamente a yt‑dlp para extraer el audio del vídeo y a Demucs para separar las voces.
  3. Transcribir – WhisperX genera un guion de alta calidad en el idioma objetivo (elige entre más de 100 opciones).
  4. Traducir – Traducción instantánea a cualquier idioma usando Deep‑Translator.
  5. Selecciona una Voz – Escoge una voz existente mediante Edge‑TTS o clona una muestra de referencia con F5‑TTS/CosyVoice: no se requiere ajuste fino.
  6. Sintetizar – TTS con velocidad, volumen y tono ajustables. Exporta como WAV/FLAC/MP3.
  7. Sincronizar y Exportar – Crea automáticamente subtítulos SRT, los sube de nuevo a YouTube o los guarda localmente.

Funciones avanzadas

  • Clonación sin entrenamiento: No se entrena modelo, basta con proporcionar un breve clip de audio.
  • Tipo de cómputo personalizado: Cambia entre float32, float16 o int8 (cuantizado) para equilibrar calidad y uso de GPU.
  • Demostraciones en tiempo real: En la pestaña Live Translation, habla al micrófono y observa cómo aparecen los subtítulos al instante.
  • Interfaz similar a API: El servidor Gradio puede envolverlo con otros scripts en Python; mira app/voice_pro.py para ejemplos.
  • Biblioteca de voces comunitarias: Los colaboradores pueden añadir nuevas voces de celebridades mediante GitHub Issues; una lista curada se aloja en celebrities30sREADME.

Por qué Voice‑Pro supera a los SaaS

Voice‑Pro elimina la fatiga de suscripciones:

  • Gratis para todas las funciones principales – sin cargos por minuto.
  • Código abierto – puedes modificar la cadena TTS o integrar tus propios modelos.
  • Flexibilidad de GPU – ejecuta en una laptop o despliega en una instancia GPU en la nube.
  • Paridad de funciones – Soporta los mismos motores TTS que servicios comerciales como ElevenLabs, con controles más profundos.

Soluciones rápidas de problemas

Problema Solución
CUDA OOM Reduce el nivel de denoise o cambia al cómputo int8
Errores de Whisper Asegura que se haya instalado requirements-voice-gpu.txt o -cpu.txt; elimina installer_files y vuelve a ejecutar configure
Subtítulos fuera de sincronía Usa la pestaña WhisperX para re‑alinear los timestamps

Comunidad y próximos pasos

  • Explora las discusiones de GitHub para solicitudes de funciones y soporte.
  • Contribuye añadiendo nuevas muestras de voz o optimizando modelos existentes.
  • Experimenta añadiendo tus propias tuberías de Hugging Face – el diseño modular hace que sea sencillo.
  • Considera patrocinar el repositorio o comprar una actualización premium (Azure TTS/Translator) si necesitas calidad a nivel empresarial.

Palabras finales

Voice‑Pro es una alternativa poderosa y gratuita a los costosos servicios de doblaje de IA. Su naturaleza modular y de código abierto significa que no estás atado a un proveedor; posees el código, los modelos y los resultados. Ya seas un YouTuber que desea doblar un vídeo en 12 idiomas, un laboratorio de investigación que necesite prototipado rápido de clonaciones de voz o un estudiante en una clase de idiomas, Voice‑Pro te brinda las herramientas para convertir la voz y el texto en audio de alta fidelidad en minutos.

Comienza hoy mismo y lleva el futuro del audio de IA a tus proyectos—sin pagar ni un centavo.

Artículo original: Ver original

Compartir este artículo