Fish-Speech: Sistema TTS avanzado de código abierto

Fish-Speech se renombra a OpenAudio: Desatando la próxima generación de TTS

Fish-Speech, una destacada iniciativa de código abierto en el campo de la síntesis de voz (Text-to-Speech o TTS), se ha renombrado oficialmente a OpenAudio. Esta evolución marca un importante avance, presentando una nueva serie de modelos TTS avanzados, encabezados por OpenAudio S1 y OpenAudio S1-mini. Construidos sobre la sólida base de Fish-Speech, estos modelos prometen una calidad, rendimiento y capacidades mejoradas, consolidando su posición como soluciones de vanguardia en la síntesis de voz.

Aspectos clave de OpenAudio (Fish-Speech):

  • Calidad de Vanguardia: OpenAudio S1 muestra un rendimiento impresionante, logrando una Tasa de Error de Palabra (WER) de 0.008 y una Tasa de Error de Carácter (CER) de 0.004 en texto en inglés, según la evaluación de las Métricas de Evaluación de Seed TTS. Esto lo convierte en un modelo líder para generar voz de sonido natural.
  • Mejor posición en TTS-Arena2: El modelo OpenAudio S1 alcanzó la primera posición en TTS-Arena2, un punto de referencia para la evaluación de sistemas de texto a voz, lo que subraya su calidad y rendimiento superiores.
  • Control avanzado de la voz: Más allá de la síntesis de voz básica, OpenAudio S1 ofrece un control granular sobre la salida de audio. Los usuarios pueden insertar emociones específicas (por ejemplo, (enfadado), (triste), (emocionado)), tonos (por ejemplo, (con tono de prisa), (susurrando)) e incluso efectos de audio especiales como risas ((riendo), (soltando una risita)) y suspiros ((suspirando)), lo que permite una generación de voz muy expresiva y matizada.
  • TTS "Zero-shot" y "Few-shot": El sistema admite la clonación de voz con una muestra vocal de tan solo 10-30 segundos, lo que permite una salida TTS de alta calidad con una voz objetivo. Esta función reduce significativamente las barreras de entrada para la síntesis de voz personalizada.
  • Capacidades multilingües e interlingües: OpenAudio maneja sin problemas texto multilingüe, admitiendo inglés, japonés, coreano, chino, francés, alemán, árabe y español. La sólida generalización del modelo le permite procesar guiones de texto en varios idiomas sin dependencia de fonemas.
  • Inferencia eficiente y rápida: Optimizados con torch compile, los modelos logran un factor de tiempo real de aproximadamente 1:7 en una GPU Nvidia RTX 4090, garantizando una generación de voz rápida y receptiva.
  • Interfaces fáciles de usar: OpenAudio proporciona tanto una interfaz web basada en Gradio para una inferencia sencilla en el navegador como una GUI basada en PyQt6 para aplicaciones de escritorio, compatible con Windows, Linux y macOS. La implementación también se agiliza con servidores de inferencia nativos.

Disponibilidad de los modelos:

  • OpenAudio S1: El modelo insignia con 4 mil millones de parámetros, disponible en fish.audio.
  • OpenAudio S1-mini: Una versión destilada con 0.5 mil millones de parámetros, optimizada para capacidades centrales y disponible en Hugging Face Spaces.

Ambos modelos incorporan Aprendizaje por Refuerzo en Línea a partir de Retroalimentación Humana (RLHF), refinando aún más la calidad de su salida. Con un sólido respaldo de la comunidad, documentación exhaustiva y desarrollo continuo evidenciado por numerosos "commits" y lanzamientos, OpenAudio (anteriormente Fish-Speech) es un proyecto muy recomendable para cualquier persona interesada en la vanguardia de la tecnología de texto a voz. Explore el proyecto en GitHub para contribuir o integrar sus potentes funciones en sus propias aplicaciones.

Artículo original: Ver original

Compartir este artículo