NeuTTS Air: IA de Voz en el Dispositivo con Clonación Instantánea

NeuTTS Air: Revolucionando la IA de Voz en Dispositivos

Durante demasiado tiempo, la IA de voz de vanguardia ha estado confinada a las API web, limitando su accesibilidad y potencial. NeuTTS Air de Neuphonic rompe estas barreras al introducir el primer modelo de lenguaje de voz (TTS) de texto a voz superrealista y en tiempo real, directamente en tu dispositivo, con capacidades instantáneas de clonación de voz.

Construido sobre una sólida base de LLM de 0.5B, NeuTTS Air ofrece habla con sonido natural, rendimiento en tiempo real y funciones de seguridad integradas directamente en tu dispositivo local. Esta innovación abre una nueva era para agentes de voz integrados, asistentes inteligentes, juguetes interactivos y aplicaciones que requieren síntesis de voz segura y sin conexión.

Características Clave de NeuTTS Air:

  • Realismo Inigualable: Produce voces excepcionalmente naturales y ultrarrealistas, estableciendo un nuevo estándar para el TTS en dispositivos. Alcanza un nivel de calidad de audio similar al humano, notable por su tamaño y capacidades de procesamiento local.
  • Optimizado para Implementación en Dispositivos: Disponible en el formato GGML de alta eficiencia, NeuTTS Air está diseñado para funcionar sin problemas en una amplia gama de dispositivos, incluyendo teléfonos inteligentes, laptops e incluso plataformas con recursos limitados como Raspberry Pis.
  • Clonación de Voz Instantánea: Con tan solo 3 segundos de audio, puedes crear un orador personalizado, permitiendo interacciones de voz dinámicas y personalizadas.
  • Arquitectura Eficiente: Aprovechando una arquitectura sencilla de LM + códec construida sobre una base de 0.5B, logra el equilibrio perfecto entre velocidad, tamaño y calidad de audio, lo que lo hace ideal para aplicaciones del mundo real.
  • Códec de Audio Avanzado: Incorpora NeuCodec, un códec de audio neuronal propietario de 50 Hz que garantiza una fidelidad de audio excepcional a bajas tasas de bits utilizando un único libro de códigos.
  • Salidas con Marca de Agua: Para un uso responsable de la IA, cada archivo de audio generado por NeuTTS Air incluye un Perceptual Threshold (Perth) Watermarker.

Especificaciones Técnicas:

  • Idiomas Compatibles: Actualmente enfocado en inglés.
  • Ventana de Contexto: Una ventana de contexto de 2048 tokens permite procesar aproximadamente 30 segundos de audio, incluyendo la duración del prompt.
  • Velocidad de Inferencia: Generación en tiempo real en dispositivos de gama media.
  • Consumo de Energía: Optimizado para dispositivos móviles y embebidos, garantizando una eficiencia energética.

Primeros Pasos con NeuTTS Air:

Integrar NeuTTS Air en tus proyectos es sencillo. El proyecto proporciona una guía clara sobre cómo clonar el repositorio, instalar las dependencias necesarias como espeak y configurar los entornos de Python.

Los usuarios pueden ejecutar ejemplos básicos para sintetizar voz con texto personalizado y audio de referencia. Además, NeuTTS Air es compatible con el modo de transmisión para generar audio en fragmentos, ofreciendo una experiencia de usuario dinámica.

Guía de Inicio Rápido:

  1. Clonar el Repositorio:
    git clone https://github.com/neuphonic/neutts-air.git
    cd neutts-air
    
  2. Instalar espeak: Sigue las instrucciones específicas de tu plataforma (por ejemplo, brew install espeak para macOS, sudo apt install espeak para Ubuntu/Debian).
  3. Instalar Dependencias de Python:
    pip install -r requirements.txt
    
  4. (Opcional) Soporte GGUF: Instala llama-cpp-python para modelos GGUF.
  5. (Opcional) Decodificador ONNX: Instala onnxruntime para el uso del decodificador ONNX.

Las instrucciones detalladas para ejecutar el modelo, utilizar las funciones de transmisión y preparar un audio de referencia óptimo para la clonación se proporcionan en el archivo README del proyecto.

IA Responsable y Desarrollo Futuro:

Neuphonic enfatiza el uso responsable de NeuTTS Air y se compromete a construir soluciones de IA de voz en dispositivos que sean más rápidas, más pequeñas y más éticas. Animan a los desarrolladores a contribuir y a adherirse a las directrices éticas al implementar esta potente tecnología.

NeuTTS Air representa un avance significativo para hacer que la IA de voz avanzada sea accesible y desplegable en el edge, abriendo el camino para aplicaciones innovadoras en innumerables industrias.

Artículo original: Ver original

Compartir este artículo