Miso TTS 8B: Un modelo de texto a voz de alta calidad y código abierto

Miso TTS 8B es un modelo de texto a voz de última generación y código abierto con 8 mil millones de parámetros, que ofrece generación de voz altamente emotiva y capacidades de clonación de voz.

Miso Labs ha lanzado Miso TTS 8B, un modelo de texto a voz de código abierto que amplía los límites de lo posible con el habla generada por IA. Con 8 mil millones de parámetros, este modelo está diseñado para producir un habla altamente emotiva y de sonido natural que puede utilizarse en diversas aplicaciones, desde IA conversacional hasta creación de contenido.

¿Qué hace especial a Miso TTS 8B?

Miso TTS 8B no es solo otro modelo TTS. Está construido sobre una arquitectura sofisticada que combina un gran transformador troncal con un decodificador de audio más pequeño, lo que le permite generar habla que es tanto expresiva como contextualmente consciente. El modelo está inspirado en la arquitectura Sesame CSM y utiliza RVQ (Cuantización Vectorial Residual) para producir códecs de audio de alta calidad a partir de entrada de texto.

Características clave:

  • 8 mil millones de parámetros: El gran tamaño del modelo le permite capturar matices sutiles en el habla, convirtiéndolo en uno de los modelos TTS más expresivos disponibles.
  • Clonación de voz: Miso TTS puede condicionarse en audio previo para clonar voces, lo que lo hace ideal para aplicaciones que requieren una identidad de hablante consistente.
  • Contexto conversacional: El modelo puede tomar tokens de texto y audio intercalados, lo que le permite generar habla que encaja naturalmente en un historial de conversación.
  • Marcado de agua: El audio generado está marcado con agua por defecto usando SilentCipher, ayudando a prevenir el mal uso y la suplantación de identidad.

Inmersión profunda en la arquitectura

Miso TTS 8B utiliza dos componentes transformadores:

  1. Transformador troncal (8B parámetros): Este gran modelo consume incrustaciones de texto y fotogramas de audio, procesando la secuencia intercalada para entender el contexto y generar patrones de habla apropiados.

  2. Decodificador de audio (300M parámetros): Un transformador más pequeño que predice autoregresivamente códecs de audio de orden superior dentro de cada fotograma, refinando la salida del troncal.

El modelo utiliza el tokenizador de audio Mimi con 32 códecs de audio y un vocabulario de 2,051 tokens de audio. El vocabulario de texto es de 128,256 tokens, y la longitud máxima de secuencia es de 2,048 tokens.

Primeros pasos

Para ejecutar Miso TTS 8B localmente, necesitarás una GPU con al menos 24 GB de VRAM para inferencia bfloat16. Aquí te mostramos cómo empezar:

Instalación

Primero, instala uv si no lo tienes:

curl -LsSf https://astral.sh/uv/install.sh | sh

Luego clona el repositorio y configura el entorno:

git clone https://github.com/MisoLabsAI/MisoTTS.git
cd MisoTTS
uv sync --python 3.10
source .venv/bin/activate

Uso básico

Ejecuta el script de ejemplo para generar una conversación:

uv run python run_misotts.py

Esto creará un archivo llamado full_conversation.wav en la raíz del repositorio.

API de Python

Para más control, puedes usar la API de Python directamente:

import torch
import torchaudio
from generator import load_miso_8b

device = "cuda" if torch.cuda.is_available() else "cpu"
generator = load_miso_8b(
    device=device,
    model_path_or_repo_id="MisoLabs/MisoTTS",
)

audio = generator.generate(
    text="Hola desde Miso.",
    speaker=0,
    context=[],
    max_audio_length_ms=10_000,
)

torchaudio.save("miso.wav", audio.unsqueeze(0).cpu(), generator.sample_rate)

Clonación de voz

Para clonar una voz, proporciona un segmento de audio de aviso:

import torchaudio
from generator import Segment, load_miso_8b

generator = load_miso_8b(device="cuda")

prompt_audio, sample_rate = torchaudio.load("prompt.wav")
prompt_audio = torchaudio.functional.resample(
    prompt_audio.squeeze(0),
    orig_freq=sample_rate,
    new_freq=generator.sample_rate,
)

context = [
    Segment(
        speaker=0,
        text="Esta es la transcripción del audio de aviso.",
        audio=prompt_audio,
    )
]

audio = generator.generate(
    text="Esta es la siguiente oración a sintetizar.",
    speaker=0,
    context=context,
    max_audio_length_ms=10_000,
)

Requisitos del sistema

Miso TTS 8B es un modelo grande y requiere hardware significativo:

Precisión Pesos (aprox.) VRAM recomendada Ejemplos de GPU
bfloat16/fp16 ~16 GB 24 GB RTX 3090/4090, A5000, L4
float32 ~33 GB 40 GB+ A100 40 GB, A6000 48 GB, H100
  • CPU: La inferencia funciona pero es lenta. Presupuesta al menos ~20 GB de RAM para bfloat16 y ~40 GB para float32.
  • Disco: La primera ejecución descarga ~30–40 GB en total (punto de control del modelo, códec Mimi, marcador de agua SilentCipher, tokenizador Llama 3.2).

Seguridad y uso ético

Miso Labs enfatiza el uso responsable de esta tecnología. El modelo no debe usarse para suplantar personas, crear audio engañoso, cometer fraude o generar contenido dañino. El audio generado está marcado con agua por defecto, y si implementas este modelo, debes usar tu propia clave de marca de agua privada.

Conclusión

Miso TTS 8B representa un avance significativo en la tecnología de texto a voz de código abierto. Su combinación de alto número de parámetros, capacidades de clonación de voz y contexto conversacional lo convierte en una herramienta poderosa para desarrolladores e investigadores. Aunque requiere hardware sustancial, la calidad de la salida vale la inversión.

Para más información, visita el sitio web de Miso Labs o consulta el modelo en Hugging Face.

Fuente

MisoLabsAI/MisoTTS: Miso TTS es un modelo de texto a voz de 8 mil millones de parámetros altamente emotivo