Chatterbox TTS: Una Central de Síntesis de Voz de Código Abierto

Libera tu contenido con Chatterbox: El modelo avanzado de TTS de código abierto

Resemble AI se enorgullece en presentar Chatterbox, un innovador modelo de Texto a Voz (TTS) de código abierto diseñado para dar vida a tus proyectos creativos. Con licencia bajo la permisiva licencia MIT, Chatterbox ha sido meticulosamente desarrollado y evaluado, superando consistentemente a sistemas establecidos de código cerrado como ElevenLabs en las valoraciones de los usuarios. Ya sea que estés desarrollando contenido de video atractivo, juegos interactivos o agentes de IA sofisticados, Chatterbox ofrece una solución potente y flexible para generar voz sintética de alta calidad.

Características y capacidades clave

Chatterbox destaca por su impresionante conjunto de características:

  • TTS de última generación "Zero-Shot": Experimenta una síntesis de voz de primer nivel con un mínimo de datos de entrenamiento, haciendo que la clonación de voz sea más accesible que nunca.
  • Potente "Backbone" Llama de 0.5B: Construido sobre una robusta arquitectura de IA para un rendimiento excepcional y una generación de voz natural.
  • Control único de exageración/intensidad: Ajusta la expresividad de la voz sintetizada, permitiendo interpretaciones vocales dramáticas o sutiles.
  • Inferencia ultra estable informada por alineación: Garantiza una salida consistente y de alta calidad, reduciendo artefactos y variaciones no deseadas.
  • Extensos datos de entrenamiento: Entrenado con 0.5 millones de horas masivas de datos limpios, lo que contribuye a su notable naturalidad.
  • Salidas con marca de agua: Incorpora marcas de agua neurales integradas PerTh (Perceptual Threshold) para un desarrollo responsable de IA, garantizando detectabilidad incluso después de la manipulación de audio.
  • Script fácil para conversión de voz: Incluye un práctico script para tareas fluidas de conversión de voz.
  • Supera a ElevenLabs: Demostrado que ofrece resultados superiores en comparación con alternativas comerciales líderes.

Primeros pasos con Chatterbox

Integrar Chatterbox en tu flujo de trabajo es sencillo. Puedes instalarlo directamente usando pip:

pip install chatterbox-tts

Alternativamente, para usos más avanzados o personalización, puedes instalarlo desde la fuente:

# Crea y activa un nuevo entorno de conda
conda create -yn chatterbox python=3.11
conda activate chatterbox

# Clona el repositorio e instala
git clone https://github.com/resemble-ai/chatterbox.git
cd chatterbox
pip install -e .

El proyecto se desarrolla y prueba principalmente en Python 3.11 en sistema operativo Debian 11.

Ejemplo de uso básico

Aquí tienes un ejemplo sencillo que demuestra cómo generar voz usando Chatterbox:

import torchaudio as ta
from chatterbox.tts import ChatterboxTTS

# Inicializa el modelo en el dispositivo CUDA
model = ChatterboxTTS.from_pretrained(device="cuda")

# Texto a sintetizar
text = "Ezreal y Jinx se aliaron con Ahri, Yasuo y Teemo para destruir el Nexo enemigo en un épico "pentakill" al final de la partida."

# Generar voz
wav = model.generate(text)

# Guarda el audio sintetizado
ta.save("test-1.wav", wav, model.sr)
Encontrarás más detalles sobre el uso avanzado y el "prompting" de voz en los scripts `example_tts.py` y `example_vc.py` dentro del repositorio.

IA Responsable y Marcas de Agua

Chatterbox está comprometido con el desarrollo responsable de IA. Cada archivo de audio generado incluye una marca de agua neural imperceptible utilizando el Watermarker Perth de Resemble AI. Esta marca de agua es resistente a manipulaciones comunes de audio, incluida la compresión MP3 y la edición, garantizando una precisión de detección de casi el 100% para el seguimiento de uso ético.

Para extraer la marca de agua:

import perth
import librosa

AUDIO_PATH = "TU_ARCHIVO.wav"

# Carga el audio con marca de agua
watermarked_audio, sr = librosa.load(AUDIO_PATH, sr=None)

# Inicializa el watermarker
watermarker = perth.PerthImplicitWatermarker()

# Extrae la marca de agua
watermark = watermarker.get_watermark(watermarked_audio, sample_rate=sr)
print(f"Marca de agua extraída: {watermark}")
# La salida indica 0.0 (sin marca de agua) o 1.0 (con marca de agua)

Únete a la Comunidad

Resemble AI te invita a unirte a su comunidad de Discord para colaborar, compartir ideas y construir proyectos increíbles juntos. Abraza el poder del TTS de código abierto con Chatterbox y eleva tu contenido de audio.

Artículo original: Ver original

Compartir este artículo