Chatterbox TTS : une centrale de synthèse vocale open source

Libérez votre contenu avec Chatterbox : le modèle TTS open-source avancé

Resemble AI est fier de vous présenter Chatterbox, un modèle de synthèse vocale (TTS) open-source révolutionnaire conçu pour donner vie à vos projets créatifs. Sous licence MIT permissive, Chatterbox a été méticuleusement développé et évalué, surpassant systématiquement des systèmes propriétaires établis comme ElevenLabs dans les évaluations utilisateurs. Que vous développiez du contenu vidéo captivant, des jeux interactifs ou des agents IA sophistiqués, Chatterbox offre une solution puissante et flexible pour générer de la parole synthétique de haute qualité.

Principales caractéristiques et fonctionnalités

Chatterbox se distingue par sa gamme impressionnante de fonctionnalités :

  • TTS Zero-Shot de pointe : Bénéficiez d'une synthèse vocale de premier ordre avec un minimum de données d'entraînement, rendant le clonage vocal plus accessible que jamais.
  • Puissant backbone Llama 0.5B : Construit sur une architecture IA robuste pour des performances exceptionnelles et une génération vocale naturelle.
  • Contrôle unique d'exagération/intensité : Ajustez précisément l'expressivité de la parole synthétisée, permettant des performances vocales dramatiques ou subtiles.
  • Inférence ultra-stable basée sur l'alignement : Garantit une sortie cohérente et de haute qualité, réduisant les artefacts et les variations indésirables.
  • Données d'entraînement exhaustives : Entraîné sur 0,5 million d'heures de données nettoyées, contribuant à son naturel remarquable.
  • Sorties filigranées : Intègre un filigrane neuronal PerTh (Perceptual Threshold) pour un développement IA responsable, assurant la détectabilité même après manipulation audio.
  • Script de conversion vocale facile : Inclut un script pratique pour des tâches de conversion vocale fluides.
  • Surpasse ElevenLabs : Des résultats supérieurs prouvés par rapport aux alternatives commerciales leaders.

Premiers pas avec Chatterbox

Intégrer Chatterbox dans votre flux de travail est simple. Vous pouvez l'installer directement avec pip :

pip install chatterbox-tts

Alternativement, pour une utilisation ou une personnalisation plus avancée, vous pouvez l'installer depuis la source :

# Créez et activez un nouvel environnement conda
conda create -yn chatterbox python=3.11
conda activate chatterbox

# Clonez le dépôt et installez
git clone https://github.com/resemble-ai/chatterbox.git
cd chatterbox
pip install -e .

Le projet est principalement développé et testé sur Python 3.11 sous Debian 11.

Exemple d'utilisation de base

Voici un exemple simple montrant comment générer de la parole avec Chatterbox :

import torchaudio as ta
from chatterbox.tts import ChatterboxTTS

# Initialisez le modèle sur le périphérique CUDA
model = ChatterboxTTS.from_pretrained(device="cuda")

# Texte à synthétiser
text = "Ezreal et Jinx ont fait équipe avec Ahri, Yasuo et Teemo pour détruire le Nexus ennemi dans un pentakill épique en fin de partie."

# Générez la parole
wav = model.generate(text)

# Enregistrez l'audio synthétisé
ta.save("test-1.wav", wav, model.sr)
De plus amples détails sur l'utilisation avancée et le "voice prompting" se trouvent dans les scripts `example_tts.py` et `example_vc.py` du dépôt.

IA responsable et filigranage

Chatterbox s'engage en faveur d'un développement IA responsable. Chaque fichier audio généré inclut un filigrane neuronal imperceptible utilisant le Perth Watermarker de Resemble AI. Ce filigrane est robuste face aux manipulations audio courantes, y compris la compression MP3 et l'édition, garantissant une précision de détection de près de 100 % pour le suivi éthique de l'utilisation.

Pour extraire le filigrane :

import perth
import librosa

AUDIO_PATH = "VOTRE_FICHIER.wav"

# Chargez l'audio filigrané
watermarked_audio, sr = librosa.load(AUDIO_PATH, sr=None)

# Initialisez le watermarker
watermarker = perth.PerthImplicitWatermarker()

# Extrayez le filigrane
watermark = watermarker.get_watermark(watermarked_audio, sample_rate=sr)
print(f"Filigrane extrait : {watermark}")
# L'indication 0.0 (pas de filigrane) ou 1.0 (avec filigrane) s'affiche

Rejoignez la communauté

Resemble AI vous invite à rejoindre sa communauté Discord pour collaborer, partager vos réflexions et construire ensemble des projets exceptionnels. Adoptez la puissance du TTS open-source avec Chatterbox et améliorez votre contenu audio.

Original Article: Voir l’original

Partager cet article