Fish-Speech : Système TTS open-source avancé
Fish-Speech devient OpenAudio : la nouvelle génération de Synthèse Vocale est lancée
Fish-Speech, initiative open-source de premier plan dans le domaine de la synthèse vocale (TTS), a officiellement adopté le nom d'OpenAudio. Cette évolution marque une étape majeure avec le lancement d'une nouvelle série de modèles TTS avancés, menée par OpenAudio S1 et OpenAudio S1-mini. En s'appuyant sur les bases solides de Fish-Speech, ces modèles promettent une qualité, des performances et des fonctionnalités améliorées, consolidant ainsi leur position de solutions de pointe en synthèse vocale.
Points forts d'OpenAudio (issu de Fish-Speech) :
- Qualité de pointe : OpenAudio S1 affiche des performances remarquables, atteignant un taux d'erreur sur les mots (WER) de 0,008 et un taux d'erreur sur les caractères (CER) de 0,004 sur du texte anglais, selon les métriques Seed TTS Eval. Il s'impose ainsi comme un modèle de référence pour générer des voix d'un naturel confondant.
- Premier de la classe sur TTS-Arena2 : Le modèle OpenAudio S1 s'est classé premier sur TTS-Arena2, une plateforme d'évaluation des systèmes de synthèse vocale, soulignant sa qualité et ses performances supérieures.
- Contrôle avancé de la voix : Au-delà de la simple conversion texte-parole, OpenAudio S1 offre un contrôle précis sur la sortie vocale. Les utilisateurs peuvent intégrer des émotions spécifiques (par ex.
(en colère)
,(triste)
,(enthousiaste)
), des intonations (par ex.(ton pressé)
,(chuchotant)
) et même des effets audio spéciaux comme le rire ((rire)
,(ricanement)
) et les soupirs ((soupirant)
), permettant une génération vocale d'une grande expressivité et nuance. - TTS Zero-shot & Few-shot : Le système prend en charge le clonage vocal à partir d'un simple échantillon vocal de 10 à 30 secondes, générant ainsi une sortie TTS de haute qualité avec une voix cible. Cette fonctionnalité abaisse considérablement les barrières à l'entrée pour la synthèse vocale personnalisée.
- Capacités multilingues et translingues : OpenAudio gère sans effort les textes multilingues, prenant en charge l'anglais, le japonais, le coréen, le chinois, le français, l'allemand, l'arabe et l'espagnol. La forte capacité de généralisation du modèle lui permet de traiter des scripts textuels dans différentes langues sans dépendance aux phonèmes.
- Inférence efficace et rapide : Optimisés avec torch compile, les modèles atteignent un facteur temps réel d'environ 1:7 sur un GPU Nvidia RTX 4090, garantissant une génération vocale rapide et réactive.
- Interfaces conviviales : OpenAudio propose une interface Web basée sur Gradio pour une inférence aisée dans le navigateur, ainsi qu'une interface graphique basée sur PyQt6 pour les applications de bureau, compatible avec Windows, Linux et macOS. Le déploiement est également simplifié grâce à des serveurs d'inférence natifs.
Disponibilité des modèles :
- OpenAudio S1 : Le modèle phare avec 4 milliards de paramètres, disponible sur fish.audio.
- OpenAudio S1-mini : Une version distillées avec 0,5 milliard de paramètres, optimisée pour les fonctionnalités essentielles et disponible sur Hugging Face Spaces.
Les deux modèles intègrent l'apprentissage par renforcement en ligne à partir des retours humains (RLHF), améliorant encore la qualité de leurs résultats. Fort d'un solide soutien communautaire, d'une documentation complète et d'un développement continu attesté par de nombreux commits et versions, OpenAudio (anciennement Fish-Speech) est un projet vivement recommandé pour quiconque s'intéresse aux technologies de pointe en matière de synthèse vocale. Explorez le projet sur GitHub pour y contribuer ou intégrer ses puissantes fonctionnalités à vos propres applications.