Voice-Pro : Une suite audio et de doublage IA tout-en-un open-source

Voice-Pro est une puissante WebUI open-source basée sur Gradio qui intègre des outils de pointe de clonage vocal, de transcription et de traduction en un seul flux de travail.

Pour les créateurs et les développeurs, le paysage actuel des outils audio IA est fragmenté. Vous devez souvent jongler entre un téléchargeur YouTube, un outil d'isolation vocale séparé, un service de transcription et une plateforme de clonage vocal. Voice-Pro change cela en regroupant ces tâches essentielles en une seule WebUI cohérente basée sur Gradio.

Initialement un projet commercial, les développeurs ont récemment ouvert l'intégralité du code source, en faisant une alternative gratuite et puissante aux plateformes par abonnement comme ElevenLabs ou Descript.

Qu'est-ce que Voice-Pro ?

Voice-Pro est conçu comme un "Studio de doublage" qui gère l'ensemble du pipeline de création de contenu multimédia. Que vous soyez un podcasteur cherchant à traduire votre contenu en plusieurs langues ou un développeur construisant un pipeline automatisé de traitement vidéo, cet outil fournit une interface unifiée pour les meilleurs modèles open-source disponibles aujourd'hui.

Capacités principales :

  • Extraction audio : Prise en charge intégrée de yt-dlp pour télécharger et traiter directement du contenu YouTube.
  • Isolation vocale : Utilise Demucs pour séparer proprement les voix de la musique de fond, essentiel pour un clonage vocal de haute qualité.
  • Reconnaissance vocale (STT) : Prend en charge diverses implémentations de Whisper, notamment Faster-Whisper, Whisper-Timestamped et WhisperX pour une transcription de haute précision au niveau du mot.
  • Clonage vocal sans échantillon : Dispose de modèles de pointe comme F5-TTS, E2-TTS et CosyVoice, vous permettant de cloner des voix avec un minimum d'audio de référence.
  • Synthèse vocale (TTS) : Inclut Edge-TTS pour une parole naturelle de haute qualité et kokoro, un modèle TTS haute performance actuellement tendance dans l'arène HuggingFace.
  • Traduction : Deep-Translator intégré pour une prise en charge multilingue instantanée de plus de 100 langues.

Pourquoi les développeurs devraient s'y intéresser

Contrairement aux plateformes SaaS qui facturent à la minute, Voice-Pro est une solution auto-hébergée. Si vous possédez un GPU NVIDIA (avec au moins 4 Go à 8 Go de VRAM), vous pouvez exécuter ces modèles localement sans vous soucier des coûts d'API ou des problèmes de confidentialité des données.

Points forts de la pile technique :

  • Framework : Construit sur Python 3.10.15 avec Gradio 5.14.0.
  • Calcul : Optimisé pour CUDA 12.4, garantissant une inférence rapide pour les tâches lourdes comme le clonage vocal et la transcription.
  • Extensibilité : Parce qu'il est open-source, vous pouvez modifier les scripts start-voice.py ou one_click.py pour intégrer vos propres modèles personnalisés ou poids affinés.

Pour commencer

L'installation est conçue pour être "en un clic" pour les utilisateurs Windows, bien qu'elle soit également compatible avec les environnements Linux et Mac.

  1. Clonez le dépôt :
    git clone https://github.com/abus-aikorea/voice-pro.git
    
  2. Configurez l'environnement : Exécutez configure.bat (ou configure.sh sur Linux/Mac). Ce script gère le gros du travail de configuration de Git, FFmpeg et des dépendances CUDA nécessaires.
  3. Lancez l'interface : Exécutez start.bat. Lors du premier lancement, l'application téléchargera les poids de modèle nécessaires (comme le modèle CosyVoice de 9 Go), alors assurez-vous d'avoir une connexion Internet stable.

Dépannage et optimisation

  • Mémoire CUDA insuffisante (OOM) : Si vous atteignez les limites de mémoire, essayez de régler le niveau Denoise sur 0 ou 1. De plus, utiliser des types de calcul int au lieu de float peut réduire considérablement l'utilisation de la VRAM au prix d'une légère dégradation de la qualité.
  • Qualité des sous-titres : Si vos transcriptions ne répondent pas à vos attentes, rappelez-vous que la taille du modèle compte. Alors que les modèles large offrent la meilleure précision, ils nécessitent plus de calcul. Expérimentez avec des modèles medium ou small si vous traitez du contenu de longue durée sur du matériel grand public.

Réflexions finales

Voice-Pro représente le meilleur de la communauté IA open-source. En encapsulant des modèles complexes comme F5-TTS et WhisperX dans une WebUI conviviale, il abaisse la barrière à l'entrée pour la production de contenu de haute qualité. Que vous l'utilisiez pour des projets personnels ou comme base pour votre propre application alimentée par l'IA, c'est un dépôt qui mérite d'être exploré.

Consultez le projet sur GitHub pour contribuer ou voir les dernières mises à jour.

Source

abus-aikorea/voice-pro : WebUI Gradio pour créateurs et développeurs, avec TTS clé (Edge-TTS, kokoro) et clonage vocal sans échantillon (E2 & F5-TTS, CosyVoice), traitement audio Whisper, téléchargement YouTube, isolation vocale Demucs et traduction multilingue.