Voice‑Pro : Studio de doublage IA open‑source pour les médias multilingues
Voice‑Pro : Le studio de doublage IA tout‑en‑un open‑source
Le monde de la création de médias alimentés par l'IA se développe rapidement. Si vous cherchez une solution gratuite et open‑source qui unifie le texte‑à‑parole (TTS), le clonage vocal, la traduction en temps réel et le traitement multimédia, ne cherchez plus : Voice‑Pro.
Qu'est‑ce que Voice‑Pro ?
- Interface Web open‑source construite sur Gradio 5.14.0, publiée sous licence GPL‑3.0.
- Reconnaissance vocale alimentée par Whisper, Faster‑Whisper, Whisper‑Timestamped et WhisperX.
- Clonage vocal zéro‑shot : E2‑TTS, F5‑TTS, CosyVoice et Kokoro.
- Texte‑à‑parole : Edge‑TTS (plus de 100 langues, plus de 400 voix), Kokoro (classé n°2 sur HF TTS Arena) et TTS Azure payant optionnel.
- Traduction multilingue via Deep‑Translator (plus de 100 langues, traducteur Azure optionnel).
- Téléchargeur YouTube (yt‑dlp) + isolation audio (Demucs) + génération de sous‑titres.
- Prend en charge Windows (GPU NVIDIA), macOS et Linux.
Qui peut bénéficier ?
- Podcasteurs & YouTubers : Créez des épisodes doublés avec des voix IA sans payer de forfaits d'abonnement.
- Enseignants & créateurs d’e‑learning : Générez des sous‑titres et des traductions multilingues pour les vidéos.
- Développeurs & chercheurs : Expérimentez avec des modèles TTS de pointe dans un environnement sandbox.
- Créateurs de contenu : Produisez des pistes karaoké ou des livres audio générés par IA.
Mise en route – Installation
Prérequis
| Composant | Minimum | Recommandé |
|---|---|---|
| OS | Windows 10/11, macOS 10.15+, Ubuntu 20.04+ | All |
| GPU | None for CPU, otherwise NVIDIA CUDA 12.4 | NVIDIA 8 GB+ VRAM |
| RAM | 4 GB | 8 GB+ |
| Disque | 20 GB free | 30 GB+ |
Clone le dépôt
git clone https://github.com/abus-aikorea/voice-pro.git
cd voice-pro
Configurer (Windows)
configure.bat # installe ffmpeg, vérifie CUDA, télécharge les modèles
Configurer (macOS/Linux)
chmod +x configure.sh
./configure.sh
Astuce : La première exécution téléchargera de gros modèles (~10 GB). Assurez‑vous d’une connexion Internet rapide.
Lancer le WebUI
start.bat # Windows
./start.sh # macOS/Linux
http://127.0.0.1:7870/. Ouvrez‑la dans votre navigateur.
Utiliser Voice‑Pro – Étape par étape
- Télécharger Vidéo ou Audio – Dans l'onglet Studio de doublage, collez une URL YouTube ou téléchargez un fichier MP4/WAV.
- Extraire l'audio – L'outil appelle automatiquement yt‑dlp pour récupérer l'audio vidéo et Demucs pour séparer les voix.
- Transcrire – WhisperX génère une transcription haute qualité dans votre langue cible (choisissez parmi plus de 100 options).
- Traduire – Traduction instantanée vers n’importe quelle langue grâce à Deep‑Translator.
- Choisir une voix – Sélectionnez une voix existante via Edge‑TTS ou clonez un échantillon de référence avec F5‑TTS/CosyVoice – sans réglage fin requis.
- Synthétiser – TTS avec vitesse, volume et hauteur ajustables. Exportez en WAV/FLAC/MP3.
- Synchroniser & Exporter – Crée automatiquement des sous‑titres SRT, les télécharge sur YouTube ou les enregistre localement.
Fonctionnalités avancées
- Clonage zéro‑shot : Aucun entraînement de modèle, il suffit de fournir un court extrait audio.
- Type de calcul personnalisé : Passez entre float32, float16 ou int8 (quantifié) pour équilibrer qualité et utilisation GPU.
- Démonstrations en temps réel : Dans l'onglet Traduction en direct, parlez dans le micro et voyez les sous‑titres apparaître instantanément.
- Interface de type API : Le serveur Gradio peut être enveloppé par d'autres scripts Python ; consultez
app/voice_pro.pypour des exemples. - Bibliothèque vocale communautaire : Les contributeurs peuvent ajouter de nouvelles voix de célébrités via les Issues GitHub ; une liste sélectionnée est hébergée dans
celebrities30sREADME.
Pourquoi Voice‑Pro dépasse les SaaS
- Gratuit : toutes les fonctionnalités de base – pas de frais par minute.
- Open‑source : vous pouvez modifier le pipeline TTS ou intégrer vos propres modèles.
- Flexibilité GPU : fonctionne sur un ordinateur portable ou déployé sur une instance GPU cloud.
- Parité fonctionnelle : prend en charge les mêmes moteurs TTS que les services commerciaux comme ElevenLabs, plus des contrôles approfondis.
Résolution rapide des problèmes
| Issue | Fix |
|---|---|
| CUDA OOM | Reduce denoise level or switch to int8 compute |
| Whisper errors | Ensure requirements-voice-gpu.txt or -cpu.txt is installed; delete installer_files then rerun configure |
| Subtitles off‑sync | Use the WhisperX tab to re‑align timestamps |
Communauté & prochaines étapes
- Découvrez les Discussions GitHub pour les demandes de fonctionnalités et l'assistance.
- Contribuez en ajoutant de nouveaux échantillons vocaux ou en optimisant les modèles existants.
- Expérimentez en ajoutant vos propres pipelines Hugging Face — le design modulaire le rend simple.
- Envisagez de soutenir le dépôt ou d'acheter une mise à jour « premium » (Azure TTS/Translator) si vous avez besoin d’une qualité entreprise.
Mot final
Voice‑Pro est une alternative puissante et gratuite aux services de doublage IA onéreux. Sa nature modulaire open‑source signifie que vous n'êtes pas pris dans un modèle propriétaire ; vous possédez le code, les modèles et les résultats. Que vous soyez YouTuber voulant doubler une vidéo dans 12 langues, un laboratoire de recherche nécessitant un prototypage rapide de clonage vocal ou un étudiant de cours de langue, Voice‑Pro vous donne les outils pour transformer parole et texte en audio haute fidélité en quelques minutes.
Commencez dès aujourd’hui et offrez à vos projets l'avenir de l'audio IA — sans dépenser un cent.