Voice‑Pro : Studio de doublage IA open‑source pour les médias multilingues

January 16, 2026

Catégorie: Projets Open Source Pratiques

Étiquettes:

Open Source text-to-speech Voice Cloning multilingual translation AI webui

Voice‑Pro : Le studio de doublage IA tout‑en‑un open‑source

Le monde de la création de médias alimentés par l'IA se développe rapidement. Si vous cherchez une solution gratuite et open‑source qui unifie le texte‑à‑parole (TTS), le clonage vocal, la traduction en temps réel et le traitement multimédia, ne cherchez plus : Voice‑Pro.

Qu'est‑ce que Voice‑Pro ?

Interface Web open‑source construite sur Gradio 5.14.0, publiée sous licence GPL‑3.0.
Reconnaissance vocale alimentée par Whisper, Faster‑Whisper, Whisper‑Timestamped et WhisperX.
Clonage vocal zéro‑shot : E2‑TTS, F5‑TTS, CosyVoice et Kokoro.
Texte‑à‑parole : Edge‑TTS (plus de 100 langues, plus de 400 voix), Kokoro (classé n°2 sur HF TTS Arena) et TTS Azure payant optionnel.
Traduction multilingue via Deep‑Translator (plus de 100 langues, traducteur Azure optionnel).
Téléchargeur YouTube (yt‑dlp) + isolation audio (Demucs) + génération de sous‑titres.
Prend en charge Windows (GPU NVIDIA), macOS et Linux.

Qui peut bénéficier ?

Podcasteurs & YouTubers : Créez des épisodes doublés avec des voix IA sans payer de forfaits d'abonnement.
Enseignants & créateurs d’e‑learning : Générez des sous‑titres et des traductions multilingues pour les vidéos.
Développeurs & chercheurs : Expérimentez avec des modèles TTS de pointe dans un environnement sandbox.
Créateurs de contenu : Produisez des pistes karaoké ou des livres audio générés par IA.

Mise en route – Installation

Prérequis

Composant	Minimum	Recommandé
OS	Windows 10/11, macOS 10.15+, Ubuntu 20.04+	All
GPU	None for CPU, otherwise NVIDIA CUDA 12.4	NVIDIA 8 GB+ VRAM
RAM	4 GB	8 GB+
Disque	20 GB free	30 GB+

Clone le dépôt

git clone https://github.com/abus-aikorea/voice-pro.git
cd voice-pro

Configurer (Windows)

configure.bat   # installe ffmpeg, vérifie CUDA, télécharge les modèles

Configurer (macOS/Linux)

chmod +x configure.sh
./configure.sh

Astuce : La première exécution téléchargera de gros modèles (~10 GB). Assurez‑vous d’une connexion Internet rapide.

Lancer le WebUI

start.bat   # Windows

./start.sh  # macOS/Linux

L’interface Gradio démarrera sur http://127.0.0.1:7870/. Ouvrez‑la dans votre navigateur.

Utiliser Voice‑Pro – Étape par étape

Télécharger Vidéo ou Audio – Dans l'onglet Studio de doublage, collez une URL YouTube ou téléchargez un fichier MP4/WAV.
Extraire l'audio – L'outil appelle automatiquement yt‑dlp pour récupérer l'audio vidéo et Demucs pour séparer les voix.
Transcrire – WhisperX génère une transcription haute qualité dans votre langue cible (choisissez parmi plus de 100 options).
Traduire – Traduction instantanée vers n’importe quelle langue grâce à Deep‑Translator.
Choisir une voix – Sélectionnez une voix existante via Edge‑TTS ou clonez un échantillon de référence avec F5‑TTS/CosyVoice – sans réglage fin requis.
Synthétiser – TTS avec vitesse, volume et hauteur ajustables. Exportez en WAV/FLAC/MP3.
Synchroniser & Exporter – Crée automatiquement des sous‑titres SRT, les télécharge sur YouTube ou les enregistre localement.

Fonctionnalités avancées

Clonage zéro‑shot : Aucun entraînement de modèle, il suffit de fournir un court extrait audio.
Type de calcul personnalisé : Passez entre float32, float16 ou int8 (quantifié) pour équilibrer qualité et utilisation GPU.
Démonstrations en temps réel : Dans l'onglet Traduction en direct, parlez dans le micro et voyez les sous‑titres apparaître instantanément.
Interface de type API : Le serveur Gradio peut être enveloppé par d'autres scripts Python ; consultez app/voice_pro.py pour des exemples.
Bibliothèque vocale communautaire : Les contributeurs peuvent ajouter de nouvelles voix de célébrités via les Issues GitHub ; une liste sélectionnée est hébergée dans celebrities30sREADME.

Pourquoi Voice‑Pro dépasse les SaaS

Gratuit : toutes les fonctionnalités de base – pas de frais par minute.
Open‑source : vous pouvez modifier le pipeline TTS ou intégrer vos propres modèles.
Flexibilité GPU : fonctionne sur un ordinateur portable ou déployé sur une instance GPU cloud.
Parité fonctionnelle : prend en charge les mêmes moteurs TTS que les services commerciaux comme ElevenLabs, plus des contrôles approfondis.

Résolution rapide des problèmes

Issue	Fix
CUDA OOM	Reduce denoise level or switch to int8 compute
Whisper errors	Ensure `requirements-voice-gpu.txt` or `-cpu.txt` is installed; delete `installer_files` then rerun `configure`
Subtitles off‑sync	Use the WhisperX tab to re‑align timestamps

Communauté & prochaines étapes

Découvrez les Discussions GitHub pour les demandes de fonctionnalités et l'assistance.
Contribuez en ajoutant de nouveaux échantillons vocaux ou en optimisant les modèles existants.
Expérimentez en ajoutant vos propres pipelines Hugging Face — le design modulaire le rend simple.
Envisagez de soutenir le dépôt ou d'acheter une mise à jour « premium » (Azure TTS/Translator) si vous avez besoin d’une qualité entreprise.

Mot final

Voice‑Pro est une alternative puissante et gratuite aux services de doublage IA onéreux. Sa nature modulaire open‑source signifie que vous n'êtes pas pris dans un modèle propriétaire ; vous possédez le code, les modèles et les résultats. Que vous soyez YouTuber voulant doubler une vidéo dans 12 langues, un laboratoire de recherche nécessitant un prototypage rapide de clonage vocal ou un étudiant de cours de langue, Voice‑Pro vous donne les outils pour transformer parole et texte en audio haute fidélité en quelques minutes.

Commencez dès aujourd’hui et offrez à vos projets l'avenir de l'audio IA — sans dépenser un cent.

Article original: Voir l'original

Partager cet article