Voicebox : Studio vocal open‑source alimenté par Qwen3‑TTS
Voicebox : Studio vocal open‑source alimenté par Qwen3‑TTS
La synthèse vocale n’est plus réservée à une poignée de services cloud. Avec Voicebox —une application gratuite, local‑first construite sur Qwen3‑TTS— les développeurs et créateurs peuvent posséder leurs données vocales, éditer du son multi‑pistes comme une station de travail audio numérique et produire des discours naturels plus rapidement que jamais sur Apple Silicon.
Qu’est‑ce que Voicebox ?
- Local‑first : Toutes les inférences, clonages et éditions sont exécutés sur votre matériel — pas besoin d’internet, pas de frais d’abonnement.
- Open source : Licence MIT, entièrement gérée par la communauté.
- Édition multi‑pistes : imaginez un DAW qui rencontre le texte‑vers‑parole.
- Construit avec une stack moderne : Tauri (Rust) pour le bureau, React/TS pour l’interface, FastAPI pour l’API, MLX/Metal pour l’accélération GPU.
- Propulsé par Qwen3‑TTS : Le modèle révolutionnaire d’Alibaba capable de cloner une voix à partir de quelques secondes, produisant un discours de haute fidélité et expressif.
Aperçu des fonctionnalités principales
| Fonctionnalité | Description |
|---|---|
| Clonage vocal | Téléchargez un court clip audio ou enregistrez dans l’app ; le modèle produit un profil vocal réutilisable en quelques secondes. |
| Éditeur de timeline | Arrangez plusieurs pistes vocales sur une chronologie, coupez ou divisez les clips, ajoutez des marqueurs — tout avec un aperçu sans latence. |
| Support multilingue | Actuellement anglais et chinois, d’autres langues seront disponibles dès que Qwen3‑TTS s’étendra. |
| Inference rapide sur Apple Silicon | Le backend MLX avec accélération native Metal offre 4‑5× de gains de vitesse sur les dispositifs M1/M2. |
| API REST | Expose des points de terminaison pour /generate, /profiles, etc., avec des doc‑api open‑api générées automatiquement. |
| Génération batch | Créez des dizaines de fichiers audio en une seule requête — idéal pour les contenus longs. |
| Transcription | Modèle Whisper intégré pour la transcription sur‑appareil des séances enregistrées. |
| Options d’export | Exportez l’audio en WAV, MP3 ou OGG, ainsi que les fichiers de projet en JSON pour sauvegarde ou partage. |
| Confidentialité & sécurité | Aucune donnée ne quitte votre machine à moins que vous n’exportiez explicitement un profil ou un projet. |
Aperçu de l’architecture
graph TD
A[React‑TS Frontend] -->|REST| B[FastAPI Backend]
B -->|PyTorch/MLX| C[Qwen3‑TTS Engine]
B -->|Whisper| D[Transcription]
B -->|SQLite| E[Database]
subgraph Desktop
F[tauri (Rust)] --> A
end
subgraph Web
G[React‑TS app] --> A
end
- Frontend : React avec TypeScript, Tailwind CSS, Zustand & React Query pour l’état et la récupération de données.
- Backend : FastAPI offrant une API typée, des docs automatiques, et une performance asynchrone.
- Modèles : Qwen3‑TTS et Whisper disponibles en backend PyTorch et MLX, offrant une flexibilité de plateforme.
- Persistance : SQLite stocke les profils vocaux, les métadonnées de projet, et l’historique de génération.
Comment commencer
1. Installation
# Sur macOS (Apple Silicon)
brew install qt@5 # pour les dépendances Tauri
bun install
cd backend && pip install -r requirements.txt
bun run dev # Lancer l’application de bureau
Pour Windows ou macOS Intel, téléchargez le MSI ou le ZIP depuis la page des releases.
2. Cloner une voix
- Ouvrez l’app et cliquez sur Create Profile.
- Enregistrez ou téléchargez 5–10 s de parole claire.
- Le modèle créera un profil appelé My Voice.
- Exportez le profil si vous souhaitez le partager.
3. Créer une histoire
- Glissez le nouveau profil sur la timeline.
- Tapez votre script ou copiez depuis un document.
- Utilisez Batch Generation pour synthétiser le script complet.
- Organisez les clips, coupez, et mixez avec les outils de timeline.
- Exportez le mix final.
Cas d’usage où Voicebox excelle
| Cas d’usage | Pourquoi Voicebox fonctionne | Exemple d’application |
|---|---|---|
| Production podcast | Édition complète de timeline, auto‑mélange, confidentialité locale | Enregistrer l’hôte avec clonage vocal, mélanger automatiquement les invités |
| Dialogues de jeux | Génération batch de lignes de dialogues pour de nombreux personnages | Dialogues NPCs avec voix uniques, re‑génération instantanée |
| Outils d’accessibilité | Synthèse hors‑ligne pour les malvoyants | Lecteur d’écran ou livres audio sur‑appareil |
| Assistant vocal | Intégration d’API locale à faible latence | Créer un assistant personnalisé qui ne fuit jamais de données |
| Automatisation de contenu | Génération automatique de narrations pour vidéos | Produire des voix off pour des vidéos explicatives à grande échelle |
Étendre Voicebox
- Système de plugin : Ajoutez de nouveaux modèles vocaux (par ex. XTTS, Bark) ou effets audio comme des paquets Tauri séparés.
- Compagnon mobile : Les plans futurs incluent une application mobile pour contrôler une instance de Voicebox de bureau via LAN.
- Synthèse en temps réel : Une fonctionnalité à venir diffusera l’audio généré dès qu’il sera produit, permettant des performances live.
Communauté & contribution
Voicebox est conçu pour être accueillant et ouvert :
- Contribution : Les pull‑requests sont les bienvenues ; consultez
CONTRIBUTING.mdpour la configuration. - Sécurité : Suivez
SECURITY.mdpour signaler les problèmes de façon responsable. - Releases : Les nouvelles versions stables sont publiées sur GitHub Releases.
- Docs : Des docs API complètes sont disponibles sur
http://localhost:8000/docslorsqu’il est exécuté.
Résumé
Voicebox transforme un ordinateur portable en studio vocal professionnel, respectant la vie privée. Que vous soyez développeur de jeux, podcasteur ou créateur d’outils d’accessibilité, vous n’avez plus besoin de dépendre de services cloud coûteux. Lancez‑vous dès aujourd’hui, fork le dépôt GitHub, et commencez à créer des expériences vocales qui restent sous votre contrôle.