IA Voix & Audio | AIBit-Découvrez des projets open source

6 juin 2026

Miso TTS 8B : Un modèle de synthèse vocale open-source de haute qualité

Miso TTS 8B est un modèle de synthèse vocale open-source de pointe avec 8 milliards de paramètres, offrant une génération vocale très émotive et des capacités de clonage vocal.

24 mai 2026

Voice-Pro : Une suite audio et de doublage IA tout-en-un open-source

Voice-Pro est une puissante WebUI open-source basée sur Gradio qui intègre des outils de pointe de clonage vocal, de transcription et de traduction en un seul flux de travail.
21 mai 2026

OpenLess : L'outil de saisie vocale IA open-source pour les développeurs

Arrêtez de taper, commencez à parler. OpenLess est un outil multiplateforme axé sur la confidentialité qui transforme votre voix en texte structuré et optimisé par l'IA, directement à l'emplacement de votre curseur.
14 mai 2026

Supertonic : synthèse vocale multilingue ultra-rapide sur l'appareil

Découvrez Supertonic, un système de synthèse vocale open-source puissant qui apporte une synthèse vocale multilingue de haute qualité directement sur votre appareil. En tirant parti d'ONNX Runtime, Supertonic élimine le besoin d'API cloud, garantissant une confidentialité totale et des performances quasi instantanées. Que vous soyez un développeur travaillant avec Python, C++, Rust ou des technologies web, ce moteur léger offre un support de 31 langues et une précision de lecture supérieure pour les textes complexes. Découvrez comment ce modèle de 99 millions de paramètres surpasse les alternatives plus grandes en termes de vitesse et d'efficacité, ce qui en fait le choix idéal pour l'informatique en périphérie, les applications mobiles et les projets basés sur navigateur. Explorez l'avenir de la génération vocale locale, privée et ultra-rapide dès aujourd'hui.
12 avr. 2026

VoxCPM2 : TTS multilingue 2B avec clonage et conception de voix

Découvrez VoxCPM2, le modèle TTS sans tokenizer révolutionnaire à 2B paramètres supportant 30 langues avec un audio 48kHz de qualité studio. Créez des voix à partir de descriptions textuelles, clonez n'importe quel locuteur avec une fidélité parfaite, et atteignez des performances en temps réel (RTF 0.13 sur RTX 4090). Entièrement open-source sous Apache 2.0 avec API Python, CLI, démo web, fine-tuning LoRA et prêt pour le déploiement en production. Surpasse les modèles commerciaux sur les principaux benchmarks TTS.
9 avr. 2026

SpeechRecognition : La bibliothèque ultime Python pour la reconnaissance vocale vers texte

Découvrez SpeechRecognition, la bibliothèque Python la plus complète pour convertir la parole en texte. Supporte les moteurs hors ligne comme CMU Sphinx, Vosk et OpenAI Whisper, plus les API cloud de Google, OpenAI, Groq et Cohere. Installez avec une seule commande pip et commencez à transcrire l'entrée microphone ou les fichiers audio instantanément. Parfait pour les assistants vocaux, applications de transcription et enregistreurs de réunions. Inclut des guides de configuration détaillés pour PyAudio, PocketSphinx et astuces de dépannage.
15 mars 2026

VoiceChanger : Conversion vocale en temps réel open-source

Découvrez comment VoiceChanger vous permet de transformer la parole instantanément grâce à des modèles IA de pointe tels que Beatrice et RVC. Ce projet open-source dispose d’une interface graphique multiplateforme, d’une prise en charge Docker, d’un mode réseau et de tutoriels pour Linux AMD et Google Colab. Que vous soyez développeur de jeux, streamer ou amateur, apprenez à installer, configurer et mettre à jour le logiciel en quelques minutes et explorez le monde passionnant de la manipulation vocale en temps réel.
15 mars 2026

VibeVoice : la suite d'IA vocale open-source de Microsoft

Explorez VibeVoice, l'outil open-source de pointe de Microsoft qui apporte la reconnaissance vocale longue (ASR), la synthèse vocale multi-voix (TTS) et le streaming en temps réel aux développeurs et chercheurs. Découvrez comment exploiter son pipeline ASR de 60 minutes, son TTS de 90 minutes, et son modèle en temps réel léger, ainsi que son intégration avec Hugging Face Transformers pour un déploiement sans effort.
13 mars 2026

RCLI : Assistant vocal IA sur l’appareil pour macOS – Zero‑Cloud, Rapide

RCLI transforme votre Mac en un assistant vocal entièrement local et en explorateur de documents. Propulsé par le moteur GPU MetalRT d’Apple Silicon, il exécute un STT, un LLM et un TTS à la pointe de la technologie en local – sans cloud, sans clés API. Découvrez comment l’installer avec Homebrew, contrôler 38 actions macOS, intégrer des PDF avec un RAG en moins de 4 ms, et tester MetalRT contre llama.cpp. Que vous soyez développeur, utilisateur avancé ou passionné d’IA, RCLI offre l’IA locale la plus avancée sur votre bureau avec un minimum de configuration. Découvrez pourquoi ce dépôt est un incontournable pour toute personne construisant des outils macOS basés sur la voix.
11 mars 2026

LiveTalking : Humain numérique IA en temps réel avec synchronisation labiale

Découvrez LiveTalking, la puissance open source pour créer des humains numériques interactifs en temps réel. Ce projet Python prend en charge plusieurs modèles (wav2lip, musetalk, ernerf) avec clonage vocal, streaming WebRTC et gestion des interruptions. Déployez via Docker, exécutez sur GPU avec des performances de 60+ FPS, et créez des avatars parlants de qualité commerciale. Parfait pour les streamers, éducateurs et développeurs IA à la recherche de solutions de synchronisation labiale prêtes pour la production.
12 févr. 2026

Construisez une reconnaissance vocale en temps réel en Rust avec Voxtral Mini

Découvrez comment transformer un modèle open‑source de 4 B paramètres en un reconnaisseur vocal léger, sans dépendances, qui s'exécute nativement sur votre machine ou directement dans le navigateur. Ce guide couvre les compilations Rust, WASM/WebGPU, la quantification du modèle et les démonstrations en direct—libérant une transcription haute performance et basse latence avec seulement quelques commandes.
10 févr. 2026

Faster Whisper ChickenRice : Transcription japonais‑vers‑chinois

Découvrez ChickenRice, un outil open‑source, accéléré par GPU, de transcription et traduction sur la base de Faster Whisper. Il convertit l’audio ou la vidéo japonais directement en sous‑titres chinois aux formats SRT, VTT ou LRC, avec une inférence cloud optionnelle via Modal. Apprenez à installer, choisir la bonne version CUDA, exécuter des scripts bat locaux ou lancer Modal pour les environnements sans GPU, et personnaliser la sortie avec des paramètres avancés – tout en conservant des performances de premier plan et une licence MIT.