Catégories
- Toutes les publications 549
- Projets Open Source Pratiques 478
- Articles Tutoriels 22
- Utilitaires en ligne 13
- Actualités IA 7
- Tiny Startups Showcase 7
- Claude Code Skills 6
- Modèles d'Invites 5
- Espaces Hugging Face 3
- OpenClaw Use Cases 3
- LLM Learning Resources 1
- Online AI Image Tools 1
- OpenClaw Master Skills Collection 1
- Rust Training Resources 1
- AI Short Drama Tools 1
- Mes favoris 0
Publications marquées avec: Speech Recognition
Content related to Speech Recognition
SpeechRecognition : La bibliothèque ultime Python pour la reconnaissance vocale vers texte
Découvrez SpeechRecognition, la bibliothèque Python la plus complète pour convertir la parole en texte. Supporte les moteurs hors ligne comme CMU Sphinx, Vosk et OpenAI Whisper, plus les API cloud de Google, OpenAI, Groq et Cohere. Installez avec une seule commande pip et commencez à transcrire l'entrée microphone ou les fichiers audio instantanément. Parfait pour les assistants vocaux, applications de transcription et enregistreurs de réunions. Inclut des guides de configuration détaillés pour PyAudio, PocketSphinx et astuces de dépannage.
Moonshine Voice : Alternative plus rapide à Whisper pour l'edge
Découvrez Moonshine Voice, la boîte à outils IA open-source qui révolutionne les applications vocales en temps réel. Fonctionnant entièrement sur appareil sur iOS, Android, Python, Raspberry Pi, et plus, il offre une latence inférieure à Whisper Large V3 avec des modèles aussi petits que 26 Mo. Parfait pour les développeurs construisant des interfaces vocales réactives sans dépendance cloud. Commencez en quelques minutes avec pip install et transcription microphone.
Construisez une reconnaissance vocale en temps réel en Rust avec Voxtral Mini
Découvrez comment transformer un modèle open‑source de 4 B paramètres en un reconnaisseur vocal léger, sans dépendances, qui s'exécute nativement sur votre machine ou directement dans le navigateur. Ce guide couvre les compilations Rust, WASM/WebGPU, la quantification du modèle et les démonstrations en direct—libérant une transcription haute performance et basse latence avec seulement quelques commandes.
Qwen3‑ASR d'Alibaba Cloud est la toute dernière version à offrir une reconnaissance vocale multilingue de pointe au monde open‑source. Disponible en 52 langues et 22 dialectes chinois, les deux variantes 1.7B/0.6B excellent sur les benchmarks et rivalisent avec les API commerciales. Le dépôt fournit un kit d'inférence complet compatible avec Transformers ou le backend haute‑performance vLLM, un timestamping automatique via Qwen3‑ForcedAligner, ainsi qu'une démo Gradio prête à l'emploi. Que vous soyez chercheur, développeur ou passionné, ce guide vous conduit à travers le téléchargement, l'installation, l'évaluation et le déploiement de Qwen3‑ASR en Docker ou directement sur GPU, vous permettant de transcrire rapidement parole, musique et chansons.
Points forts : support multilingue, inference en streaming, alignement forcé, scripts de démarrage rapide, déploiements Docker, et intégration API compatible OpenAI.
Whisper Plus : La transcription vocale avancée
Découvrez Faster Whisper, un projet open-source novateur qui exploite CTranslate2 pour une transcription vocale vers texte d'une grande efficacité et précision. Cette réimplémentation du modèle Whisper d'OpenAI offre jusqu'à 4 fois d'amélioration de la vitesse avec une utilisation réduite de la mémoire, optimisée pour le CPU et le GPU grâce à la quantification. Explorez les comparaisons de benchmarks, les guides d'installation pour divers environnements, et des exemples d'utilisation pratiques, incluant la transcription par lots et l'intégration du filtre VAD. Apprenez comment Faster Whisper s'intègre à d'autres projets communautaires et trouvez les instructions pour convertir vos propres modèles Whisper afin d'optimiser leurs performances.
Vosk : Reconnaissance vocale hors ligne pour tous les appareils
Découvrez Vosk, une boîte à outils de reconnaissance vocale hors ligne et open-source, compatible avec plus de 20 langues. Idéal pour les développeurs, Vosk s'intègre parfaitement sur diverses plateformes telles qu'Android, iOS, Raspberry Pi et les serveurs, en utilisant Python, Java, C#, Node.js, et bien plus encore. Grâce à la petite taille de ses modèles, sa faible latence et son vocabulaire reconfigurable, Vosk offre des solutions robustes et privées de transcription vocale pour des applications allant des appareils domestiques intelligents aux services de transcription. Explorez comment Vosk peut propulser votre prochain projet avec des capacités vocales efficaces et embarquées, sans compromettre la vie privée ni les performances.