Multilingual - Projets open source

VoxCPM2 : TTS multilingue 2B avec clonage et conception de voix

April 12, 2026

Étiquettes:

Open Source tts Voice Cloning Multilingual Voice Design

Découvrez VoxCPM2, le modèle TTS sans tokenizer révolutionnaire à 2B paramètres supportant 30 langues avec un audio 48kHz de qualité studio. Créez des voix à partir de descriptions textuelles, clonez n'importe quel locuteur avec une fidélité parfaite, et atteignez des performances en temps réel (RTF 0.13 sur RTX 4090). Entièrement open-source sous Apache 2.0 avec API Python, CLI, démo web, fine-tuning LoRA et prêt pour le déploiement en production. Surpasse les modèles commerciaux sur les principaux benchmarks TTS.

Lire plus Original

Projets Open Source Pratiques

EasyOCR : une bibliothèque OCR rapide et multilingue pour Python

March 15, 2026

Étiquettes:

Open Source Python OCR Multilingual easyocr

EasyOCR apporte la prise en charge de plus de 80 langues directement dans vos projets Python. Grâce à une simple installation pip, à des téléchargements de modèles légers et à une API intuitive, vous pouvez extraire du texte d’images en quelques secondes. Ce guide couvre tout, de l’utilisation de base et des ensembles linguistiques personnalisés à l’intégration Docker et au Hugging Face Space. Que vous développiez un outil de gestion de photos ou un pipeline d’entrée de données, EasyOCR vous offre la rapidité et la précision dont vous avez besoin.

Lire plus Original

Projets Open Source Pratiques

Qwen3‑ASR d'Alibaba Cloud est la toute dernière version à offrir une reconnaissance vocale multilingue de pointe au monde open‑source. Disponible en 52 langues et 22 dialectes chinois, les deux variantes 1.7B/0.6B excellent sur les benchmarks et rivalisent avec les API commerciales. Le dépôt fournit un kit d'inférence complet compatible avec Transformers ou le backend haute‑performance vLLM, un timestamping automatique via Qwen3‑ForcedAligner, ainsi qu'une démo Gradio prête à l'emploi. Que vous soyez chercheur, développeur ou passionné, ce guide vous conduit à travers le téléchargement, l'installation, l'évaluation et le déploiement de Qwen3‑ASR en Docker ou directement sur GPU, vous permettant de transcrire rapidement parole, musique et chansons.

January 31, 2026

Étiquettes:

Open Source Speech Recognition Alibaba ASR Multilingual

Points forts : support multilingue, inference en streaming, alignement forcé, scripts de démarrage rapide, déploiements Docker, et intégration API compatible OpenAI.

Lire plus Original

Catégories

Publications marquées avec: Multilingual

VoxCPM2 : TTS multilingue 2B avec clonage et conception de voix

EasyOCR : une bibliothèque OCR rapide et multilingue pour Python