Multilingual - Proyectos de código abierto

VoxCPM2: TTS multilingüe de 2B con clonación y diseño de voz

April 12, 2026

Etiquetas:

Open Source tts Voice Cloning Multilingual Voice Design

Descubre VoxCPM2, el innovador modelo TTS sin tokenizador de 2B parámetros que soporta 30 idiomas con audio de calidad de estudio a 48kHz. Crea voces desde descripciones de texto, clona cualquier hablante con fidelidad perfecta y logra rendimiento en tiempo real (RTF 0.13 en RTX 4090). Totalmente de código abierto bajo Apache 2.0 con API de Python, CLI, demo web, ajuste fino LoRA y listo para despliegue en producción. Supera a modelos comerciales en benchmarks TTS principales.

Leer más Original

Proyectos Prácticos de Código Abierto

EasyOCR: Una biblioteca OCR rápida y multilingüe para Python

March 15, 2026

Etiquetas:

Open Source Python OCR Multilingual easyocr

EasyOCR trae soporte para más de 80 idiomas directamente a tus proyectos Python. Con una rápida instalación vía pip, descargas de modelos ligeros y una API intuitiva, puedes extraer texto de imágenes en segundos. Esta guía cubre todo, desde el uso básico y conjuntos de idiomas personalizados hasta despliegue con Docker e integración con Hugging Face Space. Ya sea que estés construyendo una herramienta de gestión de fotos o una canalización de entrada de datos, EasyOCR te brinda la velocidad y precisión que necesitas.

Leer más Original

Proyectos Prácticos de Código Abierto

Qwen3-ASR: Modelo de ASR de 52 idiomas de código abierto de Alibaba

January 31, 2026

Etiquetas:

Open Source Speech Recognition Alibaba ASR Multilingual

El último lanzamiento de Alibaba Cloud, Qwen3‑ASR, aporta reconocimiento de voz multilingüe de última generación a la comunidad de código abierto. Con soporte para 52 idiomas y 22 dialectos chinos, los dos modelos 1.7B/0.6B destacan en pruebas comparativas y rivalizan con API comerciales. El repositorio incluye un conjunto completo de herramientas de inferencia que funcionan con transformers o el backend vLLM de alto rendimiento, marcas de tiempo automáticas mediante el Qwen3‑ForcedAligner y un demo Gradio listo para usar. Ya sea que seas investigador, desarrollador o aficionado, esta guía te muestra cómo descargar, instalar, evaluar y desplegar Qwen3‑ASR en Docker o directamente en GPU, para que puedas empezar a transcribir voz, música y canciones con facilidad. Puntos clave: soporte multilingüe, inferencia en streaming, alineación forzada, scripts de inicio rápido, despliegues en Docker y integración de API con endpoints compatibles con OpenAI.

Leer más Original

Categorías

Publicaciones etiquetadas con: Multilingual

VoxCPM2: TTS multilingüe de 2B con clonación y diseño de voz

EasyOCR: Una biblioteca OCR rápida y multilingüe para Python

Qwen3-ASR: Modelo de ASR de 52 idiomas de código abierto de Alibaba