Multilingual - 开源项目

VoxCPM2：2B多语言TTS，支持语音克隆与设计

April 12, 2026

标签:

Open Source tts Voice Cloning Multilingual Voice Design

发现VoxCPM2，这款开创性的2B参数无分词器TTS模型，支持30种语言，提供录音棚品质的48kHz音频。从文本描述创建语音，完美保真克隆任意说话人，实现实时性能（RTX 4090上RTF 0.13）。完全开源，Apache 2.0许可，提供Python API、CLI、Web Demo、LoRA微调和生产部署就绪。在主要TTS基准测试中超越商业模型。

阅读更多原始

实用开源项目

EasyOCR：一款快速、多语言 OCR 库，适用于 Python

March 15, 2026

标签:

Open Source Python OCR Multilingual easyocr

EasyOCR 带来 80+ 语言支持，直接嵌入您的 Python 项目。只需快速 pip 安装、轻量级模型下载以及直观的 API，即可在数秒内从图像中提取文本。本指南涵盖从基础使用和自定义语言集到 Docker 部署和 Hugging Face Space 集成的一切内容。无论您是在构建照片管理工具还是数据录入流水线，EasyOCR 都能为您提供所需的速度与准确性。

阅读更多原始

实用开源项目

Qwen3‑ASR：阿里巴巴开源 52 语言 ASR 模型

January 31, 2026

标签:

Open Source Speech Recognition Alibaba ASR Multilingual

阿里云最新发布的 Qwen3‑ASR 将最先进的多语言语音识别技术带入开源社区。支持 52 种语言和 22 种中文方言，1.7B/0.6B 两个模型在基准测试中表现优异，足以与商业 API 一较高下。本仓库配备完整的推理工具包，兼容 Transformers 或高性能 vLLM 后端，支持 Qwen3‑ForcedAligner 自动时间戳，并提供即跑的 Gradio 演示。无论你是研究员、开发者还是业余爱好者，本指南将引导你完成下载、配置、基准测试以及在 Docker 或直接在 GPU 上部署 Qwen3‑ASR，让你轻松开始转录语音、音乐和歌曲。主要亮点： - 多语言支持 - 流式推理 - 强制对齐 - 快速启动脚本 - Docker 部署 - 与 OpenAI 兼容的 API 集成

阅读更多原始

分类

标记为的帖子: Multilingual

VoxCPM2：2B多语言TTS，支持语音克隆与设计

EasyOCR：一款快速、多语言 OCR 库，适用于 Python

Qwen3‑ASR：阿里巴巴开源 52 语言 ASR 模型