分类
- 所有帖子 552
- 实用开源项目 479
- 教程文章 22
- 在线工具 13
- AI 新闻 7
- Tiny Startups Showcase 7
- Claude Code Skills 6
- 提示模板 5
- Hugging Face Spaces 3
- OpenClaw Use Cases 3
- LLM Learning Resources 1
- Online AI Image Tools 1
- OpenClaw Master Skills Collection 1
- Rust Training Resources 1
- AI Short Drama Tools 1
- AI Image Generate Maker 1
- Linux Security Vulnerabilities 1
- 我的收藏 0
标记为的帖子: Multilingual
Content related to Multilingual
VoxCPM2:2B多语言TTS,支持语音克隆与设计
发现VoxCPM2,这款开创性的2B参数无分词器TTS模型,支持30种语言,提供录音棚品质的48kHz音频。从文本描述创建语音,完美保真克隆任意说话人,实现实时性能(RTX 4090上RTF 0.13)。完全开源,Apache 2.0许可,提供Python API、CLI、Web Demo、LoRA微调和生产部署就绪。在主要TTS基准测试中超越商业模型。
EasyOCR:一款快速、多语言 OCR 库,适用于 Python
EasyOCR 带来 80+ 语言支持,直接嵌入您的 Python 项目。只需快速 pip 安装、轻量级模型下载以及直观的 API,即可在数秒内从图像中提取文本。本指南涵盖从基础使用和自定义语言集到 Docker 部署和 Hugging Face Space 集成的一切内容。无论您是在构建照片管理工具还是数据录入流水线,EasyOCR 都能为您提供所需的速度与准确性。
Qwen3‑ASR:阿里巴巴开源 52 语言 ASR 模型
阿里云最新发布的 Qwen3‑ASR 将最先进的多语言语音识别技术带入开源社区。支持 52 种语言和 22 种中文方言,1.7B/0.6B 两个模型在基准测试中表现优异,足以与商业 API 一较高下。本仓库配备完整的推理工具包,兼容 Transformers 或高性能 vLLM 后端,支持 Qwen3‑ForcedAligner 自动时间戳,并提供即跑的 Gradio 演示。无论你是研究员、开发者还是业余爱好者,本指南将引导你完成下载、配置、基准测试以及在 Docker 或直接在 GPU 上部署 Qwen3‑ASR,让你轻松开始转录语音、音乐和歌曲。 主要亮点: - 多语言支持 - 流式推理 - 强制对齐 - 快速启动脚本 - Docker 部署 - 与 OpenAI 兼容的 API 集成