Speech Recognition - 开源项目

SpeechRecognition：终极 Python 语音转文本库

April 09, 2026

标签:

Open Source Speech Recognition Python Library Speech-to-Text Whisper

发现 SpeechRecognition，这是最全面的 Python 语音转文本库。支持离线引擎如 CMU Sphinx、Vosk 和 OpenAI Whisper，以及来自 Google、OpenAI、Groq 和 Cohere 的云 API。只需一个 pip 命令即可安装，即可立即转录麦克风输入或音频文件。完美适用于语音助手、转录应用和会议录音器。包含 PyAudio、PocketSphinx 的详细设置指南和故障排除提示。

阅读更多原始

实用开源项目

Moonshine Voice：更快的边缘设备 Whisper 替代方案

March 03, 2026

标签:

Speech Recognition On-device AI Moonshine Voice Real-time Voice Open Source ASR

探索 Moonshine Voice，这个革命性实时语音应用的开源 AI 工具包。在 iOS、Android、Python、Raspberry Pi 等平台完全设备端运行，比 Whisper Large V3 延迟更低，模型小至 26MB。完美适用于构建无需云端的响应式语音界面。只需 pip install 几分钟即可上手麦克风转录。

阅读更多原始

实用开源项目

用 Voxtral Mini 在 Rust 中构建实时语音识别

February 12, 2026

标签:

Speech Recognition Rust wasm voxtral burn

发现如何将 4B 参数、开源模型变为轻量级、无依赖的语音识别器，可在本机或浏览器本地运行。本指南涵盖 Rust 编译、WASM/WebGPU 打包、模型量化和实时演示—只需几条指令即可获得高性能、低延迟转录。

阅读更多原始

实用开源项目

Qwen3‑ASR：阿里巴巴开源 52 语言 ASR 模型

January 31, 2026

标签:

Open Source Speech Recognition Alibaba ASR Multilingual

阿里云最新发布的 Qwen3‑ASR 将最先进的多语言语音识别技术带入开源社区。支持 52 种语言和 22 种中文方言，1.7B/0.6B 两个模型在基准测试中表现优异，足以与商业 API 一较高下。本仓库配备完整的推理工具包，兼容 Transformers 或高性能 vLLM 后端，支持 Qwen3‑ForcedAligner 自动时间戳，并提供即跑的 Gradio 演示。无论你是研究员、开发者还是业余爱好者，本指南将引导你完成下载、配置、基准测试以及在 Docker 或直接在 GPU 上部署 Qwen3‑ASR，让你轻松开始转录语音、音乐和歌曲。主要亮点： - 多语言支持 - 流式推理 - 强制对齐 - 快速启动脚本 - Docker 部署 - 与 OpenAI 兼容的 API 集成

阅读更多原始

实用开源项目

速语（Whisper）：先进语音转文本技术

July 29, 2025

标签:

Open Source Speech Recognition AI Transcription CTranslate2

发现 Faster Whisper：一项开创性的开源项目，它利用 CTranslate2 实现高效精准的语音转文本转录。此重构版的 OpenAI Whisper 模型，可提升高达 4 倍的速度，同时减少内存占用，并针对 CPU 和 GPU 进行了量化优化。探索性能对比基准、各种环境下的安装指南以及实际使用示例，包括批量转录和 VAD 滤镜集成。了解 Faster Whisper 如何与其他社区项目集成，并查找关于转换您自有 Whisper 模型以获得更佳性能的说明。

阅读更多原始

实用开源项目

Vosk: Offline Speech Recognition for Any Device

June 09, 2025

标签:

Open Source Developer Tools Vosk Speech Recognition Offline AI

隆重推出 Vosk，一款开源的离线语音识别工具包，支持超过20种语言。Vosk 是开发者的理想选择，能与各种平台无缝集成，无论是在 Android、iOS、树莓派，还是服务器上，都能通过 Python、Java、C#、Node.js 等多种语言轻松驾驭。Vosk 模型体积小巧、延迟极低，并且词汇表可灵活配置，为各类应用提供了稳定可靠且注重隐私的语音转文本解决方案，从智能家居设备到转录服务，无所不能。快来探索 Vosk 如何为您的下一个项目注入强大的设备端语音能力，同时兼顾性能和隐私！

阅读更多原始

分类

标记为的帖子: Speech Recognition

SpeechRecognition：终极 Python 语音转文本库

Moonshine Voice：更快的边缘设备 Whisper 替代方案

用 Voxtral Mini 在 Rust 中构建实时语音识别

Qwen3‑ASR：阿里巴巴开源 52 语言 ASR 模型

速语（Whisper）：先进语音转文本技术

Vosk: Offline Speech Recognition for Any Device