标记为: Speech Recognition
Content related to Speech Recognition
速语(Whisper):先进语音转文本技术
July 29, 2025
发现 Faster Whisper:一项开创性的开源项目,它利用 CTranslate2 实现高效精准的语音转文本转录。此重构版的 OpenAI Whisper 模型,可提升高达 4 倍的速度,同时减少内存占用,并针对 CPU 和 GPU 进行了量化优化。探索性能对比基准、各种环境下的安装指南以及实际使用示例,包括批量转录和 VAD 滤镜集成。了解 Faster Whisper 如何与其他社区项目集成,并查找关于转换您自有 Whisper 模型以获得更佳性能的说明。
Vosk: Offline Speech Recognition for Any Device
June 09, 2025
隆重推出 Vosk,一款开源的离线语音识别工具包,支持超过20种语言。Vosk 是开发者的理想选择,能与各种平台无缝集成,无论是在 Android、iOS、树莓派,还是服务器上,都能通过 Python、Java、C#、Node.js 等多种语言轻松驾驭。Vosk 模型体积小巧、延迟极低,并且词汇表可灵活配置,为各类应用提供了稳定可靠且注重隐私的语音转文本解决方案,从智能家居设备到转录服务,无所不能。快来探索 Vosk 如何为您的下一个项目注入强大的设备端语音能力,同时兼顾性能和隐私!