SpeechRecognition:终极 Python 语音转文本库

SpeechRecognition:终极 Python 语音转文本库

使用一个库将音频转换为文本

SpeechRecognition 是开发者构建语音应用时的首选 Python 库。拥有 9K+ GitHub 星标15+ 识别引擎 支持,它能处理从离线处理到企业级云 API 的一切。

支持的引擎(离线 + 在线)

离线引擎(无需互联网)

  • CMU Sphinx - 轻量级、可定制
  • Vosk API - 多语言、高准确率
  • OpenAI Whisper(本地) - 最先进的准确率
  • Faster Whisper - 优化性能
  • Snowboy - 热词检测

云 API(生产就绪)

  • OpenAI Whisper API
  • Groq Whisper API(超快)
  • Google Cloud Speech
  • Google Speech Recognition
  • Cohere Transcribe API
  • Microsoft Azure Speech
  • IBM Watson

🚀 快速开始(2 分钟)

pip install SpeechRecognition
python -m speech_recognition

麦克风示例:

import speech_recognition as sr

r = sr.Recognizer()
with sr.Microphone() as source:
    print("说点什么!")
    audio = r.listen(source)
    text = r.recognize_whisper(audio)
    print(f"你说:{text}")

📦 简单安装

# 核心库
pip install SpeechRecognition

# 支持麦克风
pip install SpeechRecognition[audio]

# 支持 Whisper(本地)
pip install SpeechRecognition[whisper-local]

# 支持 OpenAI API
pip install SpeechRecognition[openai]

# 支持 Cohere API
pip install SpeechRecognition[cohere-api]

实际应用案例

  1. 语音助手 - 命令处理
  2. 会议转录 - 自动会议记录
  3. 播客转录 - 音频转文本
  4. 辅助工具 - 听障人士的语音转文本
  5. IoT 设备 - 语音控制系统
  6. 呼叫中心分析 - 客户服务转录

最佳效果的专业提示

1. 环境噪音校准

r.adjust_for_ambient_noise(source)  # 自动校准
r.energy_threshold = 4000  # 微调灵敏度

2. 多个麦克风

for i, name in enumerate(sr.Microphone.list_microphone_names()):
    print(f"麦克风 {i}: {name}")
# 使用:Microphone(device_index=3)

3. 语言支持

# 英式英语、法语、普通话等
result = r.recognize_google(audio, language='en-GB')

常见问题排查

问题 解决方案
"无默认输入设备" 使用 device_index 参数
错误触发 增加 energy_threshold
准确率低 使用 Whisper/Vosk,校准噪音
Raspberry Pi 挂起 添加 USB 声卡

为什么选择 SpeechRecognition?

一个库,多引擎 - 无供应商锁定
离线 + 在线 - 处处可用 ✅ 经过实战检验 - 9K+ 星标,2.4K 分叉 ✅ 活跃维护 - 最新发布于 2026 年 4 月 ✅ 详尽文档 - 每个用例都有示例 ✅ 跨平台 - Windows/Mac/Linux/RPi

立即开始

pip install SpeechRecognition[audio,whisper-local]

GitHub 仓库 | PyPI | 文档

5 分钟内构建你的第一个语音应用!

原始文章: 查看原文

分享这篇文章