AI‑Video‑Transcriber:用 AI 转录并摘要任何视频
AI‑Video‑Transcriber – 用 AI 转录并摘要任何视频
在视频内容无处不在的时代——从 YouTube 教学视频到 TikTok 短视频——快速将口语内容转为可检索、可阅读的文本已成为不可或缺的能力。无论你是想草拟字幕的内容创作者、正在挖掘采访资料的研究员,还是正在构建新媒体平台的开发者,你都需要一款可靠的开源解决方案,支持数十个视频网站和数十种语言。
认识 AI‑Video‑Transcriber
AI‑Video‑Transcriber 是一款即插即用的 AI 助手,输入视频 URL 后,它会下载媒体,使用最先进的 Whisper 模型进行精准语音转文字,细化转录文本,最终以你选择的语言生成简洁、结构良好的摘要。所有操作均在 FastAPI 支持的 Web UI 中完成,既可轻松在笔记本上运行,也可在 Docker 容器中无缝部署。
主要功能
- 🔄 通过 yt‑dlp 支持 30+ 视频平台(YouTube、TikTok、Bilibili、Facebook、Instagram、Twitter 等)
- 🎤 使用可选模型尺寸(tiny、base、small、medium、large)的 Faster‑Whisper 进行精准转录
- ✍️ 自动修正错字、补全句子、段落化
- 🗣️ 提供多语言摘要(英文、中文、日语、韩语、西班牙语、法语、德语、葡萄牙语、俄语、阿拉伯语等)
- 🔤 当请求的摘要语种与源语言不同时时自动使用 GPT‑4o 进行翻译
- 📱 移动友好的界面和实时进度反馈
- ⚙️ 支持 Docker 一键安装,或使用简单 shell 脚本手动安装
- 📦 按 Apache‑2.0 许可开源——可自由 fork、修改和重新分发
该工具的独特之处
| 标准 | AI‑Video‑Transcriber | 竞争对手 | 备注 |
|---|---|---|---|
| 开源 | ✔️ | 混合(大多为闭源) | 没有供应商锁定 |
| 多平台 | ✔️ | 参差不齐 | 利用 yt‑dlp 的插件生态 |
| 速度/准确性 | Faster‑Whisper 模型 | Google Speech‑to‑Text | 准确度相当,成本更低 |
| 语言覆盖 | 100+ 通过 Whisper | 有限 | 适用于全球团队 |
| 摘要 | GPT‑4o 回退机制 | 仅 OpenAI API | 通过 AI 摘要增加价值 |
| 部署 | Docker 与 CLI | Docker 或手动 | 简化环境搭建 |
快速入门指南
你有三种方式来启动此工具。
1. 自动 Shell 安装
# 克隆仓库
git clone https://github.com/wendy7756/AI-Video-Transcriber.git
cd AI-Video-Transcriber
# 让安装脚本可执行
chmod +x install.sh
# 运行脚本
./install.sh
http://localhost:8000 启动 FastAPI 服务器。
2. 通过 Docker Compose 部署
# 克隆仓库
git clone https://github.com/wendy7756/AI-Video-Transcriber.git
cd AI-Video-Transcriber
# 复制环境模板并设置你的 API key
cp .env.example .env
# 编辑 .env 并设置 OPENAI_API_KEY
# 启动服务
docker-compose up -d
.env 里调整 WHISPER_MODEL_SIZE,以权衡速度与内存。
3. 手动安装
# 创建虚拟环境(macOS 或 Linux)
python3 -m venv venv
source venv/bin/activate
pip install -r requirements.txt
# 安装 FFmpeg
brew install ffmpeg # macOS
# 或者
sudo apt update && sudo apt install ffmpeg
# 运行服务器
python3 start.py
小贴士:对于长视频(>30 min),请使用
--prod启动服务器,以防 SSE 断连:python3 start.py --prod
工作原理(底层)
flowchart TD
A[用户输入视频 URL] --> B[yt‑dlp 下载视频]
B --> C[ffmpeg 提取音频]
C --> D[Fast‑Whisper 转写]
D --> E[文本优化器(错字/纠正)]
E --> F[OpenAI GPT‑4o 进行摘要或翻译]
F --> G[Web UI 展示结果 & 下载链接]
- yt‑dlp:支持 200+ 媒体站点,覆盖面广。
- Faster‑Whisper:轻量、GPU 友好的语音模型。
- OpenAI GPT‑4o:提供语境感知清理、改写与摘要生成。
- FastAPI:为后端与前端提供低延迟 REST 接口。
常见问题
Q: 这个程序是免费的吗?
A:该工具按 Apache‑2.0 许可证开源,唯一成本是可选的 OpenAI API 金额(用于摘要与翻译)。
Q: 我的摘要是另一种语言—可以翻译吗?
A:可以。如果选定的摘要语言与检测到的源语言不同,UI 会自动使用 GPT‑4o 生成翻译文本。
Q: 我的笔记本上转写很慢——该怎么办?
A:将 Whisper 模型降级为
tiny或base。或者在带 GPU 的机器上通过 Docker 运行。
Q: 发生 500 错误—原因是什么?
A:通常是环境问题。确保已安装 FFmpeg、虚拟环境已激活,且已设置有效的
OPENAI_API_KEY。使用docker logs或终端输出查看日志。
Q: 需要多少内存?
A:基础 Docker 镜像约 128 MB。转写时,根据视频时长和模型大小需求 0.5–2 GB。高负载时请给容器至少 4 GB RAM。
性能小贴士
| 操作 | 影响 |
|---|---|
采用 tiny 或 base Whisper 模型 |
更快、占内存更少 |
| 将模型推到 GPU | 速度显著提升 |
在生产模式下运行 (--prod) |
在长任务中保持 SSE 连接 |
限制 Docker 记忆 (-m 1g) |
防止内存溢出 |
| 使用高速网络 | 视频下载更快 |
贡献指南
我们欢迎社区贡献!无论是添加新的 Whisper 方言、改进前端 UX,还是优化 Docker 镜像,所有 Pull Request 均受到欢迎。
- Fork 本仓库。
- 创建功能分支:
git checkout -b feature/your-awesome-idea。 - 提交并推送。
- 发起 Pull Request。
如果你遇到 Bug、功能请求或文档建议,也请随时创建 Issue。
结束语
AI‑Video‑Transcriber 使任何人都能将任何视频的音频转化为干净、精简的文字——全开源、跨平台、由最新 AI 驱动。无需专有仪表盘、无需付费墙——只需复制链接、选择语言,让 AI 助你完成繁重工作。点开代码,30 分钟内即可运行,开始转写吧。