AI‑Video‑Transcriber：用 AI 转录并摘要任何视频

January 16, 2026

类别: 实用开源项目

标签:

Open Source AI FastAPI Whisper Video Transcription

AI‑Video‑Transcriber – 用 AI 转录并摘要任何视频

在视频内容无处不在的时代——从 YouTube 教学视频到 TikTok 短视频——快速将口语内容转为可检索、可阅读的文本已成为不可或缺的能力。无论你是想草拟字幕的内容创作者、正在挖掘采访资料的研究员，还是正在构建新媒体平台的开发者，你都需要一款可靠的开源解决方案，支持数十个视频网站和数十种语言。

认识 AI‑Video‑Transcriber

AI‑Video‑Transcriber 是一款即插即用的 AI 助手，输入视频 URL 后，它会下载媒体，使用最先进的 Whisper 模型进行精准语音转文字，细化转录文本，最终以你选择的语言生成简洁、结构良好的摘要。所有操作均在 FastAPI 支持的 Web UI 中完成，既可轻松在笔记本上运行，也可在 Docker 容器中无缝部署。

主要功能

🔄 通过 yt‑dlp 支持 30+ 视频平台（YouTube、TikTok、Bilibili、Facebook、Instagram、Twitter 等）

🎤 使用可选模型尺寸（tiny、base、small、medium、large）的 Faster‑Whisper 进行精准转录

✍️ 自动修正错字、补全句子、段落化

🗣️ 提供多语言摘要（英文、中文、日语、韩语、西班牙语、法语、德语、葡萄牙语、俄语、阿拉伯语等）

🔤 当请求的摘要语种与源语言不同时时自动使用 GPT‑4o 进行翻译

📱 移动友好的界面和实时进度反馈

⚙️ 支持 Docker 一键安装，或使用简单 shell 脚本手动安装

📦 按 Apache‑2.0 许可开源——可自由 fork、修改和重新分发

该工具的独特之处

标准	AI‑Video‑Transcriber	竞争对手	备注
开源	✔️	混合（大多为闭源）	没有供应商锁定
多平台	✔️	参差不齐	利用 yt‑dlp 的插件生态
速度/准确性	Faster‑Whisper 模型	Google Speech‑to‑Text	准确度相当，成本更低
语言覆盖	100+ 通过 Whisper	有限	适用于全球团队
摘要	GPT‑4o 回退机制	仅 OpenAI API	通过 AI 摘要增加价值
部署	Docker 与 CLI	Docker 或手动	简化环境搭建

快速入门指南

你有三种方式来启动此工具。

1. 自动 Shell 安装

# 克隆仓库
git clone https://github.com/wendy7756/AI-Video-Transcriber.git
cd AI-Video-Transcriber

# 让安装脚本可执行
chmod +x install.sh

# 运行脚本
./install.sh

脚本会安装 Python 依赖，设置虚拟环境，并下载 FFmpeg（如果缺失）。随后会在 http://localhost:8000 启动 FastAPI 服务器。

2. 通过 Docker Compose 部署

# 克隆仓库
git clone https://github.com/wendy7756/AI-Video-Transcriber.git
cd AI-Video-Transcriber

# 复制环境模板并设置你的 API key
cp .env.example .env
# 编辑 .env 并设置 OPENAI_API_KEY

# 启动服务
docker-compose up -d

你可以在 .env 里调整 WHISPER_MODEL_SIZE，以权衡速度与内存。

3. 手动安装

# 创建虚拟环境（macOS 或 Linux）
python3 -m venv venv
source venv/bin/activate
pip install -r requirements.txt

# 安装 FFmpeg
brew install ffmpeg   # macOS
# 或者
sudo apt update && sudo apt install ffmpeg

# 运行服务器
python3 start.py

小贴士：对于长视频（>30 min），请使用 --prod 启动服务器，以防 SSE 断连：
python3 start.py --prod

工作原理（底层）

flowchart TD
    A[用户输入视频 URL] --> B[yt‑dlp 下载视频]
    B --> C[ffmpeg 提取音频]
    C --> D[Fast‑Whisper 转写]
    D --> E[文本优化器（错字/纠正）]
    E --> F[OpenAI GPT‑4o 进行摘要或翻译]
    F --> G[Web UI 展示结果 & 下载链接]

yt‑dlp：支持 200+ 媒体站点，覆盖面广。
Faster‑Whisper：轻量、GPU 友好的语音模型。
OpenAI GPT‑4o：提供语境感知清理、改写与摘要生成。
FastAPI：为后端与前端提供低延迟 REST 接口。

常见问题

Q: 这个程序是免费的吗？

A：该工具按 Apache‑2.0 许可证开源，唯一成本是可选的 OpenAI API 金额（用于摘要与翻译）。

Q: 我的摘要是另一种语言—可以翻译吗？

A：可以。如果选定的摘要语言与检测到的源语言不同，UI 会自动使用 GPT‑4o 生成翻译文本。

Q: 我的笔记本上转写很慢——该怎么办？

A：将 Whisper 模型降级为 tiny 或 base。或者在带 GPU 的机器上通过 Docker 运行。

Q: 发生 500 错误—原因是什么？

A：通常是环境问题。确保已安装 FFmpeg、虚拟环境已激活，且已设置有效的 OPENAI_API_KEY。使用 docker logs 或终端输出查看日志。

Q: 需要多少内存？

A：基础 Docker 镜像约 128 MB。转写时，根据视频时长和模型大小需求 0.5–2 GB。高负载时请给容器至少 4 GB RAM。

性能小贴士

操作	影响
采用 `tiny` 或 `base` Whisper 模型	更快、占内存更少
将模型推到 GPU	速度显著提升
在生产模式下运行 (`--prod`)	在长任务中保持 SSE 连接
限制 Docker 记忆 (`-m 1g`)	防止内存溢出
使用高速网络	视频下载更快

贡献指南

我们欢迎社区贡献！无论是添加新的 Whisper 方言、改进前端 UX，还是优化 Docker 镜像，所有 Pull Request 均受到欢迎。

Fork 本仓库。
创建功能分支：git checkout -b feature/your-awesome-idea。
提交并推送。
发起 Pull Request。

如果你遇到 Bug、功能请求或文档建议，也请随时创建 Issue。

结束语

AI‑Video‑Transcriber 使任何人都能将任何视频的音频转化为干净、精简的文字——全开源、跨平台、由最新 AI 驱动。无需专有仪表盘、无需付费墙——只需复制链接、选择语言，让 AI 助你完成繁重工作。点开代码，30 分钟内即可运行，开始转写吧。

原创文章: 查看原文

分享本文