AI‑Video‑Transcriber:用 AI 转录并摘要任何视频

AI‑Video‑Transcriber – 用 AI 转录并摘要任何视频

在视频内容无处不在的时代——从 YouTube 教学视频到 TikTok 短视频——快速将口语内容转为可检索、可阅读的文本已成为不可或缺的能力。无论你是想草拟字幕的内容创作者、正在挖掘采访资料的研究员,还是正在构建新媒体平台的开发者,你都需要一款可靠的开源解决方案,支持数十个视频网站和数十种语言。

认识 AI‑Video‑Transcriber

AI‑Video‑Transcriber 是一款即插即用的 AI 助手,输入视频 URL 后,它会下载媒体,使用最先进的 Whisper 模型进行精准语音转文字,细化转录文本,最终以你选择的语言生成简洁、结构良好的摘要。所有操作均在 FastAPI 支持的 Web UI 中完成,既可轻松在笔记本上运行,也可在 Docker 容器中无缝部署。

主要功能

  • 🔄 通过 yt‑dlp 支持 30+ 视频平台(YouTube、TikTok、Bilibili、Facebook、Instagram、Twitter 等)
  • 🎤 使用可选模型尺寸(tiny、base、small、medium、large)的 Faster‑Whisper 进行精准转录
  • ✍️ 自动修正错字、补全句子、段落化
  • 🗣️ 提供多语言摘要(英文、中文、日语、韩语、西班牙语、法语、德语、葡萄牙语、俄语、阿拉伯语等)
  • 🔤 当请求的摘要语种与源语言不同时时自动使用 GPT‑4o 进行翻译
  • 📱 移动友好的界面和实时进度反馈
  • ⚙️ 支持 Docker 一键安装,或使用简单 shell 脚本手动安装
  • 📦 按 Apache‑2.0 许可开源——可自由 fork、修改和重新分发

该工具的独特之处

标准 AI‑Video‑Transcriber 竞争对手 备注
开源 ✔️ 混合(大多为闭源) 没有供应商锁定
多平台 ✔️ 参差不齐 利用 yt‑dlp 的插件生态
速度/准确性 Faster‑Whisper 模型 Google Speech‑to‑Text 准确度相当,成本更低
语言覆盖 100+ 通过 Whisper 有限 适用于全球团队
摘要 GPT‑4o 回退机制 仅 OpenAI API 通过 AI 摘要增加价值
部署 Docker 与 CLI Docker 或手动 简化环境搭建

快速入门指南

你有三种方式来启动此工具。

1. 自动 Shell 安装

# 克隆仓库
git clone https://github.com/wendy7756/AI-Video-Transcriber.git
cd AI-Video-Transcriber

# 让安装脚本可执行
chmod +x install.sh

# 运行脚本
./install.sh
脚本会安装 Python 依赖,设置虚拟环境,并下载 FFmpeg(如果缺失)。随后会在 http://localhost:8000 启动 FastAPI 服务器。

2. 通过 Docker Compose 部署

# 克隆仓库
git clone https://github.com/wendy7756/AI-Video-Transcriber.git
cd AI-Video-Transcriber

# 复制环境模板并设置你的 API key
cp .env.example .env
# 编辑 .env 并设置 OPENAI_API_KEY

# 启动服务
docker-compose up -d
你可以在 .env 里调整 WHISPER_MODEL_SIZE,以权衡速度与内存。

3. 手动安装

# 创建虚拟环境(macOS 或 Linux)
python3 -m venv venv
source venv/bin/activate
pip install -r requirements.txt

# 安装 FFmpeg
brew install ffmpeg   # macOS
# 或者
sudo apt update && sudo apt install ffmpeg

# 运行服务器
python3 start.py

小贴士:对于长视频(>30 min),请使用 --prod 启动服务器,以防 SSE 断连:

python3 start.py --prod

工作原理(底层)

flowchart TD
    A[用户输入视频 URL] --> B[yt‑dlp 下载视频]
    B --> C[ffmpeg 提取音频]
    C --> D[Fast‑Whisper 转写]
    D --> E[文本优化器(错字/纠正)]
    E --> F[OpenAI GPT‑4o 进行摘要或翻译]
    F --> G[Web UI 展示结果 & 下载链接]
  • yt‑dlp:支持 200+ 媒体站点,覆盖面广。
  • Faster‑Whisper:轻量、GPU 友好的语音模型。
  • OpenAI GPT‑4o:提供语境感知清理、改写与摘要生成。
  • FastAPI:为后端与前端提供低延迟 REST 接口。

常见问题

Q: 这个程序是免费的吗?

A:该工具按 Apache‑2.0 许可证开源,唯一成本是可选的 OpenAI API 金额(用于摘要与翻译)。

Q: 我的摘要是另一种语言—可以翻译吗?

A:可以。如果选定的摘要语言与检测到的源语言不同,UI 会自动使用 GPT‑4o 生成翻译文本。

Q: 我的笔记本上转写很慢——该怎么办?

A:将 Whisper 模型降级为 tinybase。或者在带 GPU 的机器上通过 Docker 运行。

Q: 发生 500 错误—原因是什么?

A:通常是环境问题。确保已安装 FFmpeg、虚拟环境已激活,且已设置有效的 OPENAI_API_KEY。使用 docker logs 或终端输出查看日志。

Q: 需要多少内存?

A:基础 Docker 镜像约 128 MB。转写时,根据视频时长和模型大小需求 0.5–2 GB。高负载时请给容器至少 4 GB RAM。

性能小贴士

操作 影响
采用 tinybase Whisper 模型 更快、占内存更少
将模型推到 GPU 速度显著提升
在生产模式下运行 (--prod) 在长任务中保持 SSE 连接
限制 Docker 记忆 (-m 1g) 防止内存溢出
使用高速网络 视频下载更快

贡献指南

我们欢迎社区贡献!无论是添加新的 Whisper 方言、改进前端 UX,还是优化 Docker 镜像,所有 Pull Request 均受到欢迎。

  1. Fork 本仓库。
  2. 创建功能分支:git checkout -b feature/your-awesome-idea
  3. 提交并推送。
  4. 发起 Pull Request。

如果你遇到 Bug、功能请求或文档建议,也请随时创建 Issue。

结束语

AI‑Video‑Transcriber 使任何人都能将任何视频的音频转化为干净、精简的文字——全开源、跨平台、由最新 AI 驱动。无需专有仪表盘、无需付费墙——只需复制链接、选择语言,让 AI 助你完成繁重工作。点开代码,30 分钟内即可运行,开始转写吧。

原创文章: 查看原文

分享本文