AI‑Video‑Transcriber: AIで任意の動画を文字起こし&要約
AI‑Video‑Transcriber – AIで任意の動画を文字起こし&要約
動画コンテンツがあらゆる場所に存在する今日、YouTubeのチュートリアルからTikTokの短編動画まで、話し言葉を検索可能で読みやすいテキストに迅速に変換できる機能が不可欠です。キャプションを作成したいコンテンツ制作者、インタビューを調査する研究者、あるいは新しいメディアプラットフォームを構築している開発者にとって、数十の動画サイトと数十の言語をサポートする信頼性の高いオープンソースソリューションが必要です。
AI‑Video‑Transcriber をご紹介
AI‑Video‑Transcriber は、動画URLを入力するとメディアをダウンロードし、最先端の Whisper モデルで正確な音声認識を実行し、転写を洗練させ、選択した言語で簡潔かつ構成された要約を生成する、すぐにデプロイ可能なAIアシスタントです。FastAPI をバックエンドに持つウェブUIで、ノートパソコンや Docker コンテナ上で簡単に動作します。
主な機能
- 🔄 yt‑dlp を通じて 30 以上の動画プラットフォーム(YouTube、TikTok、Bilibili、Facebook、Instagram、Twitter など)に対応
- 🎤 Faster‑Whisper を使用した正確な文字起こし。モデルサイズ(tiny、base、small、medium、large)を選択可能
- ✍️ タイポ修正、文の補完、段落分割の自動機能
- 🗣️ 多言語要約(英語、中国語、日本語、韓国語、スペイン語、フランス語、ドイツ語、ポルトガル語、ロシア語、アラビア語など)
- 🔤 要約対象言語が音声言語と異なる場合、GPT‑4o による自動翻訳
- 📱 モバイルフレンドリーなインターフェースとリアルタイム進捗フィードバック
- ⚙️ Docker 対応、または簡易シェルスクリプトでのインストールも可能
- 📦 Apache‑2.0 ライセンスのオープンソース。フォーク・修正・再配布が自由
なぜこのツールが優れているのか
| Criteria | AI‑Video‑Transcriber | Competitors | Notes |
|---|---|---|---|
| Open‑source | ✔️ | Mixed (mostly closed) | ベンダーへのロックインなし |
| Multi‑platform | ✔️ | Varies | yt‑dlp のプラグインエコシステムを活用 |
| Speed/accuracy | Fast‑Whisper モデル | Google Speech‑to‑Text | 精度は同等、コストは低い |
| Language coverage | 100+ via Whisper | Limited | グローバルチーム向けに最適 |
| Summarization | GPT‑4o 代替 | OpenAI API のみ | AI 要約で価値追加 |
| Deployment | Docker & CLI | Docker or manual | 環境設定を簡素化 |
クイックスタートガイド
ツールを起動する方法は3種類あります。
1. 自動シェルインストール
# リポジトリをクローン
git clone https://github.com/wendy7756/AI-Video-Transcriber.git
cd AI-Video-Transcriber
# インストールスクリプトを実行可能にする
chmod +x install.sh
# 実行
./install.sh
http://localhost:8000 で FastAPI サーバーを起動します。
2. Docker Composeでデプロイ
# リポジトリをクローン
git clone https://github.com/wendy7756/AI-Video-Transcriber.git
cd AI-Video-Transcriber
# 環境変数テンプレートをコピーしてキーを設定
cp .env.example .env
# .env を編集し OPENAI_API_KEY を設定
# サービスを起動
docker-compose up -d
.env 内の WHISPER_MODEL_SIZE を調整することで、速度とメモリのバランスをとれます。
3. 手動インストール
# 仮想環境を作成(macOSまたはLinux)
python3 -m venv venv
source venv/bin/activate
pip install -r requirements.txt
# FFmpeg をインストール
brew install ffmpeg # macOS
# または
sudo apt update && sudo apt install ffmpeg
# サーバーを起動
python3 start.py
ヒント: 長い動画(30 分超)では、
--prodを付けてサーバーを起動するとSSEの切断を防げます。
python3 start.py --prod
背景の仕組み
flowchart TD
A[ユーザーが動画URLを入力] --> B[yt‑dlp が動画をダウンロード]
B --> C[ffmpeg が音声を抽出]
C --> D[Fast-Whisper が文字起こし]
D --> E[テキストの最適化(タイプミス修正・文の補完)]
E --> F[OpenAI GPT-4o による要約や翻訳]
F --> G[Web UI に結果とダウンロードリンクを表示]
- yt‑dlp: 200 以上のメディアサイトを扱い、広範囲に対応しています。
- Faster‑Whisper: 軽量で GPU フレンドリーな音声モデルです。
- OpenAI GPT‑4o: コンテキストに応じたクリーニング、パラフレーズ、要約生成を行います。
- FastAPI: バックエンドとフロントエンド双方で低レイテンシの REST エンドポイントを提供します。
よくある質問
Q: このプログラムは無料で使えますか? A: はい、ツールは Apache‑2.0 ライセンスのオープンソースです。唯一の費用は、要約や翻訳に使うオプションの OpenAI API キーです。
Q: 私の要約は別の言語になっています—翻訳はできますか? A: はい。選択した要約言語が検出された転写言語と異なる場合、UI は GPT‑4o を使用して自動的に翻訳された転写を生成します。
Q: ラップトップで転写が遅いのですが、どうすれば?
A: Whisper のモデルサイズを tiny か base に減らします。あるいは GPU 搭載機で Docker を実行してください。
Q: 500 エラーが出ました—理由は?
A: ほとんどの場合、環境の問題です。FFmpeg がインストールされているか、仮想環境がアクティブか、そして有効な OPENAI_API_KEY が設定されているか確認してください。docker logs やコンソール出力でログを確認。
Q: メモリはどれくらい必要ですか? A: 基本 Docker イメージは約128 MB。転写中は動画長とモデルサイズにより0.5–2 GB。大規模利用の場合はコンテナに少なくとも4 GBの RAM を割り当ててください。
パフォーマンスヒント
| Action | Impact |
|---|---|
| Tiny or base Whisper モデルを使用 | より高速、メモリ消費が少ない |
| GPU にモデルをオフロード | 転写速度が劇的に向上 |
プロダクションモード (--prod) で実行 |
長時間タスクの SSE 接続を維持 |
Docker のメモリ制限 (-m 1g) |
メモリ不足のクラッシュを防止 |
| 高速ネットワークを使用 | 動画ダウンロード速度が向上 |
コントリビューション
コミュニティへの貢献を歓迎します! Whisper の新しい方言の追加やフロントエンド UX の改善、Docker イメージの最適化など、すべてのプルリクエストを歓迎します。
- リポジトリを fork します。
- フィーチャーブランチを作成します:
git checkout -b feature/your-awesome-idea。 - コミットしてプッシュします。
- プルリクエストを開きます。
また、バグや機能リクエスト、ドキュメントの改善提案の issue を立ててください。
締めくくり
AI‑Video‑Transcriber は、あらゆる動画から音声を抽出し、クリアで要約されたテキストに変換する、オープンソースでクロスプラットフォームに対応した最新AIを応用したツールです。プロプライエタリなダッシュボードやペイウォールはありません。リンクをコピー&ペーストし、言語を選択して AI に任せるだけです。コードを取得し、数分で起動し、転写を始めましょう。
リンク
- リポジトリ: https://github.com/wendy7756/AI-Video-Transcriber
- Docker Hub: https://hub.docker.com/r/ai-video-transcriber
- ドキュメント: https://github.com/wendy7756/AI-Video-Transcriber#readme