Faster Whisper ChickenRice: 日本語→中国語文字起こし
ChickenRice – 強力なオープンソース日本語→中国語文字起こしツール
ビデオやポッドキャストが数十の言語で展開する世界で、正確かつ高速に字幕を自動生成できる機能は、手作業に費やす時間を何時間も節約できます。ChickenRice(Faster‑Whisper‑TransWithAI)は、すぐに使えるソリューションで、日本語の音声または映像を入力すると、SRT、VTT、LRC形式の中国語字幕を瞬時に生成します。高速なFaster Whisperエンジンをベースに、5,000時間の音声データで訓練された最適化済みの日本語→中国語モデルを駆動して、最先端の精度を実現します。
主な機能
| 機能 | 説明 |
|---|---|
| GPUアクセラレーション | CUDA 11.8、12.2、12.8 をサポート – NVIDIA RTXシリーズに最適です。 |
| バッチ推論 | 自動キャッシュ機能で、すでに処理済みのファイルをスキップしつつ、数十のファイルを一度に処理します。 |
| 音声最適化 VAD | TransWithAI の whisper‑VAD を使用して、背景ノイズを除去し、発話部分に集中します。 |
| 多形式出力 | SRT、VTT、LRC、もしくはプレーンテキストとしてエクスポートします。 |
| クラウド推論 | Modal 統合により、ローカルハードウェアなしでクラウド上の GPU でモデルを実行できます。 |
| ゼロコードスタート | GPU および CPU モード用の bat ファイルをドラッグ&ドロップするだけ – 重いスクリプトは不要です。 |
| オープンソース & MIT | すべてのソース、データ、モデルは GPL 対応で、寄与者を歓迎します。 |
なぜ ChickenRice なのか?
- 高精度:カスタム日本語→中国語モデルは、ネイティブスピーカーの膨大な音声データで訓練され、正確な翻訳と文脈処理を保証します。
- 速度:Faster Whisper は単一パスでデコーディングを圧縮し、オリジナル Whisper の最も高速な代替手段です。
- 柔軟性:強力な RTX 3090 がある場合でも、CPU のみの場合でも、デプロイパスがあります。
- 拡張性:ソースはクリーンでモジュラーです –
generation_config.json5を調整したり、ご自身の VAD モデルを導入できます。
速やかなセットアップガイド
前提条件
- Windows 10/11(Linux 用にオプションで WSL も可)、Python 3.11+、および NVIDIA GPU か Modal アカウント。
- git、conda(あるいは pip)、そして modal CLI。
リポジトリをクローン
git clone https://github.com/TransWithAI/Faster-Whisper-TransWithAI-ChickenRice.git
cd Faster-Whisper-TransWithAI-ChickenRice
依存関係をインストール
conda env create -f environment-cuda118.yml # or cuda122 / cuda128
conda activate faster-whisper-cu118
pip install -r requirements.txt if you prefer.
モデルをダウンロード
python download_models.py # pulls Whisper and VAD models
ローカルで実行
- GPU (最高パフォーマンス):\\.run(GPU).bat
- CPU (フォールバック):\\.run(CPU).bat
- 低VRAM GPU: \\.run(GPU,低显存模式).bat
- 動画のみ: \\.run(翻译视频)(GPU).bat
ビデオ/オーディオファイルを該当するバッチファイルにドラッグ&ドロップしてください。
クラウド推論(任意)
modal token new # register/renew your Modal token
modal run modal_infer.py # interactive prompt will ask for GPU type, model, files
事前ビルド済み実行ファイルを使用する場合は modal_infer.exe を使用してください。
出力のカスタマイズ
編集 generation_config.json5 でビームサイズ、温度を調整するか、segment_merge を有効にしてよりクリーンな字幕を作成します。
例:
{
"segment_merge": {"enabled": true, "max_gap_ms": 500, "max_duration_ms": 2000}
}
高度なトピック
Modal クラウド推論を利用する
- なぜ Modal? ローカル GPU がなくても、または多数のジョブを拡張したい場合に Modal は月額 $30 までで T4 GPU を無料で提供し、自動スケーリングを行います。
- セットアップ:
modal token newを実行した後、コマンドラインまたはmodal_infer.pyスクリプトからジョブを起動できます。 - コスト: GPU タイムの種類によっては、1 分あたり約 $0.02–$0.05 です。
バッチ処理 & キャッシュ
ツールはすでに処理済みのファイルを自動検出しスキップするため、大規模メディアライブラリの扱いに不可欠です。
- 拡張性: 日本語-中国語翻訳モデルを任意の Whisper チェックポイントに差し替え、または infer.py エントリポイントと環境 YAML を修正してカスタム VAD モデルを追加できます。
コミュニティとサポート
- Issue と Pull Request: バグ報告や改善提案は GitHub リポジトリで行ってください。
- Telegram: AI汉化组 チャットに参加して、迅速なサポートと共同開発を行いましょう。
- ドキュメント: リポジトリには
README.md、使用说明.txt、RELEASE_NOTES_CN.mdが含まれ、詳細な案内が記載されています。
最後の考え
ChickenRice は単なる文字起こしスクリプトではなく、YouTuber、ポッドキャスター、研究者が高速かつ信頼性の高い日本語→中国語字幕を必要とする場合のプロダクショングレードパイプラインです。GPU 加速、シームレスなクラウド拡張性、MIT ライセンスにより、ChickenRice を採用することで手作業字幕作成時間を大幅に削減できます。
ぜひお試しください。リポジトリをフォークし、貢献してください。AI アシスト文字起こしの次のブレークスルーは、ほんの数行のコードで実現できます!