Faster Whisper ChickenRice: 日本語→中国語文字起こし

ChickenRice – 強力なオープンソース日本語→中国語文字起こしツール

ビデオやポッドキャストが数十の言語で展開する世界で、正確かつ高速に字幕を自動生成できる機能は、手作業に費やす時間を何時間も節約できます。ChickenRice(Faster‑Whisper‑TransWithAI)は、すぐに使えるソリューションで、日本語の音声または映像を入力すると、SRT、VTT、LRC形式の中国語字幕を瞬時に生成します。高速なFaster Whisperエンジンをベースに、5,000時間の音声データで訓練された最適化済みの日本語→中国語モデルを駆動して、最先端の精度を実現します。

主な機能

機能 説明
GPUアクセラレーション CUDA 11.8、12.2、12.8 をサポート – NVIDIA RTXシリーズに最適です。
バッチ推論 自動キャッシュ機能で、すでに処理済みのファイルをスキップしつつ、数十のファイルを一度に処理します。
音声最適化 VAD TransWithAI の whisper‑VAD を使用して、背景ノイズを除去し、発話部分に集中します。
多形式出力 SRT、VTT、LRC、もしくはプレーンテキストとしてエクスポートします。
クラウド推論 Modal 統合により、ローカルハードウェアなしでクラウド上の GPU でモデルを実行できます。
ゼロコードスタート GPU および CPU モード用の bat ファイルをドラッグ&ドロップするだけ – 重いスクリプトは不要です。
オープンソース & MIT すべてのソース、データ、モデルは GPL 対応で、寄与者を歓迎します。

なぜ ChickenRice なのか?

  • 高精度:カスタム日本語→中国語モデルは、ネイティブスピーカーの膨大な音声データで訓練され、正確な翻訳と文脈処理を保証します。
  • 速度:Faster Whisper は単一パスでデコーディングを圧縮し、オリジナル Whisper の最も高速な代替手段です。
  • 柔軟性:強力な RTX 3090 がある場合でも、CPU のみの場合でも、デプロイパスがあります。
  • 拡張性:ソースはクリーンでモジュラーです – generation_config.json5 を調整したり、ご自身の VAD モデルを導入できます。

速やかなセットアップガイド

前提条件 - Windows 10/11(Linux 用にオプションで WSL も可)、Python 3.11+、および NVIDIA GPU か Modal アカウント。 - gitconda(あるいは pip)、そして modal CLI。

リポジトリをクローン

git clone https://github.com/TransWithAI/Faster-Whisper-TransWithAI-ChickenRice.git
cd Faster-Whisper-TransWithAI-ChickenRice

依存関係をインストール

conda env create -f environment-cuda118.yml    # or cuda122 / cuda128
conda activate faster-whisper-cu118
Or use pip install -r requirements.txt if you prefer.

モデルをダウンロード

python download_models.py  # pulls Whisper and VAD models

ローカルで実行 - GPU (最高パフォーマンス):\\.run(GPU).bat - CPU (フォールバック):\\.run(CPU).bat - 低VRAM GPU: \\.run(GPU,低显存模式).bat - 動画のみ: \\.run(翻译视频)(GPU).bat

ビデオ/オーディオファイルを該当するバッチファイルにドラッグ&ドロップしてください。

クラウド推論(任意)

modal token new   # register/renew your Modal token
modal run modal_infer.py   # interactive prompt will ask for GPU type, model, files

事前ビルド済み実行ファイルを使用する場合は modal_infer.exe を使用してください。

出力のカスタマイズ 編集 generation_config.json5 でビームサイズ、温度を調整するか、segment_merge を有効にしてよりクリーンな字幕を作成します。

例:

{
  "segment_merge": {"enabled": true, "max_gap_ms": 500, "max_duration_ms": 2000}
}

高度なトピック

  • なぜ Modal? ローカル GPU がなくても、または多数のジョブを拡張したい場合に Modal は月額 $30 までで T4 GPU を無料で提供し、自動スケーリングを行います。
  • セットアップ: modal token new を実行した後、コマンドラインまたは modal_infer.py スクリプトからジョブを起動できます。
  • コスト: GPU タイムの種類によっては、1 分あたり約 $0.02–$0.05 です。

バッチ処理 & キャッシュ

ツールはすでに処理済みのファイルを自動検出しスキップするため、大規模メディアライブラリの扱いに不可欠です。 - 拡張性: 日本語-中国語翻訳モデルを任意の Whisper チェックポイントに差し替え、または infer.py エントリポイントと環境 YAML を修正してカスタム VAD モデルを追加できます。

コミュニティとサポート

  • Issue と Pull Request: バグ報告や改善提案は GitHub リポジトリで行ってください。
  • Telegram: AI汉化组 チャットに参加して、迅速なサポートと共同開発を行いましょう。
  • ドキュメント: リポジトリには README.md使用说明.txtRELEASE_NOTES_CN.md が含まれ、詳細な案内が記載されています。

最後の考え

ChickenRice は単なる文字起こしスクリプトではなく、YouTuber、ポッドキャスター、研究者が高速かつ信頼性の高い日本語→中国語字幕を必要とする場合のプロダクショングレードパイプラインです。GPU 加速、シームレスなクラウド拡張性、MIT ライセンスにより、ChickenRice を採用することで手作業字幕作成時間を大幅に削減できます。

ぜひお試しください。リポジトリをフォークし、貢献してください。AI アシスト文字起こしの次のブレークスルーは、ほんの数行のコードで実現できます!

この記事を共有