VoxCPM2:音声クローニング&デザイン対応の2B多言語TTS

VoxCPM2:トークナイザー不要のアーキテクチャでTTSを革新

次世代音声合成

VoxCPM2は、テキスト-to-スピーチ技術における飛躍的な進歩を表します。MiniCPM-4バックボーンに基づくこの2Bパラメータモデルは、革新的な拡散自己回帰アーキテクチャにより従来のトークナイザーのボトルネックを排除します。200万時間以上の多言語音声で訓練され、言語タグ不要で30言語に対応した スタジオ品質の48kHzオーディオ を提供します。

✨ 主な革新点

🎨 テキストだけで音声デザイン

自然言語を使って全く新しい声を生成:(若い女性、温かく優しいトーン、少し微笑んだ感じ) で参照オーディオなしにユニークな声を生成します。

🎛️ 制御可能な音声クローニング

短いクリップから任意の声をクローニングしつつ、感情、速度、スタイルを制御:(少し速め、陽気) で音色を保持しつつ表現を調整します。

🎙️ 究極のクローニング精度

参照オーディオ+トランスクリプトを提供することで、音色、リズム、感情のあらゆるニュアンスを完璧に再現します。

🚀 超高速実装

from voxcpm import VoxCPM
import soundfile as sf

model = VoxCPM.from_pretrained("openbmb/VoxCPM2")
wav = model.generate("Hello from VoxCPM2!", cfg_value=2.0)
sf.write("output.wav", wav, 48000)

性能: RTX 4090 + Nano-vLLM(バッチ処理)でRTF ~0.13、~8GB VRAM。

🌍 30言語対応

アラビア語、中国方言(8+)、英語、フランス語、ドイツ語、ヒンディー語、日本語、韓国語、スペイン語、タイ語、ベトナム語 + 20言語。

📊 ベンチマークでの圧倒的優位性

モデル パラメータ EN WER ZH CER SIM Score
VoxCPM2 2B 1.84% 0.97% 85.4% (EN)
Qwen3-TTS 1.7B 1.23% 1.22% 77.5%
FishAudio S2 4B 0.99% 0.54% 79.7%

🔧 本番環境対応

  • CLI: voxcpm clone --reference-audio voice.wav
  • Webデモ: python app.py
  • LoRAファインチューニング: 5-10分のオーディオで新スピーカーに適応
  • Nano-vLLM: 高スループットの非同期サービング

📦 今すぐ開始

pip install voxcpm

完全Apache 2.0ライセンス - 商用利用歓迎。GitHubで10K+スターを獲得中、SOTA TTSを今すぐ体験!

ライブプレイグラウンド | Hugging Faceウェイト

オリジナル記事: オリジナルを表示

この記事を共有