VoxCPM2:音声クローニング&デザイン対応の2B多言語TTS
VoxCPM2:トークナイザー不要のアーキテクチャでTTSを革新
次世代音声合成
VoxCPM2は、テキスト-to-スピーチ技術における飛躍的な進歩を表します。MiniCPM-4バックボーンに基づくこの2Bパラメータモデルは、革新的な拡散自己回帰アーキテクチャにより従来のトークナイザーのボトルネックを排除します。200万時間以上の多言語音声で訓練され、言語タグ不要で30言語に対応した スタジオ品質の48kHzオーディオ を提供します。
✨ 主な革新点
🎨 テキストだけで音声デザイン
自然言語を使って全く新しい声を生成:(若い女性、温かく優しいトーン、少し微笑んだ感じ) で参照オーディオなしにユニークな声を生成します。
🎛️ 制御可能な音声クローニング
短いクリップから任意の声をクローニングしつつ、感情、速度、スタイルを制御:(少し速め、陽気) で音色を保持しつつ表現を調整します。
🎙️ 究極のクローニング精度
参照オーディオ+トランスクリプトを提供することで、音色、リズム、感情のあらゆるニュアンスを完璧に再現します。
🚀 超高速実装
from voxcpm import VoxCPM
import soundfile as sf
model = VoxCPM.from_pretrained("openbmb/VoxCPM2")
wav = model.generate("Hello from VoxCPM2!", cfg_value=2.0)
sf.write("output.wav", wav, 48000)
性能: RTX 4090 + Nano-vLLM(バッチ処理)でRTF ~0.13、~8GB VRAM。
🌍 30言語対応
アラビア語、中国方言(8+)、英語、フランス語、ドイツ語、ヒンディー語、日本語、韓国語、スペイン語、タイ語、ベトナム語 + 20言語。
📊 ベンチマークでの圧倒的優位性
| モデル | パラメータ | EN WER | ZH CER | SIM Score |
|---|---|---|---|---|
| VoxCPM2 | 2B | 1.84% | 0.97% | 85.4% (EN) |
| Qwen3-TTS | 1.7B | 1.23% | 1.22% | 77.5% |
| FishAudio S2 | 4B | 0.99% | 0.54% | 79.7% |
🔧 本番環境対応
- CLI:
voxcpm clone --reference-audio voice.wav - Webデモ:
python app.py - LoRAファインチューニング: 5-10分のオーディオで新スピーカーに適応
- Nano-vLLM: 高スループットの非同期サービング
📦 今すぐ開始
pip install voxcpm
完全Apache 2.0ライセンス - 商用利用歓迎。GitHubで10K+スターを獲得中、SOTA TTSを今すぐ体験!
オリジナル記事:
オリジナルを表示