VoxCPM2：音声クローニング＆デザイン対応の2B多言語TTS

April 12, 2026

タグ:

Open Source tts Voice Cloning Multilingual Voice Design

VoxCPM2：トークナイザー不要のアーキテクチャでTTSを革新

次世代音声合成

VoxCPM2は、テキスト-to-スピーチ技術における飛躍的な進歩を表します。MiniCPM-4バックボーンに基づくこの2Bパラメータモデルは、革新的な拡散自己回帰アーキテクチャにより従来のトークナイザーのボトルネックを排除します。200万時間以上の多言語音声で訓練され、言語タグ不要で30言語に対応した スタジオ品質の48kHzオーディオ を提供します。

✨ 主な革新点

🎨 テキストだけで音声デザイン

自然言語を使って全く新しい声を生成：(若い女性、温かく優しいトーン、少し微笑んだ感じ) で参照オーディオなしにユニークな声を生成します。

🎛️ 制御可能な音声クローニング

短いクリップから任意の声をクローニングしつつ、感情、速度、スタイルを制御：(少し速め、陽気) で音色を保持しつつ表現を調整します。

🎙️ 究極のクローニング精度

参照オーディオ＋トランスクリプトを提供することで、音色、リズム、感情のあらゆるニュアンスを完璧に再現します。

🚀 超高速実装

from voxcpm import VoxCPM
import soundfile as sf

model = VoxCPM.from_pretrained("openbmb/VoxCPM2")
wav = model.generate("Hello from VoxCPM2!", cfg_value=2.0)
sf.write("output.wav", wav, 48000)

性能: RTX 4090 + Nano-vLLM（バッチ処理）でRTF ~0.13、~8GB VRAM。

🌍 30言語対応

アラビア語、中国方言（8+）、英語、フランス語、ドイツ語、ヒンディー語、日本語、韓国語、スペイン語、タイ語、ベトナム語 + 20言語。

📊 ベンチマークでの圧倒的優位性

モデル	パラメータ	EN WER	ZH CER	SIM Score
VoxCPM2	2B	1.84%	0.97%	85.4% (EN)
Qwen3-TTS	1.7B	1.23%	1.22%	77.5%
FishAudio S2	4B	0.99%	0.54%	79.7%

🔧 本番環境対応

CLI: voxcpm clone --reference-audio voice.wav
Webデモ: python app.py
LoRAファインチューニング: 5-10分のオーディオで新スピーカーに適応
Nano-vLLM: 高スループットの非同期サービング

📦 今すぐ開始

pip install voxcpm

完全Apache 2.0ライセンス - 商用利用歓迎。GitHubで10K+スターを獲得中、SOTA TTSを今すぐ体験！

ライブプレイグラウンド | Hugging Faceウェイト

オリジナル記事: オリジナルを表示

この記事を共有