LiveTalking: リップシンク付きリアルタイムAIデジタルヒューマン
LiveTalking: オープンソースで商用グレードのAIデジタルヒューマンを構築
テキストをリアルな話すアバターに変換
LiveTalking (7.2k ⭐️) は、商用品質のオーディオ、唇の動き、表情を同期させた本番環境対応のリアルタイムデジタルヒューマンを提供します。元々 metahuman-stream として知られ、このPythonパワーハウスは、複数の最先端モデルとWebRTCストリーミングをサポートし、シームレスなブラウザ統合を実現します。
🚀 主要機能
- 4+ デジタルヒューマンモデル: wav2lip (RTX 3060で60 FPS)、musetalk (4090で72 FPS)、ernerf、Ultralight-Digital-Human
- ボイスクローニング: 中断対応のリアルタイムTTS
- WebRTC + 仮想カメラ: ブラウザ対応ストリーミング
- マルチ同時実行: CPU/GPUリソースでのスケーリング
- カスタムアバター: 自分のキャラクター画像をアップロード
🎯 クイックスタート (5分)
# Ubuntu 24.04 + Python 3.10 + CUDA 12.4
conda create -n livetalking python=3.10
conda activate livetalking
conda install pytorch==2.5.0 torchvision==0.20.0 pytorch-cuda=12.4 -c pytorch -c nvidia
pip install -r requirements.txt
# モデルをダウンロード (Quark/Google Driveリンク)
python app.py --transport webrtc --model wav2lip --avatar_id wav2lip256_avatar1
ブラウザテスト: http://your-server:8010/webrtcapi.html → 入力 → AIが話すのを観察!
🐳 Docker (ゼロセットアップ)
docker run --gpus all -it --network=host registry.cn-beijing.aliyuncs.com/codewithgpu2/lipku-metahuman-stream:2K9qaMBu8v
⚡ パフォーマンスベンチマーク
| モデル | GPU | FPS |
|---|---|---|
| wav2lip256 | RTX 3060 | 60 |
| wav2lip256 | RTX 3080Ti | 120 |
| musetalk | RTX 4090 | 72 |
💎 商用拡張機能あり
- HD wav2lipモデル
- リアルタイム字幕 + 中断対応
- ストリームごとのマルチアバター
- カメラ駆動の表情
- 無制限のアバター持続時間
🎮 ユースケース
- ライブストリーミング: インタラクティブなAI共同ホスト
- 教育: 多言語チューター
- カスタマーサービス: 24/7 AIエージェント
- コンテンツ作成: 自動話すヘッド
- バーチャルイベント: スケーラブルなデジタルプレゼンター
📦 ワンクリッククラウドデプロイ
- UCloud/AutoDLミラー 利用可能
- プリコンフィグGPUインスタンス
- エンタープライズドキュメント: livetalking-doc.readthedocs.io
開始する: GitHub - lipku/LiveTalking ⭐️ + 🚀 = 数分で商用AIアバター!
Apache 2.0ライセンス • 1.1kフォーク • 活発なコミュニティ
元の記事:
オリジナルを見る