LiveTalking: リップシンク付きリアルタイムAIデジタルヒューマン

LiveTalking: オープンソースで商用グレードのAIデジタルヒューマンを構築

テキストをリアルな話すアバターに変換

LiveTalking (7.2k ⭐️) は、商用品質のオーディオ、唇の動き、表情を同期させた本番環境対応のリアルタイムデジタルヒューマンを提供します。元々 metahuman-stream として知られ、このPythonパワーハウスは、複数の最先端モデルとWebRTCストリーミングをサポートし、シームレスなブラウザ統合を実現します。

🚀 主要機能

  • 4+ デジタルヒューマンモデル: wav2lip (RTX 3060で60 FPS)、musetalk (4090で72 FPS)、ernerf、Ultralight-Digital-Human
  • ボイスクローニング: 中断対応のリアルタイムTTS
  • WebRTC + 仮想カメラ: ブラウザ対応ストリーミング
  • マルチ同時実行: CPU/GPUリソースでのスケーリング
  • カスタムアバター: 自分のキャラクター画像をアップロード

🎯 クイックスタート (5分)

# Ubuntu 24.04 + Python 3.10 + CUDA 12.4
conda create -n livetalking python=3.10
conda activate livetalking
conda install pytorch==2.5.0 torchvision==0.20.0 pytorch-cuda=12.4 -c pytorch -c nvidia
pip install -r requirements.txt

# モデルをダウンロード (Quark/Google Driveリンク)
python app.py --transport webrtc --model wav2lip --avatar_id wav2lip256_avatar1

ブラウザテスト: http://your-server:8010/webrtcapi.html → 入力 → AIが話すのを観察!

🐳 Docker (ゼロセットアップ)

docker run --gpus all -it --network=host registry.cn-beijing.aliyuncs.com/codewithgpu2/lipku-metahuman-stream:2K9qaMBu8v

⚡ パフォーマンスベンチマーク

モデル GPU FPS
wav2lip256 RTX 3060 60
wav2lip256 RTX 3080Ti 120
musetalk RTX 4090 72

💎 商用拡張機能あり

  • HD wav2lipモデル
  • リアルタイム字幕 + 中断対応
  • ストリームごとのマルチアバター
  • カメラ駆動の表情
  • 無制限のアバター持続時間

🎮 ユースケース

  1. ライブストリーミング: インタラクティブなAI共同ホスト
  2. 教育: 多言語チューター
  3. カスタマーサービス: 24/7 AIエージェント
  4. コンテンツ作成: 自動話すヘッド
  5. バーチャルイベント: スケーラブルなデジタルプレゼンター

📦 ワンクリッククラウドデプロイ

  • UCloud/AutoDLミラー 利用可能
  • プリコンフィグGPUインスタンス
  • エンタープライズドキュメント: livetalking-doc.readthedocs.io

開始する: GitHub - lipku/LiveTalking ⭐️ + 🚀 = 数分で商用AIアバター!

Apache 2.0ライセンス • 1.1kフォーク • 活発なコミュニティ

この記事を共有