LiveTalking: リップシンク付きリアルタイムAIデジタルヒューマン

March 11, 2026

タグ:

WebRTC digital-human lip-sync wav2lip musetalk

LiveTalking: オープンソースで商用グレードのAIデジタルヒューマンを構築

テキストをリアルな話すアバターに変換

LiveTalking (7.2k ⭐️) は、商用品質のオーディオ、唇の動き、表情を同期させた本番環境対応のリアルタイムデジタルヒューマンを提供します。元々 metahuman-stream として知られ、このPythonパワーハウスは、複数の最先端モデルとWebRTCストリーミングをサポートし、シームレスなブラウザ統合を実現します。

🚀 主要機能

4+ デジタルヒューマンモデル: wav2lip (RTX 3060で60 FPS)、musetalk (4090で72 FPS)、ernerf、Ultralight-Digital-Human
ボイスクローニング: 中断対応のリアルタイムTTS
WebRTC + 仮想カメラ: ブラウザ対応ストリーミング
マルチ同時実行: CPU/GPUリソースでのスケーリング
カスタムアバター: 自分のキャラクター画像をアップロード

🎯 クイックスタート (5分)

# Ubuntu 24.04 + Python 3.10 + CUDA 12.4
conda create -n livetalking python=3.10
conda activate livetalking
conda install pytorch==2.5.0 torchvision==0.20.0 pytorch-cuda=12.4 -c pytorch -c nvidia
pip install -r requirements.txt

# モデルをダウンロード (Quark/Google Driveリンク)
python app.py --transport webrtc --model wav2lip --avatar_id wav2lip256_avatar1

ブラウザテスト: http://your-server:8010/webrtcapi.html → 入力 → AIが話すのを観察！

🐳 Docker (ゼロセットアップ)

docker run --gpus all -it --network=host registry.cn-beijing.aliyuncs.com/codewithgpu2/lipku-metahuman-stream:2K9qaMBu8v

⚡ パフォーマンスベンチマーク

モデル	GPU	FPS
wav2lip256	RTX 3060	60
wav2lip256	RTX 3080Ti	120
musetalk	RTX 4090	72

💎 商用拡張機能あり

HD wav2lipモデル
リアルタイム字幕 + 中断対応
ストリームごとのマルチアバター
カメラ駆動の表情
無制限のアバター持続時間

🎮 ユースケース

ライブストリーミング: インタラクティブなAI共同ホスト
教育: 多言語チューター
カスタマーサービス: 24/7 AIエージェント
コンテンツ作成: 自動話すヘッド
バーチャルイベント: スケーラブルなデジタルプレゼンター

📦 ワンクリッククラウドデプロイ

UCloud/AutoDLミラー 利用可能
プリコンフィグGPUインスタンス
エンタープライズドキュメント: livetalking-doc.readthedocs.io

開始する: GitHub - lipku/LiveTalking ⭐️ + 🚀 = 数分で商用AIアバター！

Apache 2.0ライセンス • 1.1kフォーク • 活発なコミュニティ

オリジナル記事: オリジナルを表示

この記事を共有