LiveTalking:实时 AI 数字人,支持唇同步

LiveTalking:使用开源构建商业级 AI 数字人

将文本转化为逼真说话头像

LiveTalking (7.2k ⭐️) 提供生产就绪的实时数字人,支持音频、唇部动作和面部表情同步,达到商业品质。原名 metahuman-stream,这个 Python 强大工具支持多种前沿模型和 WebRTC 流媒体,实现无缝浏览器集成。

🚀 核心功能

  • 4+ 数字人模型:wav2lip(RTX 3060 上 60 FPS)、musetalk(4090 上 72 FPS)、ernerf、Ultralight-Digital-Human
  • 声音克隆:支持中断的实时 TTS
  • WebRTC + 虚拟摄像头:浏览器兼容流媒体
  • 多并发:跨 CPU/GPU 资源扩展
  • 自定义头像:上传您自己的角色图像

🎯 快速开始(5 分钟)

# Ubuntu 24.04 + Python 3.10 + CUDA 12.4
conda create -n livetalking python=3.10
conda activate livetalking
conda install pytorch==2.5.0 torchvision==0.20.0 pytorch-cuda=12.4 -c pytorch -c nvidia
pip install -r requirements.txt

# 下载模型(Quark/Google Drive 链接)
python app.py --transport webrtc --model wav2lip --avatar_id wav2lip256_avatar1

浏览器测试http://your-server:8010/webrtcapi.html → 输入 → 观看 AI 说话!

🐳 Docker(零配置)

docker run --gpus all -it --network=host registry.cn-beijing.aliyuncs.com/codewithgpu2/lipku-metahuman-stream:2K9qaMBu8v

⚡ 性能基准

模型 GPU FPS
wav2lip256 RTX 3060 60
wav2lip256 RTX 3080Ti 120
musetalk RTX 4090 72

💎 商业扩展可用

  • HD wav2lip 模型
  • 实时字幕 + 中断支持
  • 每流多头像
  • 摄像头驱动表情
  • 无限头像时长

🎮 使用场景

  1. 直播:互动 AI 协宿
  2. 教育:多语言导师
  3. 客户服务:24/7 AI 代理
  4. 内容创作:自动化说话头像
  5. 虚拟活动:可扩展数字主持人

📦 一键云部署

立即开始GitHub - lipku/LiveTalking ⭐️ + 🚀 = 几分钟内获得商业 AI 头像!

Apache 2.0 许可 • 1.1k 分叉 • 活跃社区

原创文章: 查看原文

分享本文