LiveTalking：实时 AI 数字人，支持唇同步

March 11, 2026

分类: 实用开源项目

标签:

WebRTC digital-human lip-sync wav2lip musetalk

LiveTalking：使用开源构建商业级 AI 数字人

将文本转化为逼真说话头像

LiveTalking (7.2k ⭐️) 提供生产就绪的实时数字人，支持音频、唇部动作和面部表情同步，达到商业品质。原名 metahuman-stream，这个 Python 强大工具支持多种前沿模型和 WebRTC 流媒体，实现无缝浏览器集成。

🚀 核心功能

4+ 数字人模型：wav2lip（RTX 3060 上 60 FPS）、musetalk（4090 上 72 FPS）、ernerf、Ultralight-Digital-Human
声音克隆：支持中断的实时 TTS
WebRTC + 虚拟摄像头：浏览器兼容流媒体
多并发：跨 CPU/GPU 资源扩展
自定义头像：上传您自己的角色图像

🎯 快速开始（5 分钟）

# Ubuntu 24.04 + Python 3.10 + CUDA 12.4
conda create -n livetalking python=3.10
conda activate livetalking
conda install pytorch==2.5.0 torchvision==0.20.0 pytorch-cuda=12.4 -c pytorch -c nvidia
pip install -r requirements.txt

# 下载模型（Quark/Google Drive 链接）
python app.py --transport webrtc --model wav2lip --avatar_id wav2lip256_avatar1

浏览器测试：http://your-server:8010/webrtcapi.html → 输入 → 观看 AI 说话！

🐳 Docker（零配置）

docker run --gpus all -it --network=host registry.cn-beijing.aliyuncs.com/codewithgpu2/lipku-metahuman-stream:2K9qaMBu8v

⚡ 性能基准

模型	GPU	FPS
wav2lip256	RTX 3060	60
wav2lip256	RTX 3080Ti	120
musetalk	RTX 4090	72

💎 商业扩展可用

HD wav2lip 模型
实时字幕 + 中断支持
每流多头像
摄像头驱动表情
无限头像时长

🎮 使用场景

直播：互动 AI 协宿
教育：多语言导师
客户服务：24/7 AI 代理
内容创作：自动化说话头像
虚拟活动：可扩展数字主持人

📦 一键云部署

UCloud/AutoDL 镜像 可用
预配置 GPU 实例
企业文档：livetalking-doc.readthedocs.io

立即开始：GitHub - lipku/LiveTalking ⭐️ + 🚀 = 几分钟内获得商业 AI 头像！

Apache 2.0 许可 • 1.1k 分叉 • 活跃社区

原始文章: 查看原文

分享这篇文章