LiveTalking:实时 AI 数字人,支持唇同步
LiveTalking:使用开源构建商业级 AI 数字人
将文本转化为逼真说话头像
LiveTalking (7.2k ⭐️) 提供生产就绪的实时数字人,支持音频、唇部动作和面部表情同步,达到商业品质。原名 metahuman-stream,这个 Python 强大工具支持多种前沿模型和 WebRTC 流媒体,实现无缝浏览器集成。
🚀 核心功能
- 4+ 数字人模型:wav2lip(RTX 3060 上 60 FPS)、musetalk(4090 上 72 FPS)、ernerf、Ultralight-Digital-Human
- 声音克隆:支持中断的实时 TTS
- WebRTC + 虚拟摄像头:浏览器兼容流媒体
- 多并发:跨 CPU/GPU 资源扩展
- 自定义头像:上传您自己的角色图像
🎯 快速开始(5 分钟)
# Ubuntu 24.04 + Python 3.10 + CUDA 12.4
conda create -n livetalking python=3.10
conda activate livetalking
conda install pytorch==2.5.0 torchvision==0.20.0 pytorch-cuda=12.4 -c pytorch -c nvidia
pip install -r requirements.txt
# 下载模型(Quark/Google Drive 链接)
python app.py --transport webrtc --model wav2lip --avatar_id wav2lip256_avatar1
浏览器测试:http://your-server:8010/webrtcapi.html → 输入 → 观看 AI 说话!
🐳 Docker(零配置)
docker run --gpus all -it --network=host registry.cn-beijing.aliyuncs.com/codewithgpu2/lipku-metahuman-stream:2K9qaMBu8v
⚡ 性能基准
| 模型 | GPU | FPS |
|---|---|---|
| wav2lip256 | RTX 3060 | 60 |
| wav2lip256 | RTX 3080Ti | 120 |
| musetalk | RTX 4090 | 72 |
💎 商业扩展可用
- HD wav2lip 模型
- 实时字幕 + 中断支持
- 每流多头像
- 摄像头驱动表情
- 无限头像时长
🎮 使用场景
- 直播:互动 AI 协宿
- 教育:多语言导师
- 客户服务:24/7 AI 代理
- 内容创作:自动化说话头像
- 虚拟活动:可扩展数字主持人
📦 一键云部署
- UCloud/AutoDL 镜像 可用
- 预配置 GPU 实例
- 企业文档:livetalking-doc.readthedocs.io
立即开始:GitHub - lipku/LiveTalking ⭐️ + 🚀 = 几分钟内获得商业 AI 头像!
Apache 2.0 许可 • 1.1k 分叉 • 活跃社区
原创文章:
查看原文