LiveTalking : Humain numérique IA en temps réel avec synchronisation labiale
Découvrez LiveTalking, la puissance open source pour créer des humains numériques interactifs en temps réel. Ce projet Python prend en charge plusieurs modèles (wav2lip, musetalk, ernerf) avec clonage vocal, streaming WebRTC et gestion des interruptions. Déployez via Docker, exécutez sur GPU avec des performances de 60+ FPS, et créez des avatars parlants de qualité commerciale. Parfait pour les streamers, éducateurs et développeurs IA à la recherche de solutions de synchronisation labiale prêtes pour la production.
LiveTalking : Créez des humains numériques IA de qualité commerciale avec du code open source
Transformez le texte en avatars parlants réalistes
LiveTalking (7.2k ⭐️) propose des humains numériques en temps réel prêts pour la production, synchronisant l'audio, les mouvements des lèvres et les expressions faciales avec une qualité commerciale. Initialement metahuman-stream, cette puissance Python prend en charge plusieurs modèles de pointe et le streaming WebRTC pour une intégration fluide dans le navigateur.
🚀 Fonctionnalités principales
- 4+ Modèles d'humains numériques : wav2lip (60 FPS sur RTX 3060), musetalk (72 FPS sur 4090), ernerf, Ultralight-Digital-Human
- Clonage vocal : TTS en temps réel avec support des interruptions
- WebRTC + Caméra virtuelle : Streaming compatible navigateur
- Multi-concurrence : Évolutivité sur les ressources CPU/GPU
- Avatars personnalisés : Téléchargez vos propres images de personnages
🎯 Démarrage rapide (5 minutes)
# Ubuntu 24.04 + Python 3.10 + CUDA 12.4
conda create -n livetalking python=3.10
conda activate livetalking
conda install pytorch==2.5.0 torchvision==0.20.0 pytorch-cuda=12.4 -c pytorch -c nvidia
pip install -r requirements.txt
# Téléchargez les modèles (liens Quark/Google Drive)
python app.py --transport webrtc --model wav2lip --avatar_id wav2lip256_avatar1
Test navigateur : http://your-server:8010/webrtcapi.html → Tapez → Regardez l'IA parler !
🐳 Docker (Zéro configuration)
docker run --gpus all -it --network=host registry.cn-beijing.aliyuncs.com/codewithgpu2/lipku-metahuman-stream:2K9qaMBu8v
⚡ Benchmarks de performance
| Modèle | GPU | FPS |
|---|---|---|
| wav2lip256 | RTX 3060 | 60 |
| wav2lip256 | RTX 3080Ti | 120 |
| musetalk | RTX 4090 | 72 |
💎 Extensions commerciales disponibles
- Modèles wav2lip HD
- Sous-titres en temps réel + interruption
- Multi-avatars par flux
- Expressions pilotées par caméra
- Durée d'avatar illimitée
🎮 Cas d'utilisation
- Streaming en direct : Co-animateurs IA interactifs
- Éducation : Tuteurs multilingues
- Service client : Agents IA 24/7
- Création de contenu : Têtes parlantes automatisées
- Événements virtuels : Présentateurs numériques évolutifs
📦 Déploiement cloud en un clic
- Miroirs UCloud/AutoDL disponibles
- Instances GPU préconfigurées
- Documentation entreprise : livetalking-doc.readthedocs.io
Commencez : GitHub - lipku/LiveTalking ⭐️ + 🚀 = Avatars IA commerciaux en quelques minutes !
Licence Apache 2.0 • 1.1k forks • Communauté active