LiveTalking: Humano Digital de IA en Tiempo Real con Sincronización de Labios
Descubre LiveTalking, el potente proyecto de código abierto para crear humanos digitales interactivos en tiempo real. Este proyecto en Python soporta múltiples modelos (wav2lip, musetalk, ernerf) con clonación de voz, streaming WebRTC y manejo de interrupciones. Despliega vía Docker, ejecuta en GPU con rendimiento de 60+ FPS y crea avatares parlantes de grado comercial. Perfecto para streamers, educadores y desarrolladores de IA que buscan soluciones de sincronización de labios listas para producción.
LiveTalking: Crea Humanos Digitales de IA de Grado Comercial con Código Abierto
Transforma Texto en Avatares Parlantes Realistas
LiveTalking (7.2k ⭐️) ofrece humanos digitales en tiempo real listos para producción que sincronizan audio, movimientos de labios y expresiones faciales con calidad comercial. Originalmente metahuman-stream, este potente proyecto en Python soporta múltiples modelos de vanguardia y streaming WebRTC para una integración perfecta en el navegador.
🚀 Características Principales
- 4+ Modelos de Humanos Digitales: wav2lip (60 FPS en RTX 3060), musetalk (72 FPS en 4090), ernerf, Ultralight-Digital-Human
- Clonación de Voz: TTS en tiempo real con soporte para interrupciones
- WebRTC + Cámara Virtual: Streaming compatible con navegador
- Multi-concurrencia: Escala en recursos CPU/GPU
- Avatares Personalizados: Sube tus propias imágenes de personajes
🎯 Inicio Rápido (5 Minutos)
# Ubuntu 24.04 + Python 3.10 + CUDA 12.4
conda create -n livetalking python=3.10
conda activate livetalking
conda install pytorch==2.5.0 torchvision==0.20.0 pytorch-cuda=12.4 -c pytorch -c nvidia
pip install -r requirements.txt
# Descarga modelos (enlaces Quark/Google Drive)
python app.py --transport webrtc --model wav2lip --avatar_id wav2lip256_avatar1
Prueba en navegador: http://your-server:8010/webrtcapi.html → Escribe → ¡Mira cómo habla la IA!
🐳 Docker (Configuración Cero)
docker run --gpus all -it --network=host registry.cn-beijing.aliyuncs.com/codewithgpu2/lipku-metahuman-stream:2K9qaMBu8v
⚡ Benchmarks de Rendimiento
| Modelo | GPU | FPS |
|---|---|---|
| wav2lip256 | RTX 3060 | 60 |
| wav2lip256 | RTX 3080Ti | 120 |
| musetalk | RTX 4090 | 72 |
💎 Extensiones Comerciales Disponibles
- Modelos HD wav2lip
- Subtítulos en tiempo real + interrupción
- Multi-avatares por stream
- Expresiones impulsadas por cámara
- Duración ilimitada de avatares
🎮 Casos de Uso
- Transmisión en Vivo: Copresentadores IA interactivos
- Educación: Tutores multilingües
- Servicio al Cliente: Agentes IA 24/7
- Creación de Contenido: Cabezas parlantes automatizadas
- Eventos Virtuales: Presentadores digitales escalables
📦 Despliegue en la Nube con un Clic
- Espejos UCloud/AutoDL disponibles
- Instancias GPU preconfiguradas
- Documentación empresarial: livetalking-doc.readthedocs.io
Comienza: GitHub - lipku/LiveTalking ⭐️ + 🚀 = ¡Avatares IA comerciales en minutos!
Licencia Apache 2.0 • 1.1k forks • Comunidad activa