LiveTalking: Humano Digital de IA en Tiempo Real con Sincronización de Labios

Descubre LiveTalking, el potente proyecto de código abierto para crear humanos digitales interactivos en tiempo real. Este proyecto en Python soporta múltiples modelos (wav2lip, musetalk, ernerf) con clonación de voz, streaming WebRTC y manejo de interrupciones. Despliega vía Docker, ejecuta en GPU con rendimiento de 60+ FPS y crea avatares parlantes de grado comercial. Perfecto para streamers, educadores y desarrolladores de IA que buscan soluciones de sincronización de labios listas para producción.

LiveTalking: Crea Humanos Digitales de IA de Grado Comercial con Código Abierto

Transforma Texto en Avatares Parlantes Realistas

LiveTalking (7.2k ⭐️) ofrece humanos digitales en tiempo real listos para producción que sincronizan audio, movimientos de labios y expresiones faciales con calidad comercial. Originalmente metahuman-stream, este potente proyecto en Python soporta múltiples modelos de vanguardia y streaming WebRTC para una integración perfecta en el navegador.

🚀 Características Principales

  • 4+ Modelos de Humanos Digitales: wav2lip (60 FPS en RTX 3060), musetalk (72 FPS en 4090), ernerf, Ultralight-Digital-Human
  • Clonación de Voz: TTS en tiempo real con soporte para interrupciones
  • WebRTC + Cámara Virtual: Streaming compatible con navegador
  • Multi-concurrencia: Escala en recursos CPU/GPU
  • Avatares Personalizados: Sube tus propias imágenes de personajes

🎯 Inicio Rápido (5 Minutos)

# Ubuntu 24.04 + Python 3.10 + CUDA 12.4
conda create -n livetalking python=3.10
conda activate livetalking
conda install pytorch==2.5.0 torchvision==0.20.0 pytorch-cuda=12.4 -c pytorch -c nvidia
pip install -r requirements.txt

# Descarga modelos (enlaces Quark/Google Drive)
python app.py --transport webrtc --model wav2lip --avatar_id wav2lip256_avatar1

Prueba en navegador: http://your-server:8010/webrtcapi.html → Escribe → ¡Mira cómo habla la IA!

🐳 Docker (Configuración Cero)

docker run --gpus all -it --network=host registry.cn-beijing.aliyuncs.com/codewithgpu2/lipku-metahuman-stream:2K9qaMBu8v

⚡ Benchmarks de Rendimiento

Modelo GPU FPS
wav2lip256 RTX 3060 60
wav2lip256 RTX 3080Ti 120
musetalk RTX 4090 72

💎 Extensiones Comerciales Disponibles

  • Modelos HD wav2lip
  • Subtítulos en tiempo real + interrupción
  • Multi-avatares por stream
  • Expresiones impulsadas por cámara
  • Duración ilimitada de avatares

🎮 Casos de Uso

  1. Transmisión en Vivo: Copresentadores IA interactivos
  2. Educación: Tutores multilingües
  3. Servicio al Cliente: Agentes IA 24/7
  4. Creación de Contenido: Cabezas parlantes automatizadas
  5. Eventos Virtuales: Presentadores digitales escalables

📦 Despliegue en la Nube con un Clic

Comienza: GitHub - lipku/LiveTalking ⭐️ + 🚀 = ¡Avatares IA comerciales en minutos!

Licencia Apache 2.0 • 1.1k forks • Comunidad activa