Real-time AI - Proyectos de código abierto

Helios: Generación de Video en Tiempo Real de 14B a 19,5 FPS

March 25, 2026

Etiquetas:

Open Source Real-time AI HuggingFace Video Generation diffusion-models

Descubre Helios, el modelo de generación de video de 14B parámetros de PKU-YuanGroup que genera videos de alta calidad de escala de minutos a 19,5 FPS en una sola GPU H100. Sin trucos anti-deriva, sin hacks de aceleración - solo innovación arquitectónica pura. Soporta T2V, I2V, V2V y generación interactiva con soporte Día-0 para Diffusers, SGLang, vLLM-Omni y Ascend NPU. Ejecútalo localmente con ~6GB VRAM usando offloading de grupo. Código completo de entrenamiento y tres variantes de modelo (Base, Mid, Distilled) disponibles ahora.

Leer más Original

Proyectos Prácticos de Código Abierto

WhisperLiveKit: Transcripción de Voz a Texto Local en Tiempo Real

August 30, 2025

Etiquetas:

Open Source Python Real-time AI Speech-to-Text Whisper

Descubre WhisperLiveKit, un potente proyecto de código abierto que permite el reconocimiento de voz a texto, la traducción y la diarización de hablantes en tiempo real y de forma totalmente local. Aprovecha investigaciones de vanguardia como SimulStreaming y WhisperStreaming para una precisión sin precedentes y una baja latencia, superando las limitaciones del procesamiento tradicional de fragmentos de audio. Con un servidor y una interfaz web fáciles de usar, WhisperLiveKit es ideal para aplicaciones que van desde transcripciones de reuniones y herramientas de accesibilidad hasta la creación de contenido y el análisis de atención al cliente. El proyecto ofrece una instalación sencilla a través de pip, varias opciones de configuración para diferentes modelos y backends, y guías de implementación robustas tanto para entornos de CPU como de GPU utilizando Docker.

Leer más Original

Proyectos Prácticos de Código Abierto

TEN VAD: Detector de actividad de voz de alto rendimiento y peso ligero

June 30, 2025

Etiquetas:

Open Source Real-time AI Voice Activity Detection Speech Processing Conversational AI

Descubra TEN VAD, un detector de actividad de voz (VAD) avanzado de baja latencia del framework TEN. Diseñado para la IA conversacional en tiempo real, TEN VAD ofrece una precisión y eficiencia superiores en comparación con los estándares de la industria como WebRTC VAD y Silero VAD. Cuenta con una huella ligera, compatibilidad multiplataforma (Linux, Windows, macOS, Android, iOS, Web a través de WASM) y soporte integral de lenguajes incluyendo Python, JS y C. Este proyecto de código abierto es ideal para desarrolladores que crean aplicaciones de voz de alto rendimiento y fáciles de usar para agentes, proporcionando capacidades robustas para una detección de voz precisa y una latencia reducida en las interacciones entre humanos y agentes. Explore sus características, guías de instalación y cómo encaja en el ecosistema más amplio de TEN para la IA conversacional multimodal.

Leer más Original

Proyectos Prácticos de Código Abierto

Airi: Open-Source AI VTuber for Real-Time Interaction

June 09, 2025

Etiquetas:

Open Source AI AI VTuber Virtual Character Real-time AI Minecraft AI

Descubre Airi, un ambicioso proyecto de código abierto que busca crear personajes virtuales potenciados por IA, capaces de chatear por voz en tiempo real e incluso jugar a Minecraft y Factorio. Desarrollado con tecnologías web como WebGPU y WebAudio, Airi está diseñado para ser accesible, funcionando sin problemas tanto en navegadores como en escritorio. Este proyecto destaca al invitar a desarrolladores, artistas y diseñadores a contribuir a su visión de traer waifus IA y personalidades virtuales a nuestros mundos digitales. Infórmate sobre sus capacidades actuales, su hoja de ruta de desarrollo y cómo puedes involucrarte en dar forma al futuro de los compañeros virtuales impulsados por IA.

Leer más Original

Categorías

Publicaciones etiquetadas con: Real-time AI

Helios: Generación de Video en Tiempo Real de 14B a 19,5 FPS

WhisperLiveKit: Transcripción de Voz a Texto Local en Tiempo Real

TEN VAD: Detector de actividad de voz de alto rendimiento y peso ligero

Airi: Open-Source AI VTuber for Real-Time Interaction