Categorías
- Todas las publicaciones 549
- Proyectos Prácticos de Código Abierto 478
- Artículos Tutoriales 22
- Utilidades en Línea 13
- Noticias de IA 7
- Tiny Startups Showcase 7
- Claude Code Skills 6
- Plantillas de Prompts 5
- Espacios de Hugging Face 3
- OpenClaw Use Cases 3
- LLM Learning Resources 1
- Online AI Image Tools 1
- OpenClaw Master Skills Collection 1
- Rust Training Resources 1
- AI Short Drama Tools 1
- Mis Favoritos 0
Proyectos Prácticos de Código Abierto
Proyectos prácticos de código abierto
OpenCLI: Convierte cualquier sitio web en una herramienta CLI
Descubre OpenCLI, la herramienta CLI revolucionaria que transforma sitios web, aplicaciones Electron y herramientas locales en interfaces de línea de comandos. Reutiliza tus sesiones de inicio de sesión de Chrome de forma segura mientras accedes a más de 50 plataformas como Bilibili, Twitter, Reddit y más. Perfecta para agentes de IA con costo cero en LLM, salidas determinísticas y descubrimiento automático de CLI externos (gh, docker, obsidian). Instala vía npm y empieza a CLI-fy tu experiencia de navegador hoy!
Recordly: Grabador de pantalla de código abierto con edición profesional
Recordly revoluciona la grabación de pantalla con herramientas de edición profesional integradas. Captura tu pantalla o ventana, luego edita instantáneamente con zooms automáticos, efectos de cursor suaves, superposiciones dinámicas de webcam, recorte de línea de tiempo y fotogramas estilizados. Exporta MP4 o GIF pulidos listos para tutoriales, demos y clips sociales. El soporte multiplataforma para macOS, Windows y Linux lo hace accesible para todos los desarrolladores y creadores de contenido. ¡Descubre por qué 3.1k estrellas no pueden estar equivocadas!
Compilaciones automáticas de FFmpeg: Binarios estáticos para Windows y Linux
Descubre BtbN/FFmpeg-Builds, el repositorio definitivo de GitHub que ofrece compilaciones estáticas diarias de FFmpeg para Windows (x86_64, ARM64) y Linux. Con 10.6k estrellas, ofrece variantes GPL/LGPL/nonfree, lanzamientos automáticos y compilaciones personalizadas fáciles basadas en Docker. Perfecto para desarrolladores que necesitan binarios de FFmpeg confiables y con dependencias sin dolores de cabeza de compilación. Aprende cómo generar tus propias compilaciones en minutos.
Page Agent: Controla interfaces web con lenguaje natural
Descubre Page Agent, el agente GUI en-página revolucionario de Alibaba que transforma las interfaces web en playgrounds de lenguaje natural. Sin extensiones de navegador, sin Python, sin navegadores headless—solo magia pura de JavaScript. Con 10.5k estrellas en GitHub y licencia MIT, este powerhouse TypeScript habilita copilotos AI SaaS, relleno inteligente de formularios, mejoras de accesibilidad y automatización multipágina. Integra en una línea de código y ejecuta comandos como 'Click the login button'. Perfecto para desarrolladores que construyen experiencias web inteligentes.
FunCineForge: Pipeline de Doblaje de Películas Zero-Shot
Descubre FunCineForge, el kit de herramientas de código abierto revolucionario para crear conjuntos de datos de doblaje de películas a gran escala y desplegar modelos de doblaje zero-shot. Este pipeline de principio a fin maneja el procesamiento de video, separación de habla, diarización de hablantes y correcciones multimodales usando MLLMs. Construye conjuntos de datos CineDub-CN/EN a partir de material crudo y genera doblajes de alta calidad con sincronización perfecta de labios y coincidencia de timbre. Incluye código de inferencia, muestras de demo y soporta tanto chino como inglés. Perfecto para investigadores de IA y creadores de contenido.
VoiceChanger: Conversión de Voz en Tiempo Real de Código Abierto
Descubre cómo VoiceChanger te permite transformar la voz al instante utilizando modelos de IA de vanguardia como Beatrice y RVC. Este proyecto de código abierto cuenta con una GUI multiplataforma, soporte Docker, modo red y tutoriales para AMD Linux y Google Colab. Ya sea que seas desarrollador de juegos, streamer o aficionado, aprende a instalar, configurar y actualizar el software en minutos y explora el emocionante mundo de la manipulación de voz en tiempo real.
EasyOCR: Una biblioteca OCR rápida y multilingüe para Python
EasyOCR trae soporte para más de 80 idiomas directamente a tus proyectos Python. Con una rápida instalación vía pip, descargas de modelos ligeros y una API intuitiva, puedes extraer texto de imágenes en segundos. Esta guía cubre todo, desde el uso básico y conjuntos de idiomas personalizados hasta despliegue con Docker e integración con Hugging Face Space. Ya sea que estés construyendo una herramienta de gestión de fotos o una canalización de entrada de datos, EasyOCR te brinda la velocidad y precisión que necesitas.
VibeVoice: El conjunto de herramientas de IA de voz de código abierto de Microsoft
Explora VibeVoice, el kit de herramientas de código abierto de vanguardia de Microsoft que ofrece ASR de larga duración, TTS multihablante y streaming en tiempo real a desarrolladores e investigadores. Aprende a aprovechar su canal de ASR de 60 minutos, su TTS de 90 minutos y su modelo ligero en tiempo real, y descubre la integración con Hugging Face Transformers para un despliegue sin problemas.
RCLI: IA de voz en dispositivo para macOS – Sin nube, rápido
RCLI convierte tu Mac en un asistente de voz totalmente local y explorador de documentos. Impulsado por el motor GPU MetalRT de Apple Silicon, ejecuta STT, LLM y TTS de última generación localmente—sin nube, sin claves API. Descubre cómo instalarlo con Homebrew, controlar 38 acciones de macOS, incrustar PDFs con RAG <4 ms y comparar MetalRT con llama.cpp. Ya seas desarrollador, usuario avanzado o entusiasta de la IA, RCLI trae la IA local más vanguardista a tu escritorio con un mínimo de configuración. Descubre por qué este repo es imprescindible para cualquiera que esté construyendo herramientas macOS impulsadas por voz.
LiveTalking: Humano Digital de IA en Tiempo Real con Sincronización de Labios
Descubre LiveTalking, el potente proyecto de código abierto para crear humanos digitales interactivos en tiempo real. Este proyecto en Python soporta múltiples modelos (wav2lip, musetalk, ernerf) con clonación de voz, streaming WebRTC y manejo de interrupciones. Despliega vía Docker, ejecuta en GPU con rendimiento de 60+ FPS y crea avatares parlantes de grado comercial. Perfecto para streamers, educadores y desarrolladores de IA que buscan soluciones de sincronización de labios listas para producción.