Apple Silicon - Proyectos de código abierto

397B MoE en MacBook: Motor Flash-MoE a 4,4 t/s

April 03, 2026

Etiquetas:

Apple Silicon LLM inference Mixture of Experts Metal Compute Model Quantization

Flash-MoE ejecuta Qwen3.5-397B-A17B (397 mil millones de parámetros) en un MacBook Pro M3 Max con 48 GB de RAM a 4,4+ tokens/segundo. Inferencia pura C/Metal transmite modelo de 209 GB desde SSD con salida de calidad de producción incluyendo llamadas a herramientas. Innovaciones clave: kernels de desquantización optimizados con FMA (+12% de velocidad), streaming de expertos con caché de páginas del SO, cómputo GPU diferido y shaders Metal ajustados manualmente. 58 experimentos documentados con paper técnico completo.

Leer más Original

Proyectos Prácticos de Código Abierto

TurboQuant+: Compresión de Caché KV 6.4x para LLMs

March 29, 2026

Etiquetas:

Apple Silicon Llama.cpp LLM inference KV cache compression TurboQuant

TurboQuant+ implementa el avance de compresión de caché KV de ICLR 2026, logrando compresión 4.6-6.4x con calidad y velocidad cercanas a q8_0. Incluye formatos turbo2/turbo3/turbo4, decodificación Sparse V con puerta de atención (+22.8% velocidad de decodificación) e integración completa con llama.cpp Metal. Ejecuta Qwen 3.5 35B-A3B en M5 Max con 93.9% recuperación NIAH y velocidad de prefill 1.02x q8_0. Prototipo Python completo con más de 511 pruebas y validación comunitaria en Apple Silicon, NVIDIA y AMD.

Leer más Original

Proyectos Prácticos de Código Abierto

oMLX: Servidor LLM en la barra de menús de Mac con caché SSD

March 10, 2026

Etiquetas:

Apple Silicon MLX oMLX LLM Server Mac AI

Descubre oMLX, el servidor local de LLM definitivo para Macs con Apple Silicon. Ejecuta LLMs, VLMs y embeddings desde tu barra de menús con batching continuo, caché KV escalonado (RAM + SSD) y servicio multi-modelo. Incluye panel de administración, compatibilidad con API de OpenAI, optimización para código Claude y descargas de modelos de un clic desde Hugging Face. Instala vía DMG, Homebrew o fuente – perfecto para desarrolladores que quieren IA local de grado de producción sin costos en la nube.

Leer más Original

Proyectos Prácticos de Código Abierto

Entrena Transformers en Apple Neural Engine - GitHub ANE

March 03, 2026

Etiquetas:

Apple Silicon Apple Neural Engine Transformer Training ANE ML Optimization

Descubre ANE Training: un proyecto open-source revolucionario que ingenieriza inversamente el Neural Engine de Apple para ejecutar entrenamiento completo de transformers (pases forward + backward) directamente en hardware M4. Logrando 9.3ms/paso y 1.78 TFLOPS de rendimiento sostenido con computación pura ANE - sin Metal, sin GPU. Incluye benchmarks detallados, generación de programas MIL, optimización IOSurface y layouts channel-first. Perfecto para investigadores ML de Apple Silicon que empujan los límites del hardware.

Leer más Original

Proyectos Prácticos de Código Abierto

La contenerización de Apple: contenedores de Linux en macOS

June 11, 2025

Etiquetas:

macOS Containerization Linux Containers Apple Silicon Swift

Descubre 'Containerization', el paquete Swift de código abierto de Apple que permite ejecutar contenedores Linux sin problemas en macOS. Este proyecto aprovecha Virtualization.framework en los chips de Apple (Apple silicon) para ofrecer una gestión eficiente de contenedores, manejo de imágenes OCI y máquinas virtuales ligeras. Aprende cómo los desarrolladores pueden usar esta herramienta para agilizar sus flujos de trabajo, interactuar con registros remotos e incluso ejecutar contenedores x86_64 usando Rosetta 2. Sumérgete en las características, requisitos y procesos de compilación de esta innovadora solución diseñada para entornos de desarrollo modernos, que ofrece arranques en menos de un segundo y configuraciones de kernel flexibles.

Leer más Original

Categorías

Publicaciones etiquetadas con: Apple Silicon

397B MoE en MacBook: Motor Flash-MoE a 4,4 t/s

TurboQuant+: Compresión de Caché KV 6.4x para LLMs

oMLX: Servidor LLM en la barra de menús de Mac con caché SSD

Entrena Transformers en Apple Neural Engine - GitHub ANE

La contenerización de Apple: contenedores de Linux en macOS