Apple Silicon - 开源项目

MacBook 上 397B MoE：4.4 t/s Flash-MoE 引擎

April 03, 2026

标签:

Apple Silicon LLM inference Mixture of Experts Metal Compute Model Quantization

Flash-MoE 在配备 48GB RAM 的 MacBook Pro M3 Max 上运行 Qwen3.5-397B-A17B（3970 亿参数），速度达 4.4+ 令牌/秒。纯 C/Metal 推理从 SSD 流式传输 209GB 模型，提供包括工具调用在内的生产级输出。主要创新：FMA 优化去量化内核（+12% 速度）、OS 页面缓存专家流式传输、延迟 GPU 计算和手动调优 Metal 着色器。记录了 58 个实验，并附完整技术论文。

阅读更多原始

实用开源项目

TurboQuant+：LLM 的 6.4 倍 KV 缓存压缩

March 29, 2026

标签:

Apple Silicon Llama.cpp LLM inference KV cache compression TurboQuant

TurboQuant+ 实现了 ICLR 2026 的突破性 KV 缓存压缩，在接近 q8_0 质量和速度下实现 4.6-6.4 倍压缩。支持 turbo2/turbo3/turbo4 格式、注意力门控 Sparse V 解码（+22.8% 解码速度），以及完整的 llama.cpp Metal 集成。在 M5 Max 上运行 Qwen 3.5 35B-A3B，实现 93.9% NIAH 检索和 1.02 倍 q8_0 预填充速度。完整的 Python 原型，包含 511+ 测试，并在 Apple Silicon、NVIDIA 和 AMD 上经过社区验证。

阅读更多原始

实用开源项目

oMLX：Mac 菜单栏 LLM 服务器，带 SSD 缓存

March 10, 2026

标签:

Apple Silicon MLX oMLX LLM Server Mac AI

发现 oMLX，Apple Silicon Mac 的终极本地 LLM 服务器。从菜单栏运行 LLM、VLM 和嵌入，支持连续批处理、分层 KV 缓存（RAM + SSD）和多模型服务。功能包括管理仪表板、OpenAI API 兼容性、Claude 代码优化，以及一键从 Hugging Face 下载模型。通过 DMG、Homebrew 或源代码安装——完美适合想要生产级本地 AI 而无需云成本的开发者。

阅读更多原始

实用开源项目

在 Apple Neural Engine 上训练 Transformer - ANE GitHub

March 03, 2026

标签:

Apple Silicon Apple Neural Engine Transformer Training ANE ML Optimization

发现 ANE Training：一个开创性的开源项目，通过逆向工程 Apple Neural Engine，直接在 M4 硬件上运行完整 Transformer 训练（前向 + 反向传播）。实现 9.3ms/步和 1.78 TFLOPS 持续性能，使用纯 ANE 计算——无 Metal，无 GPU。包含详细基准测试、MIL 程序生成、IOSurface 优化和通道优先布局。完美适用于推动硬件边界的 Apple Silicon ML 研究人员。

阅读更多原始

实用开源项目

Apple 的容器化：macOS 上的 Linux 容器

June 11, 2025

标签:

macOS Containerization Linux Containers Apple Silicon Swift

探索 Apple 的开源 Swift 工具包“Containerization”，它让 Linux 容器能够在 macOS 上无缝运行。这个项目利用了 Apple 芯片上的 Virtualization.framework，提供了高效的容器管理、OCI 镜像处理以及轻量级虚拟机功能。了解开发者如何利用这个工具来简化工作流程，与远程注册表交互，甚至通过 Rosetta 2 运行 x86_64 容器。深入了解这个专为现代开发环境设计的创新解决方案的特性、要求和构建过程，它能实现亚秒级启动和灵活的内核配置。

阅读更多原始

分类

标记为的帖子: Apple Silicon

MacBook 上 397B MoE：4.4 t/s Flash-MoE 引擎

TurboQuant+：LLM 的 6.4 倍 KV 缓存压缩

oMLX：Mac 菜单栏 LLM 服务器，带 SSD 缓存

在 Apple Neural Engine 上训练 Transformer - ANE GitHub

Apple 的容器化：macOS 上的 Linux 容器