标记为的帖子: Apple Silicon
Content related to Apple Silicon
MacBook 上 397B MoE:4.4 t/s Flash-MoE 引擎
Flash-MoE 在配备 48GB RAM 的 MacBook Pro M3 Max 上运行 Qwen3.5-397B-A17B(3970 亿参数),速度达 4.4+ 令牌/秒。纯 C/Metal 推理从 SSD 流式传输 209GB 模型,提供包括工具调用在内的生产级输出。主要创新:FMA 优化去量化内核(+12% 速度)、OS 页面缓存专家流式传输、延迟 GPU 计算和手动调优 Metal 着色器。记录了 58 个实验,并附完整技术论文。
TurboQuant+:LLM 的 6.4 倍 KV 缓存压缩
TurboQuant+ 实现了 ICLR 2026 的突破性 KV 缓存压缩,在接近 q8_0 质量和速度下实现 4.6-6.4 倍压缩。支持 turbo2/turbo3/turbo4 格式、注意力门控 Sparse V 解码(+22.8% 解码速度),以及完整的 llama.cpp Metal 集成。在 M5 Max 上运行 Qwen 3.5 35B-A3B,实现 93.9% NIAH 检索和 1.02 倍 q8_0 预填充速度。完整的 Python 原型,包含 511+ 测试,并在 Apple Silicon、NVIDIA 和 AMD 上经过社区验证。
oMLX:Mac 菜单栏 LLM 服务器,带 SSD 缓存
发现 oMLX,Apple Silicon Mac 的终极本地 LLM 服务器。从菜单栏运行 LLM、VLM 和嵌入,支持连续批处理、分层 KV 缓存(RAM + SSD)和多模型服务。功能包括管理仪表板、OpenAI API 兼容性、Claude 代码优化,以及一键从 Hugging Face 下载模型。通过 DMG、Homebrew 或源代码安装——完美适合想要生产级本地 AI 而无需云成本的开发者。
在 Apple Neural Engine 上训练 Transformer - ANE GitHub
发现 ANE Training:一个开创性的开源项目,通过逆向工程 Apple Neural Engine,直接在 M4 硬件上运行完整 Transformer 训练(前向 + 反向传播)。实现 9.3ms/步和 1.78 TFLOPS 持续性能,使用纯 ANE 计算——无 Metal,无 GPU。包含详细基准测试、MIL 程序生成、IOSurface 优化和通道优先布局。完美适用于推动硬件边界的 Apple Silicon ML 研究人员。
Apple 的容器化:macOS 上的 Linux 容器
探索 Apple 的开源 Swift 工具包“Containerization”,它让 Linux 容器能够在 macOS 上无缝运行。这个项目利用了 Apple 芯片上的 Virtualization.framework,提供了高效的容器管理、OCI 镜像处理以及轻量级虚拟机功能。了解开发者如何利用这个工具来简化工作流程,与远程注册表交互,甚至通过 Rosetta 2 运行 x86_64 容器。深入了解这个专为现代开发环境设计的创新解决方案的特性、要求和构建过程,它能实现亚秒级启动和灵活的内核配置。