标记为的帖子: Llama.cpp

Content related to Llama.cpp

TurboQuant+：LLM 的 6.4 倍 KV 缓存压缩

March 29, 2026

标签:

Apple Silicon Llama.cpp LLM inference KV cache compression TurboQuant

TurboQuant+ 实现了 ICLR 2026 的突破性 KV 缓存压缩，在接近 q8_0 质量和速度下实现 4.6-6.4 倍压缩。支持 turbo2/turbo3/turbo4 格式、注意力门控 Sparse V 解码（+22.8% 解码速度），以及完整的 llama.cpp Metal 集成。在 M5 Max 上运行 Qwen 3.5 35B-A3B，实现 93.9% NIAH 检索和 1.02 倍 q8_0 预填充速度。完整的 Python 原型，包含 511+ 测试，并在 Apple Silicon、NVIDIA 和 AMD 上经过社区验证。

阅读更多原始

实用开源项目

在本地运行人工智能：适用于 iOS 和 Android 的 RunAnywhere SDK

November 12, 2025

标签:

Open Source LLMs Machine Learning On-device AI mobile AI iOS SDK Android SDK Privacy-first AI Llama.cpp

探索 RunAnywhere SDK，这是一个开源工具包，支持 iOS 和 Android 应用实现隐私优先的设备端 AI。这份全面的指南涵盖了高性能文本生成、语音 AI 流水线、结构化输出以及无缝模型管理等功能。了解如何将大型语言模型（如 Llama.cpp）直接集成到您的移动应用中，以提升隐私保护并优化用户体验。无论您是开发聊天应用还是语音助手，RunAnywhere 都能为您提供所需的工具和灵活性，帮助您直接在用户设备上部署 AI 模型、优化性能并维护数据隐私。即刻通过快速示例上手，并了解未来的增强路线图。

阅读更多原始

分类

标记为的帖子: Llama.cpp

TurboQuant+：LLM 的 6.4 倍 KV 缓存压缩

在本地运行人工智能：适用于 iOS 和 Android 的 RunAnywhere SDK