标记为的帖子: Llama.cpp

Content related to Llama.cpp

TurboQuant+:LLM 的 6.4 倍 KV 缓存压缩

March 29, 2026

TurboQuant+ 实现了 ICLR 2026 的突破性 KV 缓存压缩,在接近 q8_0 质量和速度下实现 4.6-6.4 倍压缩。支持 turbo2/turbo3/turbo4 格式、注意力门控 Sparse V 解码(+22.8% 解码速度),以及完整的 llama.cpp Metal 集成。在 M5 Max 上运行 Qwen 3.5 35B-A3B,实现 93.9% NIAH 检索和 1.02 倍 q8_0 预填充速度。完整的 Python 原型,包含 511+ 测试,并在 Apple Silicon、NVIDIA 和 AMD 上经过社区验证。

在本地运行人工智能:适用于 iOS 和 Android 的 RunAnywhere SDK

November 12, 2025

探索 RunAnywhere SDK,这是一个开源工具包,支持 iOS 和 Android 应用实现隐私优先的设备端 AI。这份全面的指南涵盖了高性能文本生成、语音 AI 流水线、结构化输出以及无缝模型管理等功能。了解如何将大型语言模型(如 Llama.cpp)直接集成到您的移动应用中,以提升隐私保护并优化用户体验。无论您是开发聊天应用还是语音助手,RunAnywhere 都能为您提供所需的工具和灵活性,帮助您直接在用户设备上部署 AI 模型、优化性能并维护数据隐私。即刻通过快速示例上手,并了解未来的增强路线图。