タグ付けされた投稿: Llama.cpp

Content related to Llama.cpp

TurboQuant+: LLM 向け 6.4 倍 KV キャッシュ圧縮

March 29, 2026

TurboQuant+ は ICLR 2026 の画期的な KV キャッシュ圧縮を実装し、q8_0 に近い品質と速度で 4.6-6.4 倍圧縮を実現。turbo2/turbo3/turbo4 フォーマット、注意ゲート付き Sparse V デコーディング(+22.8% デコード速度)、llama.cpp Metal フル統合を特徴とします。M5 Max で Qwen 3.5 35B-A3B を 93.9% NIAH 検索と q8_0 prefill 速度 1.02 倍で実行。511+ テスト付き完全 Python プロトタイプと Apple Silicon、NVIDIA、AMD でのコミュニティ検証。

AIをローカルで実行:iOSおよびAndroid向けRunAnywhere SDK

November 12, 2025

ユーザーのプライバシーを最優先しながら、iOSおよびAndroidアプリケーションでデバイス上AIを実現するオープンソースツールキット、RunAnywhere SDKsをご紹介します。この包括的なガイドでは、高性能なテキスト生成、音声AIパイプライン、構造化出力、そしてシームレスなモデル管理といった機能について詳しく解説しています。 LLM(Llama.cppなど)をモバイルアプリに直接統合することで、プライバシーを強化し、ユーザーエクスペリエンスを向上させる方法を学びましょう。チャットアプリを開発している場合でも、音声アシスタントを構築している場合でも、RunAnywhereはAIモデルをユーザーのデバイスに直接デプロイし、パフォーマンスを最適化し、データプライバシーを維持するために必要なツールと柔軟性を提供します。 クイック例から始め、今後の機能拡張に向けたロードマップをご覧ください。