タグ付けされた投稿: Llama.cpp

Content related to Llama.cpp

TurboQuant+: LLM 向け 6.4 倍 KV キャッシュ圧縮

March 29, 2026

タグ:

Apple Silicon Llama.cpp LLM inference KV cache compression TurboQuant

TurboQuant+ は ICLR 2026 の画期的な KV キャッシュ圧縮を実装し、q8_0 に近い品質と速度で 4.6-6.4 倍圧縮を実現。turbo2/turbo3/turbo4 フォーマット、注意ゲート付き Sparse V デコーディング（+22.8% デコード速度）、llama.cpp Metal フル統合を特徴とします。M5 Max で Qwen 3.5 35B-A3B を 93.9% NIAH 検索と q8_0 prefill 速度 1.02 倍で実行。511+ テスト付き完全 Python プロトタイプと Apple Silicon、NVIDIA、AMD でのコミュニティ検証。

詳細を読むオリジナル

実用的なオープンソースプロジェクト

AIをローカルで実行：iOSおよびAndroid向けRunAnywhere SDK

November 12, 2025

タグ:

Open Source LLMs Machine Learning On-device AI mobile AI iOS SDK Android SDK Privacy-first AI Llama.cpp

ユーザーのプライバシーを最優先しながら、iOSおよびAndroidアプリケーションでデバイス上AIを実現するオープンソースツールキット、RunAnywhere SDKsをご紹介します。この包括的なガイドでは、高性能なテキスト生成、音声AIパイプライン、構造化出力、そしてシームレスなモデル管理といった機能について詳しく解説しています。 LLM（Llama.cppなど）をモバイルアプリに直接統合することで、プライバシーを強化し、ユーザーエクスペリエンスを向上させる方法を学びましょう。チャットアプリを開発している場合でも、音声アシスタントを構築している場合でも、RunAnywhereはAIモデルをユーザーのデバイスに直接デプロイし、パフォーマンスを最適化し、データプライバシーを維持するために必要なツールと柔軟性を提供します。クイック例から始め、今後の機能拡張に向けたロードマップをご覧ください。

詳細を読むオリジナル

カテゴリ

タグ付けされた投稿: Llama.cpp

TurboQuant+: LLM 向け 6.4 倍 KV キャッシュ圧縮

AIをローカルで実行：iOSおよびAndroid向けRunAnywhere SDK