タグ付けされた投稿: LLM inference

Content related to LLM inference

MacBook 上の 397B MoE:4.4 t/s Flash-MoE エンジン

April 03, 2026

Flash-MoE は、48GB RAM の MacBook Pro M3 Max で Qwen3.5-397B-A17B(3970億パラメータ)を 4.4+ トークン/秒で実行します。純粋な C/Metal 推論により、209GB モデルを SSD からストリーミングし、ツール呼び出しを含むプロダクション品質の出力を提供します。主要イノベーション:FMA 最適化デ量子化カーネル(+12% 速度)、OS ページキャッシュエキスパートストリーミング、遅延 GPU 計算、手動調整 Metal シェーダー。58 実験が文書化され、完全な技術論文付き。

TurboQuant+: LLM 向け 6.4 倍 KV キャッシュ圧縮

March 29, 2026

TurboQuant+ は ICLR 2026 の画期的な KV キャッシュ圧縮を実装し、q8_0 に近い品質と速度で 4.6-6.4 倍圧縮を実現。turbo2/turbo3/turbo4 フォーマット、注意ゲート付き Sparse V デコーディング(+22.8% デコード速度)、llama.cpp Metal フル統合を特徴とします。M5 Max で Qwen 3.5 35B-A3B を 93.9% NIAH 検索と q8_0 prefill 速度 1.02 倍で実行。511+ テスト付き完全 Python プロトタイプと Apple Silicon、NVIDIA、AMD でのコミュニティ検証。

PicoLMで10ドル台のボード上でTinyLlamaを実行する – 完全チュートリアル

February 27, 2026

PicoLMが10ドル台のRaspberry PiまたはLicheeRVボードを強力なローカルLLMホストへ変える方法を発見してください。このチュートリアルでは、TinyLlama 1.1Bモデルのダウンロード、Cのみのエンジンのコンパイル、オフラインチャット用にPicoClawを設定、そして経済的なハードウェアでのパフォーマンスベンチマークを体験します。ゼロ依存設計、Flash Attention、JSON文法制約について学び、わずかなデバイス上で構造化された出力を生成する方法を知ります。コストパフォーマンスが高く、プライバシーを守るエッジハードウェア用LLMを求める開発者に最適です。