Publications marquées avec: LLM inference

Content related to LLM inference

397B MoE sur MacBook : 4,4 t/s Moteur Flash-MoE

April 03, 2026

Flash-MoE exécute Qwen3.5-397B-A17B (397 milliards de paramètres) sur un MacBook Pro M3 Max avec 48 Go de RAM à 4,4+ jetons/seconde. Inférence pure C/Metal diffuse le modèle de 209 Go depuis le SSD avec une sortie de qualité production incluant les appels d'outils. Innovations clés : noyaux de déquantification optimisés FMA (+12 % de vitesse), streaming d'experts via cache de pages OS, calcul GPU différé, et shaders Metal ajustés manuellement. 58 expériences documentées avec article technique complet.

TurboQuant+ : Compression du cache KV de 6,4x pour les LLMs

March 29, 2026

TurboQuant+ implémente la percée de compression du cache KV de l'ICLR 2026, atteignant une compression de 4,6-6,4x avec une qualité et une vitesse proches de q8_0. Fonctionnalités : formats turbo2/turbo3/turbo4, décodage Sparse V attention-gated (+22,8 % de vitesse de décodage), et intégration complète Metal llama.cpp. Exécutez Qwen 3.5 35B-A3B sur M5 Max avec 93,9 % de récupération NIAH et vitesse de pré-remplissage 1,02x q8_0. Prototype Python complet avec 511+ tests et validation communautaire sur Apple Silicon, NVIDIA et AMD.

Exécuter TinyLlama sur une carte à 10 $ avec PicoLM – Tutoriel complet

February 27, 2026

Découvrez comment PicoLM transforme une carte Raspberry Pi ou LicheeRV à 10 $ en un puissant hôte LLM local. Ce tutoriel vous guide à travers le téléchargement du modèle TinyLlama 1.1B, la compilation du moteur uniquement en C, la configuration de PicoClaw pour un chat hors ligne, et la mesure des performances sur un matériel économique. Apprenez la conception sans dépendances, l’attention flash, et les contraintes de grammaire JSON qui vous permettent de générer des sorties structurées sur un appareil minuscule. Idéal pour les développeurs souhaitant un LLM à faible coût, respectueux de la vie privée, sur matériel de bord.