Catégories
- Toutes les publications 548
- Projets Open Source Pratiques 478
- Articles Tutoriels 22
- Utilitaires en ligne 13
- Actualités IA 7
- Tiny Startups Showcase 7
- Modèles d'Invites 5
- Claude Code Skills 5
- Espaces Hugging Face 3
- OpenClaw Use Cases 3
- LLM Learning Resources 1
- Online AI Image Tools 1
- OpenClaw Master Skills Collection 1
- Rust Training Resources 1
- AI Short Drama Tools 1
- Mes favoris 0
Publications marquées avec: LLM inference
Content related to LLM inference
397B MoE sur MacBook : 4,4 t/s Moteur Flash-MoE
Flash-MoE exécute Qwen3.5-397B-A17B (397 milliards de paramètres) sur un MacBook Pro M3 Max avec 48 Go de RAM à 4,4+ jetons/seconde. Inférence pure C/Metal diffuse le modèle de 209 Go depuis le SSD avec une sortie de qualité production incluant les appels d'outils. Innovations clés : noyaux de déquantification optimisés FMA (+12 % de vitesse), streaming d'experts via cache de pages OS, calcul GPU différé, et shaders Metal ajustés manuellement. 58 expériences documentées avec article technique complet.
TurboQuant+ : Compression du cache KV de 6,4x pour les LLMs
TurboQuant+ implémente la percée de compression du cache KV de l'ICLR 2026, atteignant une compression de 4,6-6,4x avec une qualité et une vitesse proches de q8_0. Fonctionnalités : formats turbo2/turbo3/turbo4, décodage Sparse V attention-gated (+22,8 % de vitesse de décodage), et intégration complète Metal llama.cpp. Exécutez Qwen 3.5 35B-A3B sur M5 Max avec 93,9 % de récupération NIAH et vitesse de pré-remplissage 1,02x q8_0. Prototype Python complet avec 511+ tests et validation communautaire sur Apple Silicon, NVIDIA et AMD.
Exécuter TinyLlama sur une carte à 10 $ avec PicoLM – Tutoriel complet
Découvrez comment PicoLM transforme une carte Raspberry Pi ou LicheeRV à 10 $ en un puissant hôte LLM local. Ce tutoriel vous guide à travers le téléchargement du modèle TinyLlama 1.1B, la compilation du moteur uniquement en C, la configuration de PicoClaw pour un chat hors ligne, et la mesure des performances sur un matériel économique. Apprenez la conception sans dépendances, l’attention flash, et les contraintes de grammaire JSON qui vous permettent de générer des sorties structurées sur un appareil minuscule. Idéal pour les développeurs souhaitant un LLM à faible coût, respectueux de la vie privée, sur matériel de bord.