Publications marquées avec: Llama.cpp

Content related to Llama.cpp

TurboQuant+ : Compression du cache KV de 6,4x pour les LLMs

March 29, 2026

TurboQuant+ implémente la percée de compression du cache KV de l'ICLR 2026, atteignant une compression de 4,6-6,4x avec une qualité et une vitesse proches de q8_0. Fonctionnalités : formats turbo2/turbo3/turbo4, décodage Sparse V attention-gated (+22,8 % de vitesse de décodage), et intégration complète Metal llama.cpp. Exécutez Qwen 3.5 35B-A3B sur M5 Max avec 93,9 % de récupération NIAH et vitesse de pré-remplissage 1,02x q8_0. Prototype Python complet avec 511+ tests et validation communautaire sur Apple Silicon, NVIDIA et AMD.

Exécutez l'IA en local : SDK RunAnywhere pour iOS et Android

November 12, 2025

Découvrez les SDK RunAnywhere, une boîte à outils open-source qui permet d'intégrer l'IA directement sur les appareils iOS et Android en privilégiant la protection de la vie privée. Ce guide complet couvre des fonctionnalités telles que la génération de texte haute performance, les pipelines d'IA vocale, les sorties structurées et la gestion transparente des modèles. Apprenez à intégrer des LLM (comme Llama.cpp) directement dans vos applications mobiles pour une confidentialité et une expérience utilisateur améliorées. Que vous développiez une application de chat ou un assistant vocal, RunAnywhere offre les outils et la flexibilité nécessaires pour déployer des modèles d'IA directement sur les appareils des utilisateurs, optimiser les performances et maintenir la confidentialité des données. Commencez avec des exemples rapides et explorez la feuille de route des améliorations futures.