Publications marquées avec: Llama.cpp

Content related to Llama.cpp

TurboQuant+ : Compression du cache KV de 6,4x pour les LLMs

March 29, 2026

Étiquettes:

Apple Silicon Llama.cpp LLM inference KV cache compression TurboQuant

TurboQuant+ implémente la percée de compression du cache KV de l'ICLR 2026, atteignant une compression de 4,6-6,4x avec une qualité et une vitesse proches de q8_0. Fonctionnalités : formats turbo2/turbo3/turbo4, décodage Sparse V attention-gated (+22,8 % de vitesse de décodage), et intégration complète Metal llama.cpp. Exécutez Qwen 3.5 35B-A3B sur M5 Max avec 93,9 % de récupération NIAH et vitesse de pré-remplissage 1,02x q8_0. Prototype Python complet avec 511+ tests et validation communautaire sur Apple Silicon, NVIDIA et AMD.

Lire plus Original

Projets Open Source Pratiques

Exécutez l'IA en local : SDK RunAnywhere pour iOS et Android

November 12, 2025

Étiquettes:

Open Source LLMs Machine Learning On-device AI mobile AI iOS SDK Android SDK Privacy-first AI Llama.cpp

Découvrez les SDK RunAnywhere, une boîte à outils open-source qui permet d'intégrer l'IA directement sur les appareils iOS et Android en privilégiant la protection de la vie privée. Ce guide complet couvre des fonctionnalités telles que la génération de texte haute performance, les pipelines d'IA vocale, les sorties structurées et la gestion transparente des modèles. Apprenez à intégrer des LLM (comme Llama.cpp) directement dans vos applications mobiles pour une confidentialité et une expérience utilisateur améliorées. Que vous développiez une application de chat ou un assistant vocal, RunAnywhere offre les outils et la flexibilité nécessaires pour déployer des modèles d'IA directement sur les appareils des utilisateurs, optimiser les performances et maintenir la confidentialité des données. Commencez avec des exemples rapides et explorez la feuille de route des améliorations futures.

Lire plus Original

Catégories

Publications marquées avec: Llama.cpp

TurboQuant+ : Compression du cache KV de 6,4x pour les LLMs

Exécutez l'IA en local : SDK RunAnywhere pour iOS et Android