Apple Silicon - Projets open source

397B MoE sur MacBook : 4,4 t/s Moteur Flash-MoE

April 03, 2026

Étiquettes:

Apple Silicon LLM inference Mixture of Experts Metal Compute Model Quantization

Flash-MoE exécute Qwen3.5-397B-A17B (397 milliards de paramètres) sur un MacBook Pro M3 Max avec 48 Go de RAM à 4,4+ jetons/seconde. Inférence pure C/Metal diffuse le modèle de 209 Go depuis le SSD avec une sortie de qualité production incluant les appels d'outils. Innovations clés : noyaux de déquantification optimisés FMA (+12 % de vitesse), streaming d'experts via cache de pages OS, calcul GPU différé, et shaders Metal ajustés manuellement. 58 expériences documentées avec article technique complet.

Lire plus Original

Projets Open Source Pratiques

TurboQuant+ : Compression du cache KV de 6,4x pour les LLMs

March 29, 2026

Étiquettes:

Apple Silicon Llama.cpp LLM inference KV cache compression TurboQuant

TurboQuant+ implémente la percée de compression du cache KV de l'ICLR 2026, atteignant une compression de 4,6-6,4x avec une qualité et une vitesse proches de q8_0. Fonctionnalités : formats turbo2/turbo3/turbo4, décodage Sparse V attention-gated (+22,8 % de vitesse de décodage), et intégration complète Metal llama.cpp. Exécutez Qwen 3.5 35B-A3B sur M5 Max avec 93,9 % de récupération NIAH et vitesse de pré-remplissage 1,02x q8_0. Prototype Python complet avec 511+ tests et validation communautaire sur Apple Silicon, NVIDIA et AMD.

Lire plus Original

Projets Open Source Pratiques

oMLX : Serveur LLM Barre de Menu Mac avec Cache SSD

March 10, 2026

Étiquettes:

Apple Silicon MLX oMLX LLM Server Mac AI

Découvrez oMLX, le serveur LLM local ultime pour Macs Apple Silicon. Exécutez LLM, VLM et embeddings depuis votre barre de menu avec batching continu, cache KV à niveaux (RAM + SSD) et serving multi-modèles. Fonctionnalités : tableau de bord admin, compatibilité OpenAI API, optimisation Claude Code et téléchargements de modèles Hugging Face en un clic. Installez via DMG, Homebrew ou source – parfait pour les développeurs voulant une IA locale de niveau production sans coûts cloud.

Lire plus Original

Projets Open Source Pratiques

Entraîner des Transformers sur le Neural Engine d'Apple - ANE GitHub

March 03, 2026

Étiquettes:

Apple Silicon Apple Neural Engine Transformer Training ANE ML Optimization

Découvrez ANE Training : un projet open-source révolutionnaire qui reverse-engineer le Neural Engine d'Apple pour exécuter un entraînement complet de transformers (passes forward + backward) directement sur le matériel M4. Atteignant 9,3 ms/étape et 1,78 TFLOPS de performances soutenues avec un calcul pur ANE - pas de Metal, pas de GPU. Inclut des benchmarks détaillés, génération de programmes MIL, optimisation IOSurface et layouts channel-first. Parfait pour les chercheurs ML Apple Silicon repoussant les limites du matériel.

Lire plus Original

Projets Open Source Pratiques

La conteneurisation d'Apple : des conteneurs Linux sur macOS

June 11, 2025

Étiquettes:

macOS Containerization Linux Containers Apple Silicon Swift

Découvrez le package Swift open-source d'Apple, « Containerization », qui permet d'exécuter des conteneurs Linux en toute fluidité sur macOS. Ce projet tire parti de Virtualization.framework sur les puces Apple pour offrir une gestion efficace des conteneurs, la prise en charge des images OCI et des machines virtuelles légères. Découvrez comment les développeurs peuvent utiliser cet outil pour rationaliser leurs flux de travail, interagir avec des registres distants, et même exécuter des conteneurs x86_64 grâce à Rosetta 2. Plongez dans les fonctionnalités, les prérequis et les processus de création de cette solution innovante conçue pour les environnements de développement modernes, offrant des temps de démarrage inférieurs à la seconde et des configurations de noyau flexibles.

Lire plus Original

Catégories

Publications marquées avec: Apple Silicon

397B MoE sur MacBook : 4,4 t/s Moteur Flash-MoE

TurboQuant+ : Compression du cache KV de 6,4x pour les LLMs

oMLX : Serveur LLM Barre de Menu Mac avec Cache SSD

Entraîner des Transformers sur le Neural Engine d'Apple - ANE GitHub

La conteneurisation d'Apple : des conteneurs Linux sur macOS