NexaSDK : Exécuter l'IA multimodale sur appareil avec modèles Day‑0

January 16, 2026

Catégorie: Projets Open Source Pratiques

Étiquettes:

Open Source On-device AI nexa-sdk multimodal SDK

NexaSDK : Exécuter l'IA multimodale sur appareil avec modèles Day‑0

Qu'est-ce que NexaSDK ?

NexaSDK est un cadre d’inférence haute performance et multiplateforme qui permet aux développeurs d'exécuter les modèles linguistiques de grande taille (LLM), les modèles vision-langage (VLM), les systèmes de reconnaissance automatique de la parole (ASR), la reconnaissance optique de caractères (OCR) et les modèles de génération d’images directement sur l’appareil — GPU, NPU ou CPU — sans dépendre de services cloud. Conçu sur les principes de consommation énergétique minimale et de vitesse maximale, NexaSDK prend en charge le chargement day‑0 pour un petit nombre de sorties multimodales récentes telles que Qwen3‑VL, Gemini‑3n (Vision), DeepSeek‑OCR et Granite‑4.0.

Pourquoi NexaSDK se démarque

Fonctionnalité	NexaSDK	Ollama	llama.cpp	LM Studio
Support NPU	✅	❌	❌	❌
Multiplateforme (Android, iOS, Windows, macOS, Linux, IoT)	✅	⚠️	⚠️	❌
Support modèle Day‑0 (GGUF, MLX, NEXA)	✅	❌	⚠️	❌
Multimodal complet	✅	⚠️	⚠️	⚠️
Déploiement en une ligne	✅	✅	⚠️	✅
API compatibles OpenAI	✅	✅	✅	✅

Le résultat : convivial pour les développeurs, éco‑énergétique et prêt à l’emploi. Que vous construisiez un prototype rapide ou une application de production, NexaSDK vous offre la liberté d’expérimenter localement avec une large gamme de modèles.

Plateformes et SDK supportés

Plateforme	Démarrage rapide	Langage SDK
Windows macOS Linux (Desktop)	CLI	Python / C++
Android	SDK Android	Kotlin/Java
iOS / macOS	SDK iOS	Swift
Linux / IoT (Docker)	Docker	Aucun (CLI dans le conteneur)

Exemple : Exécution de Qwen3‑1.7B sur le CLI

# Installation
pip install nexaai

# Charger le modèle et converser
from nexaai import LLM, LlmChatMessage, GenerationConfig, ModelConfig

llm = LLM.from_(model="NexaAI/Qwen3-1.7B-GGUF", config=ModelConfig())
conversation = [LlmChatMessage(role="user", content="Tell me a joke!")]
prompt = llm.apply_chat_template(conversation)
for token in llm.generate_stream(prompt, GenerationConfig(max_tokens=150)):
    print(token, end="", flush=True)

La sortie arrive en temps réel, comme un appel cloud, mais toutes les calculs restent sur l’appareil local.

Support des modèles Day‑0

Day‑0 signifie que le modèle est prêt à s’exécuter immédiatement après le téléchargement — aucune conversion ou entraînement supplémentaire requis. NexaSDK prend en charge des milliers de poids GGUF compilés par la communauté ainsi que les formats natifs NEXA et MLX. Le SDK détecte automatiquement le meilleur moteur d’inférence pour le matériel :

CPU/Intel‑Xe — par défaut sur bureau.
NPU — Qualcomm Hexagon, AMD NPU, Apple Neural Engine (ANE).
GPU — NVidia, AMD, GPU Apple.

C’est ce qui garantit la vitesse d’inférence la plus rapide sur l’appareil dès le lancement.

Déploiement en une ligne sur Android

Ajoutez à votre build.gradle.kts :

implementation("ai.nexa:core:0.0.15")

NexaSdk.getInstance().init(this)
VlmWrapper.builder()
    .vlmCreateInput(
        VlmCreateInput(
            model_name = "omni-neural",
            model_path = "/data/data/your.app/files/models/OmniNeural-4B/files-1-1.nexa",
            plugin_id = "npu",
            config = ModelConfig()
        )
    )
    .build()
    .onSuccess { vlm ->
        vlm.generateStreamFlow("Hello!", GenerationConfig()).collect { print(it) }
    }

Avec seulement quelques lignes de code, un VLM complexe fonctionne directement sur le matériel Snapdragon.

Communauté et écosystème

API compatibles OpenAI : Passez sans effort entre les modèles locaux et distants.
Architecture de plugins extensible : Ajoutez du matériel personnalisé ou de nouveaux formats de modèles.
Répo GitHub actif (7,5 k ⭐, 939 forks) avec des versions fréquentes, une documentation exhaustive et un ensemble de tests robuste.
Partenariats avec Qualcomm, IBM, Google, AMD, Nvidia et Microsoft démontrent un support industriel avéré.

Licence et usage commercial

NexaSDK est sous licence double :

Composants CPU/GPU : Apache‑2.0.
Composants NPU : Gratuit pour usage personnel avec une clé provenant du Nexa AI Model Hub ; l’usage commercial nécessite une licence négociée avec [email protected].

Cela assure aux startups et aux entreprises d’utiliser le SDK sans tracas juridiques.

Démarrage

Clonez le dépôt : git clone https://github.com/NexaAI/nexa-sdk.
Installez Docker ou votre SDK natif.
Exécutez nexa infer NexaAI/Qwen3-1.7B-GGUF pour vérifier votre environnement.
Parcourez les répertoires cookbook et solutions pour des exemples prêts à l’emploi.

Pour une documentation détaillée, visitez les docs officielles : https://docs.nexa.ai.

Dernières réflexions

NexaSDK démocratise l’IA embarquée en offrant un cadre unique et unifié qui élimine les frictions liées à la conversion de modèles, la gestion des dépendances ou le réglage pour un matériel spécifique. Son support de modèles Day‑0 vous permet d’expérimenter le paysage multimodal de pointe — sans attendre les callbacks cloud ni les approbations de licence.

Que vous développiez un assistant vocal, un classificateur d’images en temps réel pour un drone ou une application de prise de notes multiplateforme, NexaSDK fournit la vitesse, l’efficacité et la simplicité pour garder votre attention sur l’expérience utilisateur.

Prêt à déplacer vos charges de travail AI hors du cloud ? Découvrez NexaSDK aujourd’hui et rejoignez une communauté grandissante de développeurs apportant l’intelligence multimodale directement au bord du réseau.

Original Article: Voir l’original

Partager cet article