NexaSDK:Day‑0モデルを使ったオンデバイスマルチモーダルAIの実行

NexaSDK:Day‑0モデルを使ったオンデバイスマルチモーダルAIの実行

NexaSDKとは?

NexaSDKは、開発者が最先端の大型言語モデル(LLM)、ビジョン言語モデル(VLM)、自動音声認識(ASR)システム、光学文字認識(OCR)、画像生成モデルを、クラウドバックエンドに頼らずにGPU、NPU、CPUのいずれでもデバイス上で直接実行できる高性能かつクロスプラットフォームの推論フレームワークです。最小限のエネルギー消費と最高速度を原則に据え、NexaSDKはQwen3‑VL、Gemini‑3n(Vision)、DeepSeek‑OCR、Granite‑4.0などの最新マルチモーダルリリースの数少ないモデルをDay‑0モデルとしてロードできるようにしています。

NexaSDKが際立つ理由

機能 NexaSDK Ollama llama.cpp LM Studio
NPUサポート
クロスプラットフォーム(Android, iOS, Windows, macOS, Linux, IoT) ⚠️ ⚠️
Day‑0モデルサポート(GGUF, MLX, NEXA) ⚠️
フルマルチモダリティ ⚠️ ⚠️ ⚠️
ワンラインデプロイメント ⚠️
OpenAI互換API

結果として、開発者フレンドリーでエネルギー効率が高く、すぐに使える 仕上がりです。高速プロトタイプを作る場合でも、本番レベルのアプリを構築する場合でも、NexaSDKはローカルで多種多様なモデルを試す自由を提供します。

対応プラットフォームとSDK

プラットフォーム クイックスタート SDK言語
Windows macOS Linux(デスクトップ) CLI Python / C++
Android Android SDK Kotlin/Java
iOS / macOS iOS SDK Swift
Linux / IoT (Docker) Docker なし(コンテナ内CLI)

例:CLIでQwen3-1.7Bを実行

# インストール
pip install nexaai

# モデルをロードしてチャット
from nexaai import LLM, LlmChatMessage, GenerationConfig, ModelConfig

llm = LLM.from_(model="NexaAI/Qwen3-1.7B-GGUF", config=ModelConfig())
conversation = [LlmChatMessage(role="user", content="Tell me a joke!")]
prompt = llm.apply_chat_template(conversation)
for token in llm.generate_stream(prompt, GenerationConfig(max_tokens=150)):
    print(token, end="", flush=True)

出力はリアルタイムで届き、クラウド呼び出しのように動作しますが、計算はすべてローカルデバイス内で行われます。

Day‑0モデルサポート

Day‑0は、モデルがダウンロード後すぐに実行できることを意味し、追加の変換やトレーニングは不要です。NexaSDKは数千件に及ぶコミュニティコンパイル済みGGUF重みと、ネイティブのNEXAおよびMLXフォーマットをサポートします。SDKはハードウェアに最適な推論エンジンを自動検出します:

  1. CPU/Intel‑Xe — デスクトップのデフォルト
  2. NPU — Qualcomm Hexagon、AMD NPU、Apple Neural Engine (ANE)
  3. GPU — NVidia、AMD、Apple GPU

これにより、デバイス起動時に可能な限り高速な推論が保証されます。

Androidでのワンライントレイデプロイ

build.gradle.ktsに以下を追加:

implementation("ai.nexa:core:0.0.15")
NexaSdk.getInstance().init(this)
VlmWrapper.builder()
    .vlmCreateInput(
        VlmCreateInput(
            model_name = "omni-neural",
            model_path = "/data/data/your.app/files/models/OmniNeural-4B/files-1-1.nexa",
            plugin_id = "npu",
            config = ModelConfig()
        )
    )
    .build()
    .onSuccess { vlm ->
        vlm.generateStreamFlow("Hello!", GenerationConfig()).collect { print(it) }
    }

数行のコードだけで、複雑なVLMがSnapdragonハードウェア上で直接動作します。

コミュニティとエコシステム

  • OpenAI互換API:ローカルとリモートモデルを簡単に切り替えます。
  • 拡張可能なプラグインアーキテクチャ:カスタムハードウェアや新しいモデルフォーマットを追加できます。
  • 活性化されたGitHubリポジトリ(7.5k ⭐、939 forks)で頻繁なリリース、充実したドキュメント、堅牢なテストスイートが揃っています。
  • 提携 with Qualcomm, IBM, Google, AMD, Nvidia, and Microsoft demonstrate proven industry support。

ライセンスと商用利用

NexaSDKはデュアルライセンスです:

  • CPU/GPUコンポーネント:Apache‑2.0。
  • NPUコンポーネント:Nexa AI Model Hubから取得したキーで個人利用は無料、商用利用には [email protected] でライセンス交渉が必要です。

スタートアップや企業は法的な問題を心配せずにSDKを使用できます。

はじめに

  1. リポジトリをクローンします:git clone https://github.com/NexaAI/nexa-sdk
  2. DockerまたはネイティブSDKをインストールします。
  3. nexa infer NexaAI/Qwen3-1.7B-GGUF を実行し、環境を確認します。
  4. cookbook および solutions ディレクトリを探索し、即座に実行できる例を確認します。

詳細なドキュメントは公式サイト https://docs.nexa.ai をご覧ください。

最後に

NexaSDKは、モデルの変換、依存関係管理、特定ハードウェアのチューニングなどの障壁を取り除く 単一の統一フレームワーク を提供することで、オンデバイスAIを民主化します。Day‑0モデルサポートにより、クラウドコールバックやライセンス承認を待つことなく、最先端マルチモーダル環境を試すことができます。

音声対応アシスタント、ドローン用リアルタイム画像分類器、クロスプラットフォームのメモアプリなどを構築する場合でも、NexaSDKは速度、効率、シンプルさを提供し、ユーザー体験に集中できるようにします。

AIのワークロードをクラウドからオフにしますか? 今すぐNexaSDKをチェックし、エッジへ直接マルチモーダルインテリジェンスをもたらす開発者コミュニティに参加してください。

この記事を共有