NexaSDK：在设备上运行多模态 AI，支持 Day‑0 模型

January 16, 2026

类别: 实用开源项目

标签:

Open Source On-device AI nexa-sdk multimodal SDK

NexaSDK：在设备上运行多模态 AI，支持 Day‑0 模型

NexaSDK 是什么？

NexaSDK 是一个高性能、跨平台的推理框架，使开发者能够在 设备本地 — GPU、NPU 或 CPU 上直接运行最先进的大型语言模型（LLM）、视觉语言模型（VLM）、自动语音识别（ASR）系统、光学字符识别（OCR）以及图像生成模型，而无需依赖云后端。遵循最小能耗和最高速度的原则，NexaSDK 支持 Day‑0 模型 的加载，涵盖最新多模态发布的少数几款，如 Qwen3‑VL、Gemini‑3n（Vision）、DeepSeek‑OCR 和 Granite‑4.0。

为什么 NexaSDK 具有优势

功能	NexaSDK	Ollama	llama.cpp	LM Studio
NPU 支持	✅	❌	❌	❌
跨平台（Android、iOS、Windows、macOS、Linux、IoT）	✅	⚠️	⚠️	❌
Day‑0 模型支持（GGUF、MLX、NEXA）	✅	❌	⚠️	❌
完整多模态	✅	⚠️	⚠️	⚠️
一行部署	✅	✅	⚠️	✅
OpenAI 兼容 API	✅	✅	✅	✅

结果：开发者友好、功耗高效、即插即用。无论是快速原型还是生产级应用，NexaSDK 都让您在本地自由地实验各种模型。

支持的平台和 SDK

平台	快速开始	SDK 语言
Windows、macOS、Linux（桌面）	CLI	Python / C++
Android	Android SDK	Kotlin/Java
iOS / macOS	iOS SDK	Swift
Linux / IoT（Docker）	Docker	无（容器内 CLI）

示例：在 CLI 上运行 Qwen3-1.7B

# 安装
pip install nexaai

# 加载模型并聊天
from nexaai import LLM, LlmChatMessage, GenerationConfig, ModelConfig

llm = LLM.from_(model="NexaAI/Qwen3-1.7B-GGUF", config=ModelConfig())
conversation = [LlmChatMessage(role="user", content="Tell me a joke!")]
prompt = llm.apply_chat_template(conversation)
for token in llm.generate_stream(prompt, GenerationConfig(max_tokens=150)):
    print(token, end="", flush=True)

输出会实时到来，像云端调用一样，但所有计算都在本地设备完成。

Day‑0 模型支持

Day‑0 表示模型下载后即可直接运行——不需要额外转换或训练。NexaSDK 支持数千个社区编译的 GGUF 权重以及本地 NEXA 和 MLX 格式。SDK 会自动检测最佳推理引擎：

CPU/Intel‑Xe — 桌面默认。
NPU — Qualcomm Hexagon、AMD NPU、Apple 神经引擎（ANE）。
GPU — NVidia、AMD、Apple GPU。

这确保设备启动时获得最快的推理速度。

Android 一行部署

添加到 build.gradle.kts：

implementation("ai.nexa:core:0.0.15")

NexaSdk.getInstance().init(this)
VlmWrapper.builder()
    .vlmCreateInput(
        VlmCreateInput(
            model_name = "omni-neural",
            model_path = "/data/data/your.app/files/models/OmniNeural-4B/files-1-1.nexa",
            plugin_id = "npu",
            config = ModelConfig()
        )
    )
    .build()
    .onSuccess { vlm ->
        vlm.generateStreamFlow("Hello!", GenerationConfig()).collect { print(it) }
    }

只需几行代码，一个复杂的 VLM 就能直接在 Snapdragon 硬件上运行。

社区与生态

OpenAI 兼容 API：轻松在本地与远程模型切换。
可扩展插件体系：添加自定义硬件或新模型格式。
活跃的 GitHub 仓库（7.5k ⭐，939 fork）频繁发布，文档丰富，测试覆盖完善。
与 Qualcomm、IBM、Google、AMD、Nvidia、Microsoft 等合作伙伴的合作，证明了行业认可。

许可与商业使用

NexaSDK 采用双重许可：

CPU/GPU 组件：Apache‑2.0。
NPU 组件：个人使用可免费获取 Nexa AI Model Hub 的 key，商业使用需与 [email protected] 协商许可。

这保证了创业公司和企业可以在不产生法律麻烦的情况下使用 SDK。

快速开始

克隆仓库：git clone https://github.com/NexaAI/nexa-sdk。
安装 Docker 或本地 SDK。
运行 nexa infer NexaAI/Qwen3-1.7B-GGUF 验证环境。
浏览 cookbook 与 solutions 目录，获取即用示例。

详见官方文档： https://docs.nexa.ai。

最终思考

NexaSDK 通过提供 统一、单一的框架，消除了转换模型、管理依赖或针对特定硬件调优的障碍，让本地 AI 变得触手可得。Day‑0 模型支持意味着您可以立即尝试前沿多模态场景——无需等待云端回调或许可证审批。

无论是构建语音助手、无人机的实时图像分类器，还是跨平台笔记应用，NexaSDK 都能提供速度、效率和简洁，帮助您专注于用户体验。

准备好让 AI 工作负载离线运行了吗？ 立即尝试 NexaSDK，加入日益壮大的开发者社区，把多模态智能直接推到边缘。

原创文章: 查看原文

分享本文