NexaSDK:在设备上运行多模态 AI,支持 Day‑0 模型
NexaSDK:在设备上运行多模态 AI,支持 Day‑0 模型
NexaSDK 是什么?
NexaSDK 是一个高性能、跨平台的推理框架,使开发者能够在 设备本地 — GPU、NPU 或 CPU 上直接运行最先进的大型语言模型(LLM)、视觉语言模型(VLM)、自动语音识别(ASR)系统、光学字符识别(OCR)以及图像生成模型,而无需依赖云后端。遵循最小能耗和最高速度的原则,NexaSDK 支持 Day‑0 模型 的加载,涵盖最新多模态发布的少数几款,如 Qwen3‑VL、Gemini‑3n(Vision)、DeepSeek‑OCR 和 Granite‑4.0。
为什么 NexaSDK 具有优势
| 功能 | NexaSDK | Ollama | llama.cpp | LM Studio |
|---|---|---|---|---|
| NPU 支持 | ✅ | ❌ | ❌ | ❌ |
| 跨平台(Android、iOS、Windows、macOS、Linux、IoT) | ✅ | ⚠️ | ⚠️ | ❌ |
| Day‑0 模型支持(GGUF、MLX、NEXA) | ✅ | ❌ | ⚠️ | ❌ |
| 完整多模态 | ✅ | ⚠️ | ⚠️ | ⚠️ |
| 一行部署 | ✅ | ✅ | ⚠️ | ✅ |
| OpenAI 兼容 API | ✅ | ✅ | ✅ | ✅ |
结果:开发者友好、功耗高效、即插即用。无论是快速原型还是生产级应用,NexaSDK 都让您在本地自由地实验各种模型。
支持的平台和 SDK
| 平台 | 快速开始 | SDK 语言 |
|---|---|---|
| Windows、macOS、Linux(桌面) | CLI | Python / C++ |
| Android | Android SDK | Kotlin/Java |
| iOS / macOS | iOS SDK | Swift |
| Linux / IoT(Docker) | Docker | 无(容器内 CLI) |
示例:在 CLI 上运行 Qwen3-1.7B
# 安装
pip install nexaai
# 加载模型并聊天
from nexaai import LLM, LlmChatMessage, GenerationConfig, ModelConfig
llm = LLM.from_(model="NexaAI/Qwen3-1.7B-GGUF", config=ModelConfig())
conversation = [LlmChatMessage(role="user", content="Tell me a joke!")]
prompt = llm.apply_chat_template(conversation)
for token in llm.generate_stream(prompt, GenerationConfig(max_tokens=150)):
print(token, end="", flush=True)
输出会 实时 到来,像云端调用一样,但所有计算都在本地设备完成。
Day‑0 模型支持
Day‑0 表示模型下载后即可直接运行——不需要额外转换或训练。NexaSDK 支持数千个社区编译的 GGUF 权重以及本地 NEXA 和 MLX 格式。SDK 会自动检测最佳推理引擎:
- CPU/Intel‑Xe — 桌面默认。
- NPU — Qualcomm Hexagon、AMD NPU、Apple 神经引擎(ANE)。
- GPU — NVidia、AMD、Apple GPU。
这确保设备启动时获得最快的推理速度。
Android 一行部署
添加到 build.gradle.kts:
implementation("ai.nexa:core:0.0.15")
NexaSdk.getInstance().init(this)
VlmWrapper.builder()
.vlmCreateInput(
VlmCreateInput(
model_name = "omni-neural",
model_path = "/data/data/your.app/files/models/OmniNeural-4B/files-1-1.nexa",
plugin_id = "npu",
config = ModelConfig()
)
)
.build()
.onSuccess { vlm ->
vlm.generateStreamFlow("Hello!", GenerationConfig()).collect { print(it) }
}
只需几行代码,一个复杂的 VLM 就能直接在 Snapdragon 硬件上运行。
社区与生态
- OpenAI 兼容 API:轻松在本地与远程模型切换。
- 可扩展插件体系:添加自定义硬件或新模型格式。
- 活跃的 GitHub 仓库(7.5k ⭐,939 fork)频繁发布,文档丰富,测试覆盖完善。
- 与 Qualcomm、IBM、Google、AMD、Nvidia、Microsoft 等合作伙伴的合作,证明了行业认可。
许可与商业使用
NexaSDK 采用双重许可:
- CPU/GPU 组件:Apache‑2.0。
- NPU 组件:个人使用可免费获取 Nexa AI Model Hub 的 key,商业使用需与
[email protected]协商许可。
这保证了创业公司和企业可以在不产生法律麻烦的情况下使用 SDK。
快速开始
- 克隆仓库:
git clone https://github.com/NexaAI/nexa-sdk。 - 安装 Docker 或本地 SDK。
- 运行
nexa infer NexaAI/Qwen3-1.7B-GGUF验证环境。 - 浏览
cookbook与solutions目录,获取即用示例。
详见官方文档: https://docs.nexa.ai。
最终思考
NexaSDK 通过提供 统一、单一的框架,消除了转换模型、管理依赖或针对特定硬件调优的障碍,让本地 AI 变得触手可得。Day‑0 模型支持意味着您可以立即尝试前沿多模态场景——无需等待云端回调或许可证审批。
无论是构建语音助手、无人机的实时图像分类器,还是跨平台笔记应用,NexaSDK 都能提供速度、效率和简洁,帮助您专注于用户体验。
准备好让 AI 工作负载离线运行了吗? 立即尝试 NexaSDK,加入日益壮大的开发者社区,把多模态智能直接推到边缘。