NexaSDK:在设备上运行多模态 AI,支持 Day‑0 模型

NexaSDK:在设备上运行多模态 AI,支持 Day‑0 模型

NexaSDK 是什么?

NexaSDK 是一个高性能、跨平台的推理框架,使开发者能够在 设备本地 — GPU、NPU 或 CPU 上直接运行最先进的大型语言模型(LLM)、视觉语言模型(VLM)、自动语音识别(ASR)系统、光学字符识别(OCR)以及图像生成模型,而无需依赖云后端。遵循最小能耗和最高速度的原则,NexaSDK 支持 Day‑0 模型 的加载,涵盖最新多模态发布的少数几款,如 Qwen3‑VL、Gemini‑3n(Vision)、DeepSeek‑OCR 和 Granite‑4.0。

为什么 NexaSDK 具有优势

功能 NexaSDK Ollama llama.cpp LM Studio
NPU 支持
跨平台(Android、iOS、Windows、macOS、Linux、IoT) ⚠️ ⚠️
Day‑0 模型支持(GGUF、MLX、NEXA) ⚠️
完整多模态 ⚠️ ⚠️ ⚠️
一行部署 ⚠️
OpenAI 兼容 API

结果:开发者友好、功耗高效、即插即用。无论是快速原型还是生产级应用,NexaSDK 都让您在本地自由地实验各种模型。

支持的平台和 SDK

平台 快速开始 SDK 语言
Windows、macOS、Linux(桌面) CLI Python / C++
Android Android SDK Kotlin/Java
iOS / macOS iOS SDK Swift
Linux / IoT(Docker) Docker 无(容器内 CLI)

示例:在 CLI 上运行 Qwen3-1.7B

# 安装
pip install nexaai

# 加载模型并聊天
from nexaai import LLM, LlmChatMessage, GenerationConfig, ModelConfig

llm = LLM.from_(model="NexaAI/Qwen3-1.7B-GGUF", config=ModelConfig())
conversation = [LlmChatMessage(role="user", content="Tell me a joke!")]
prompt = llm.apply_chat_template(conversation)
for token in llm.generate_stream(prompt, GenerationConfig(max_tokens=150)):
    print(token, end="", flush=True)

输出会 实时 到来,像云端调用一样,但所有计算都在本地设备完成。

Day‑0 模型支持

Day‑0 表示模型下载后即可直接运行——不需要额外转换或训练。NexaSDK 支持数千个社区编译的 GGUF 权重以及本地 NEXA 和 MLX 格式。SDK 会自动检测最佳推理引擎:

  1. CPU/Intel‑Xe — 桌面默认。
  2. NPU — Qualcomm Hexagon、AMD NPU、Apple 神经引擎(ANE)。
  3. GPU — NVidia、AMD、Apple GPU。

这确保设备启动时获得最快的推理速度。

Android 一行部署

添加到 build.gradle.kts

implementation("ai.nexa:core:0.0.15")
NexaSdk.getInstance().init(this)
VlmWrapper.builder()
    .vlmCreateInput(
        VlmCreateInput(
            model_name = "omni-neural",
            model_path = "/data/data/your.app/files/models/OmniNeural-4B/files-1-1.nexa",
            plugin_id = "npu",
            config = ModelConfig()
        )
    )
    .build()
    .onSuccess { vlm ->
        vlm.generateStreamFlow("Hello!", GenerationConfig()).collect { print(it) }
    }

只需几行代码,一个复杂的 VLM 就能直接在 Snapdragon 硬件上运行。

社区与生态

  • OpenAI 兼容 API:轻松在本地与远程模型切换。
  • 可扩展插件体系:添加自定义硬件或新模型格式。
  • 活跃的 GitHub 仓库(7.5k ⭐,939 fork)频繁发布,文档丰富,测试覆盖完善。
  • Qualcomm、IBM、Google、AMD、Nvidia、Microsoft 等合作伙伴的合作,证明了行业认可。

许可与商业使用

NexaSDK 采用双重许可:

  • CPU/GPU 组件:Apache‑2.0。
  • NPU 组件:个人使用可免费获取 Nexa AI Model Hub 的 key,商业使用需与 [email protected] 协商许可。

这保证了创业公司和企业可以在不产生法律麻烦的情况下使用 SDK。

快速开始

  1. 克隆仓库:git clone https://github.com/NexaAI/nexa-sdk
  2. 安装 Docker 或本地 SDK。
  3. 运行 nexa infer NexaAI/Qwen3-1.7B-GGUF 验证环境。
  4. 浏览 cookbooksolutions 目录,获取即用示例。

详见官方文档: https://docs.nexa.ai。

最终思考

NexaSDK 通过提供 统一、单一的框架,消除了转换模型、管理依赖或针对特定硬件调优的障碍,让本地 AI 变得触手可得。Day‑0 模型支持意味着您可以立即尝试前沿多模态场景——无需等待云端回调或许可证审批。

无论是构建语音助手、无人机的实时图像分类器,还是跨平台笔记应用,NexaSDK 都能提供速度、效率和简洁,帮助您专注于用户体验。

准备好让 AI 工作负载离线运行了吗? 立即尝试 NexaSDK,加入日益壮大的开发者社区,把多模态智能直接推到边缘。

原创文章: 查看原文

分享本文