模型基准测试 | AIBit-探索开源项目

2026年4月3日

MacBook 上 397B MoE：4.4 t/s Flash-MoE 引擎

Flash-MoE 在配备 48GB RAM 的 MacBook Pro M3 Max 上运行 Qwen3.5-397B-A17B（3970 亿参数），速度达 4.4+ 令牌/秒。纯 C/Metal 推理从 SSD 流式传输 209GB 模型，提供包括工具调用在内的生产级输出。主要创新：FMA 优化去量化内核（+12% 速度）、OS 页面缓存专家流式传输、延迟 GPU 计算和手动调优 Metal 着色器。记录了 58 个实验，并附完整技术论文。

2025年6月27日

LLaMA-Factory：百余种大语言模型与视觉语言模型的统一微调

大型语言模型的微调可能是一项复杂且资源密集型的工作。LLaMA-Factory的出现颠覆了现状，它提供了一个统一且高效的平台，用于微调超过100种大型语言模型（LLMs）和视觉语言模型（VLMs）。这个在ACL 2024大会上获得认可的开源项目，凭借其零代码命令行界面和直观的Web UI，简化了复杂的AI开发工作流程。LLaMA-Factory受到亚马逊和NVIDIA等行业巨头的信赖，它助力开发者和研究人员运用QLoRA和FlashAttention-2等先进技术，提升模型在从多轮对话到多模态理解等各种任务中的性能。探索这个强大的工具如何加速您的AI项目。
2025年6月27日

Unsloth：大幅加速大语言模型微调并节省显存

隆重推出 Unsloth，这一开源库正在彻底革新大语言模型（LLM）的微调方式。相比传统方法，Unsloth 能让训练速度提升高达2倍，并将 GPU 显存消耗最高减少80%。Unsloth 支持 Llama、Qwen、Gemma、Mistral 等多种模型，同时还支持文本到语音和视觉模型。凭借其用户友好的设计，Unsloth 允许使用者通过对初学者友好的 Jupyter Notebooks 进行免费微调，即使在有限的硬件条件下也能实现高效训练。立即体验 Unsloth 的强大特性与卓越性能，开启高效的大语言模型开发之旅吧！
2025年6月10日

MergeKit：轻松高效地整合大型语言模型

隆重推出 MergeKit，一个为合并预训练大型语言模型（LLM）而设计的开源工具包。这个强大的工具让用户无需大量训练或高昂计算开销，就能将不同模型的优势结合起来。MergeKit 支持多种合并方法，可在CPU/GPU上运行，且内存占用低，是构建通用型定制LLM的理想选择。了解如何安装、配置和使用这个多功能工具包来提升你的AI项目，包括多阶段合并和LoRA提取。无论你是研究人员还是开发者，MergeKit都能简化复杂的模型集成过程，让先进的LLM能力触手可及。