MergeKit:轻松高效地整合大型语言模型

June 10, 2025

MergeKit:轻松高效地组合大型语言模型(LLM)

MergeKit 是一个创新性的开源工具包,旨在简化预训练大型语言模型(LLM)的合并过程。由 Arcee.ai 开发的 MergeKit 提供了一个强大的解决方案,能够直接在模型权重空间中融合不同模型的优势,从而避免了昂贵的额外训练或复杂的集成方法。

MergeKit 的核心是采用“核外(out-of-core)”方法,即便在资源受限的环境中也能执行复杂的模型合并。这意味着您可以在纯 CPU 环境下进行合并操作,或者仅需 8GB 显存即可加速合并,使高级 LLM 操作能够惠及更广泛的用户和硬件配置。

Arcee AI Logo

为什么要合并模型?

模型合并是人工智能领域一项颠覆性的技术。与传统的集成方法需要同时运行多个模型不同,合并后的模型在保持单模型推理成本的同时,通常能达到同等或更优的性能。其主要优势包括:

  • 融合专业模型: 将多个特定任务的模型整合成一个功能多样的“超级模型”。
  • 知识迁移: 在无法访问原始训练数据的情况下,实现模型间的知识和能力转移。
  • 优化权衡: 精细调整模型行为,以达到所需的性能指标。
  • 性能提升: 在保持低推理成本的同时,增强模型能力。
  • 解锁新功能: 通过创造性地组合模型,实现新颖的功能。

MergeKit 的核心功能

MergeKit 内置了多项功能,旨在处理各种复杂的模型合并场景:

  • 广泛的模型支持: 兼容 Llama、Mistral、GPT-NeoX、StableLM 等主流 LLM 架构。
  • 丰富的合并方法: 支持多种合并算法,包括线性合并(Linear)、球面线性插值(SLERP)、任务算术(Task Arithmetic)、TIES、DARE、DELLA 和 Arcee Fusion 等,每种方法都具有独特的优势,适用于不同的使用场景。
  • GitHub User Avatar资源高效利用: 可灵活选择 GPU 或 CPU 执行,张量采用惰性加载,最大限度减少内存占用。
  • 高级技术: 支持插值梯度、分段组装(“Frankenmerging”)、MoE(专家混合模型)合并以及演化合并方法等。
  • LoRA 提取: 从微调模型中提取兼容 PEFT 的低秩近似。
  • 多阶段合并: mergekit-multi 工具支持链式执行复杂的合并操作。
  • 原始 PyTorch 模型合并: mergekit-pytorch 将合并能力扩展到任意 PyTorch 模型。
  • 分词器移植: mergekit-tokensurgeon 用于对齐模型之间的词汇表,以支持推测解码等任务。

MergeKit 入门

安装过程简单便捷。首先克隆仓库并安装软件包:


git clone https://github.com/arcee-ai/mergekit.git
cd mergekit
pip install -e .

更详细的使用说明,主要入口是 mergekit-yaml 脚本,它通过 YAML 配置文件来定义您的合并操作。MergeKit 还集成了 Hugging Face Hub,方便模型共享,并通过 Arcee App 提供云端合并功能。

云端集成与未来展望

MergeKit 与云基础设施无缝集成,特别是通过 Arcee 的云端 GPU 服务。这使得用户可以在云端启动和管理合并任务,简化了流程,并能利用强大的硬件资源,无需本地设置。通过提供部署或下载合并模型的选项,MergeKit 为高级 LLM 实验和部署提供了端到端的解决方案。

如果您希望探索 LLM 定制和效率的尖端技术,MergeKit 绝对是您 AI 工具箱中不可或缺的利器。其强大的功能和用户友好的设计使其成为任何从事大型语言模型工作的开发者的杰出开源项目。

原创文章: 查看原文

分享本文

目录

跳转到任何部分