驾驭 GRPO：利用 Unsloth 高效训练推理型大型语言模型

June 27, 2025

教程文章

Reinforcement Learning GRPO Unsloth LLM Training AI Optimization

精通 GRPO：Unsloth 如何高效训练推理型大语言模型

强化学习（RL）是人工智能领域一个强大的范式，它使模型能够通过试错，并在奖励系统的引导下，学习到最优行为。尽管强化学习在许多人工智能突破中都扮演了核心角色，但使用它来训练模型，特别是大型语言模型（LLMs），历来都是一项显存密集型且复杂的任务。本文将深入探讨强化学习的核心概念，探索 GRPO 和 PPO 等高级技术，并重点介绍 Unsloth 如何普及这一强大的训练方法。

什么是强化学习（RL）？

从根本上说，强化学习旨在最大化“好”结果，最小化“坏”结果。想象一下吃豆人游戏：环境是游戏世界，你的行动是移动（上、左、右、下），吃掉饼干会获得正向奖励，碰到敌人则会获得负向奖励。人工智能代理，就像人类玩家一样，观察结果并调整策略以获得更多奖励。简单来说，强化学习通过为其输出提供反馈——即“奖励信号”——来训练模型，从而逐步引导模型实现期望的行为。

例如，当一个语言模型被问到“2 + 2 等于多少？”时，一个未经对齐的模型可能会给出任何答案。我们可以设计一个奖励函数：回答“4”得+3分，回答“3”得-3分，而对于随机字符则施加巨大惩罚。模型便学会了偏爱“4”这个答案。

从 RLHF 和 PPO 到 GRPO 的高效性

由 OpenAI 凭借 ChatGPT 等模型普及的人类反馈强化学习（RLHF），利用人类评分（如点赞/点踩）作为奖励信号，以使人工智能输出与人类偏好对齐。这个过程通常采用近端策略优化（PPO）算法。

PPO 通过训练一个“代理”（即语言模型）来生成能最大化奖励的输出。它由三个系统组成：一个生成策略、一个参考策略和一个价值模型。尽管 PPO 效果显著，但计算需求高，其复杂的计算过程需要大量的内存。

认识到这些挑战，DeepSeek 开发了群组相对策略优化（GRPO）。GRPO 通过移除价值模型，并用与可验证奖励强化学习（RLVR）协同工作的自定义奖励函数来替代奖励模型，从而显著提高了效率。RLVR 允许基于易于验证的解决方案（例如数学方程或代码执行结果）来设置奖励。这项创新使得 GRPO 极其高效，通过减少需要维护的模型数量来节省内存并加速训练。

GRPO 的“群组相对”特性源于其通过多次采样 LLM 来估计平均奖励的方法。对于像“2+2 等于多少？”这样的问题，它会采样各种答案，计算每个答案的奖励，然后统计性地推导出优势分数，从而有效地取代了内存密集型的价值模型。

强化学习中的“耐心是关键”原则

从核心来看，强化学习利用的是“耐心”原则。给定一个问题和一个可验证的奖励函数，强化学习模型可以被反复调用，直到出现一个好的答案。尽管它最初可能会生成许多不正确的输出，但奖励信号会逐渐“修剪”模型的输出分布，使其从错误答案转向正确答案。强化学习并非低效；它会主动引导模型进入“正确答案空间”，从而随着时间的推移带来越来越好的性能，前提是正确答案的概率永远不会真正为零。

Unsloth 在 GRPO 训练中的突破

Unsloth 通过显著普及 GRPO 训练而脱颖而出。虽然标准的 GRPO 实现可能需要数百 GB 的显存，但 Unsloth 却能以超过 90% 的显存消耗实现相同的效果。

Unsloth 的关键贡献： * 前所未有的显存效率： 在显存低至 5GB 的系统上训练高达 17B 参数的模型（如 Llama 3.1、Phi-4、Mistral）（针对 1.5B 参数以下模型）。对于像 Llama 3.1 (8B) 这样在 20K 上下文长度下的更大模型，Unsloth 仅使用 54.3GB 显存，而标准实现则需要 510.8GB。 * 广泛的模型支持： 将各种开源大型语言模型转换为推理模型。 * QLoRA 和 LoRA 兼容性： GRPO 训练现已与流行的低资源微调技术无缝集成。 * 集成 vLLM： Unsloth 允许在您的微调堆栈中直接使用 vLLM，提供高推理吞吐量而无需加倍内存使用，节省大量显存。 * 内置训练损失跟踪： 直接在 Unsloth 内部监控您的 GRPO 训练，无需外部工具。

设计有效的奖励函数

设计有效的奖励函数至关重要。一个验证器用于确认正确性（例如，“2+2”的“4”是正确的，“5”是错误的），而一个奖励函数则分配一个数值分数。它们通常协同工作。

奖励函数示例： * 简单算术： 如果答案是数字，+1；如果与正确答案匹配，额外+3。 * 电子邮件自动化： 包含所需关键词得+1，精确匹配得+1，过长得-1，正确的收件人姓名得+1，签名块得+1。 * 基于接近度： Unsloth 提供自定义函数，根据答案与正确答案的接近程度给予奖励（例如，“10”的答案“9”比“3”获得更好的奖励）。 * 基于 GSM8K： 流行的函数会奖励精确匹配、强制只输出整数答案、检查宽松/严格格式，或验证 XML 标签计数。

请记住，一个设计良好的奖励函数能够引导模型学习答案是如何得出的，而不仅仅是记住答案。你甚至可以使用其他大型语言模型，如 ChatGPT 4o，来帮助设计和评估符合你特定需求的奖励函数。

使用 Unsloth 和 GRPO 训练的实用技巧

使用 Unsloth 和 GRPO 训练推理模型以获得最佳效果，请遵循以下实用技巧： * 训练步数： 目标至少 300 步，根据你的模型、数据和奖励函数，可能需要更多（1000+）。 * 数据量： 虽然你可以从 10 行开始，但建议使用 500 行以上的高质量数据以获得最佳性能。 * 模型大小： 将 GRPO 应用于至少 1.5B 参数的模型，以确保它们能有效生成“思考令牌”（thinking tokens）。 * 显存指南： 对于 QLoRA 4-bit 量化，所需显存约等于模型参数量（例如，8B 模型需要约 8GB）。LoRA 16-bit 则需要至少 4 倍以上的显存。 * 持续微调： GRPO 可以在后台运行，实现持续改进。 * 依赖项： 如果遇到错误，请确保 pip install diffusers 并使用最新版本的 vLLM。 * 良好开端： 使用已经过指令微调的模型可以提高初始概率，使训练更高效。

深入探究：Unsloth 的内存优化魔法

Unsloth 在 GRPO 训练中出色的显存效率并非魔法，而是巧妙的工程设计： * 内存高效线性核： 将长上下文 GRPO 的内存使用量减少 8 倍，节省约 68.5GB 显存，并通过 torch.compile 奇迹般地提高速度。 * 智能梯度检查点： Unsloth 独特的算法将中间激活异步卸载到系统内存（RAM），在仅有 1% 的轻微速度下降下，又节省了约 52GB 显存。 * 共享 GPU/CUDA 内存空间： 与其他实现不同，Unsloth 允许其内存空间与底层的 vLLM 推理引擎共享，额外节省约 16GB。这避免了训练和推理同时进行时需要双倍内存的常见问题。

下表展示了针对 Llama 3.1 8B 模型在 20K 上下文长度下、每个提示生成 8 次的显著内存节省：

指标	Unsloth	标准 + FA2
训练内存成本 (GB)	42GB	414GB
GRPO 内存成本 (GB)	9.8GB	78.3GB
推理成本 (GB)	0GB	16GB
推理 KV 缓存 (20K 上下文)	2.5GB	2.5GB
总内存使用量	54.33GB (减少 90%)	510.8GB

结论

强化学习是先进人工智能的基石，而 GRPO 等技术则代表着高效训练强大推理模型的一大飞跃。Unsloth 的创新打破了以往的硬件限制，使得更多的开发者和研究人员能够利用这些前沿方法。通过优化显存使用、简化工作流程以及支持消费级硬件，Unsloth 真正赋能了下一代人工智能的发展。今天就开始探索这些可能性，并训练你自己的推理模型吧！

延伸阅读与资源

Unsloth GRPO 指南： https://docs.unsloth.ai/basics/reinforcement-learning-guide
教程：使用 GRPO 训练你自己的推理模型： https://docs.unsloth.ai/basics/reinforcement-learning-guide/tutorial-train-your-own-reasoning-model-with-grpo
Nathan Lambert 的 RLHF 书籍：https://rlhfbook.com/c/11-policy-gradients.html
Yannic Kilcher 的 GRPO YouTube 视频：https://www.youtube.com/watch?v=bAWV_yrqx4w
Unsloth 的 AI 工程师研讨会材料：https://docs.unsloth.ai/ai-engineers-2025

原创文章: 查看原文