Unsloth：大幅加速大语言模型微调并节省显存

June 27, 2025

实用开源项目

Open Source AI Machine Learning LLM Fine-tuning GPU Optimization Large Language Models

Unsloth：加速大语言模型微调与强化学习

在人工智能日新月异的领域，高效地微调大语言模型（LLM）至关重要。Unsloth 应运而生，这是一个创新的开源库，旨在显著加速大语言模型的微调和强化学习过程。Unsloth 专注于效率，让开发者和研究人员能够以高达两倍的速度训练先进的AI模型，同时将GPU显存消耗降低高达80%。这一突破性进展使得最先进的大语言模型开发变得更易于普及，即使对于硬件资源有限的开发者而言也是如此。

核心特性与卓越性能

Unsloth 的核心优势在于它利用了由 OpenAI Triton 语言编写的高度优化的自定义核（kernel），并结合了手动反向传播引擎，从而实现了卓越的性能提升。这种精细的优化确保了“0%精度损失”，在不进行任何近似处理的情况下，保持了模型的高质量和完整性。

Unsloth 支持广泛的 Transformer 架构模型，使其成为适用于各种AI应用的多功能工具：

领先的大语言模型： Qwen3、Llama 4、DeepSeek-R1、Gemma 3、Phi-4、Mistral 等众多模型，包括最新的 Llama 3.2 和 Llama 3.3（70B版本）。
多模态支持： 其能力不仅限于文本，还支持文本转语音（TTS）模型如 Orpheus-TTS，以及视觉模型如 Llama 3.2 Vision。

该库提供灵活的训练选项，支持全微调（full-finetuning）、预训练（pretraining）以及多种量化级别（4位、8位、16位）。其创新的“动态2.0量化”（Dynamic 2.0 quants）技术在显存占用增加极少的情况下显著提升了精度，为效率树立了新标杆。

Unsloth 最引人注目的特性之一是其显著扩展上下文窗口的能力。例如，它使得 Llama 3.3（70B版本）能够在使用80GB GPU时处理89K的上下文，相较于标准 Hugging Face + FA2 配置，这是一项惊人的13倍提升。对于 Llama 3.1（8B）等较小模型，Unsloth 实现了惊人的342K上下文长度，远超其原生能力。

Unsloth：大幅加速大语言模型微调并节省显存

Unsloth：加速大语言模型微调与强化学习

核心特性与卓越性能

易用性与可访问性

强化学习（RL）集成

社区与资源

总结

分享本文

目录