微软发布 BitNet:高效的 1 比特大模型推理

October 08, 2025

微软正式发布了BitNet.cpp,这是一款专为1比特大语言模型(LLM)设计的革命性推理框架。这个开源项目旨在通过显著降低与LLM相关的传统计算开销和能耗,从而让强大的人工智能普惠大众。

高效1比特大语言模型的曙光

BitNet.cpp是执行1.58比特模型(包括BitNet b1.58)快速无损推理的指定框架。它集成了一套高度优化的内核,可在CPU和GPU上提供卓越的性能,未来还计划支持NPU。

初始发布的CPU推理版本已展现出显著的性能提升。在ARM CPU上,BitNet.cpp将速度提升了1.37倍到惊人的5.07倍,模型越大,受益越明显。这种效率也延伸到能耗方面,能耗降低了55.4%到70.0%。对于x86 CPU,该框架的速度提升了2.37倍到6.17倍,能耗节约了71.9%到82.2%。更令人瞩目的是,BitNet.cpp使一个100B的BitNet b1.58模型能够在单个CPU上运行,速度堪比人类阅读速度(每秒5-7个token)。这一突破在其详尽的技术报告中有所阐述。

主要特性与功能

该框架秉持开源精神,其基础来源于llama.cpp框架,并受到了T-MAC查找表方法的启发。它提供了:

  • 官方GPU推理内核:最近的更新(截至2025年5月)引入了官方GPU推理内核,进一步扩展了其多功能性。
  • Hugging Face集成:微软已在Hugging Face上发布了官方的2B参数模型,方便开发者访问和试用1比特LLM。
  • 广泛的模型支持:BitNet.cpp支持Hugging Face上各种1比特LLM,包括bitnet_b1_58-largebitnet_b1_58-3BLlama3-8B-1.58-100B-tokens和Falcon3系列模型。
  • 用户友好的安装:提供了清晰的Python、CMake和Clang安装说明,并支持Windows和Debian/Ubuntu,使BitNet.cpp的上手过程变得流畅。它还包括一个自动安装脚本,并推荐使用Conda进行环境管理。
  • 推理和基准测试工具:该存储库提供了用于量化模型推理和性能基准测试的脚本(run_inference.pye2e_benchmark.py),用户可以评估框架的效率。
  • Safetensors转换:提供了将.safetensors模型文件转换为与BitNet.cpp兼容的.gguf格式的工具。

对人工智能发展的影响

BitNet.cpp的推出,对于在边缘设备和本地机器上部署LLM来说,是一个颠覆性的改变。通过大幅削减计算和能源需求,它为保护隐私的AI应用、更快的响应时间以及降低基础设施成本开辟了新途径。微软的这个项目必将激发高效低比特LLM领域的进一步发展,从而构建一个更具可访问性和可持续性的AI生态系统。

原创文章: 查看原文

分享本文