Microsoft presenta BitNet: Inferencia eficiente de LLMs de 1 bit

October 08, 2025

Microsoft ha presentado oficialmente BitNet.cpp, un marco de inferencia revolucionario diseñado para Modelos de Lenguaje Grande (LLM) de 1 bit. Este proyecto de código abierto tiene como objetivo democratizar el acceso a la potente inteligencia artificial reduciendo significativamente la sobrecarga computacional y el consumo de energía tradicionalmente asociados con los LLM.

El amanecer de los LLM de 1 bit eficientes

BitNet.cpp es el marco designado para realizar inferencias rápidas y sin pérdidas en modelos de 1.58 bits, incluyendo BitNet b1.58. Incorpora un conjunto de núcleos altamente optimizados que ofrecen un rendimiento impresionante tanto en CPU como en GPU, y se tiene previsto un futuro soporte para NPU.

Las versiones iniciales, centradas en la inferencia en CPU, ya han demostrado mejoras notables. En las CPU ARM, BitNet.cpp proporciona aceleraciones que van desde 1.37x hasta un impresionante 5.07x, con modelos más grandes que se benefician aún más. Esta eficiencia se extiende al consumo de energía, que experimenta reducciones del 55.4% al 70.0%. Para las CPU x86, el marco ofrece aceleraciones entre 2.37x y 6.17x y ahorros de energía del 71.9% al 82.2%. Aún más sorprendente, BitNet.cpp permite que un modelo 100B BitNet b1.58 se ejecute en una sola CPU, alcanzando velocidades comparables a la lectura humana (5-7 tokens por segundo). Este avance se detalla en su exhaustivo informe técnico.

Características y capacidades clave

El marco se basa en el espíritu de código abierto, reconociendo su fundación en el marco llama.cpp e inspiraciones de las metodologías de tablas de búsqueda de T-MAC. Ofrece:

  • Núcleo oficial de inferencia para GPU: Una actualización reciente (a partir de mayo de 2025) introdujo núcleos oficiales de inferencia para GPU, ampliando aún más su versatilidad.
  • Integración con Hugging Face: Microsoft ha lanzado modelos oficiales de 2B de parámetros en Hugging Face, facilitando a los desarrolladores el acceso y la experimentación con LLM de 1 bit.
  • Amplio soporte de modelos: BitNet.cpp es compatible con varios LLM de 1 bit disponibles en Hugging Face, incluyendo bitnet_b1_58-large, bitnet_b1_58-3B, Llama3-8B-1.58-100B-tokens y los modelos de la familia Falcon3.
  • Instalación sencilla: Con instrucciones claras para Python, CMake y Clang, y soporte tanto para Windows como para Debian/Ubuntu, comenzar con BitNet.cpp es muy fácil. También incluye un script de instalación automática y recomienda Conda para la gestión del entorno.
  • Herramientas de inferencia y benchmarking: El repositorio proporciona scripts (run_inference.py, e2e_benchmark.py) para ejecutar inferencias con modelos cuantificados y realizar comparativas de rendimiento, permitiendo a los usuarios evaluar la eficiencia del marco.
  • Conversión de Safetensors: Hay herramientas disponibles para convertir archivos de modelo .safetensors al formato .gguf compatible con BitNet.cpp.

Impacto en el desarrollo de la IA

La introducción de BitNet.cpp cambia las reglas del juego para la implementación de LLM en dispositivos edge y máquinas locales. Al reducir drásticamente los requisitos computacionales y energéticos, abre nuevas vías para aplicaciones de IA que preservan la privacidad, tiempos de respuesta más rápidos y costos de infraestructura reducidos. Este proyecto de Microsoft está destinado a inspirar un mayor desarrollo en el ámbito de los LLM de baja precisión y alta eficiencia, fomentando un ecosistema de IA más accesible y sostenible.

Artículo original: Ver original

Compartir este artículo