Crea tu propio ChatGPT: Nanochat - El LLM de 100 $
Crea tu propio ChatGPT: Nanochat – El proyecto LLM de 100 $
Andrej Karpathy, una figura destacada en la comunidad de IA, ha presentado Nanochat, un ambicioso proyecto de código abierto diseñado para hacer que las complejidades del desarrollo de Grandes Modelos de Lenguaje (LLM) sean accesibles para todos. Bautizado como "el mejor ChatGPT que se puede comprar por 100 $", Nanochat es una implementación completa de un LLM similar a ChatGPT, empaquetada en una base de código única, limpia, minimalista y altamente adaptable.
¿Qué es Nanochat?
Nanochat va más allá del simple preentrenamiento; ofrece una pipeline completa para el desarrollo de LLM, abarcando la tokenización, el preentrenamiento, el ajuste fino, la evaluación, la inferencia e incluso el servicio web a través de una interfaz de usuario sencilla. Esto significa que puedes entrenar e interactuar con tu propio LLM, de manera muy similar a como lo harías con ChatGPT. El proyecto está diseñado específicamente para funcionar de manera eficiente, principalmente en un solo nodo 8XH100 utilizando scripts proporcionados como speedrun.sh.
El desafío de los 100 $: Entrena tu propio LLM
El espíritu central de Nanochat es la accesibilidad y la rentabilidad. El script speedrun.sh demuestra cómo entrenar un LLM funcional por aproximadamente 100 $. Esto implica unas 4 horas de entrenamiento en un nodo 8XH100, lo que produce un modelo con 1.900 millones de parámetros entrenado con 38.000 millones de tokens. Si bien estos "micromodelos" puede que no rivalicen con LLM de vanguardia como GPT-5 en rendimiento (a menudo descritos como una conversación con un niño de preescolar debido a su ingenuidad y tendencia a "alucinar"), ofrecen una oportunidad inigualable para el aprendizaje práctico y la personalización.
Karpathy enfatiza que Nanochat es completamente tuyo, configurable, adaptable y "hackeable" de principio a fin. Esto lo convierte en una plataforma ideal para investigadores, desarrolladores y entusiastas que buscan comprender el funcionamiento interno de los LLM sin un presupuesto de millones de dólares.
Primeros pasos: Una guía rápida
Para embarcarte en tu viaje con Nanochat, la ruta más rápida es ejecutar el script speedrun.sh. Este script maneja todo el proceso, desde la preparación de datos hasta el entrenamiento del modelo y la inferencia. Una vez que el entrenamiento (que dura unas 4 horas) esté completo, podrás interactuar con tu LLM recién entrenado a través de una interfaz de usuario web ejecutando python -m scripts.chat_web.
El proyecto también ofrece información sobre escalabilidad, sugiriendo métodos para entrenar modelos más grandes (por ejemplo, el modelo d26 de 300 $) con ajustes menores en la configuración de speedrun.sh, principalmente aumentando las divisiones de datos y gestionando cuidadosamente los tamaños de los lotes de los dispositivos para evitar errores de memoria insuficiente.
Diseñado para aprender y experimentar
Nanochat evita deliberadamente la complejidad de un marco de LLM exhaustivo. En su lugar, prioriza una base de código "fuerte y de referencia" única, cohesiva, mínima, legible y que se pueda ramificar al máximo. Esta filosofía de diseño tiene como objetivo garantizar una alta accesibilidad cognitiva para cualquiera que quiera adentrarse en el desarrollo de LLM. El objetivo es producir un clon concreto de ChatGPT y su "boleta de calificaciones" con evaluaciones y métricas.
Para aquellos con hardware menos potente, Nanochat también ofrece soporte experimental para dispositivos CPU y MPS (Apple Silicon), lo que permite experimentar y entrenar LLM muy pequeños, aunque con mayor paciencia.
Contribuyendo al futuro de los micromodelos
Nanochat es un proyecto en curso, con el objetivo de hacer avanzar el estado del arte en micromodelos accesibles para trabajar de principio a fin con presupuestos inferiores a los 1000 $. Se aceptan contribuciones, lo que enfatiza el aspecto impulsado por la comunidad de desarrollar un ecosistema de entrenamiento de LLM robusto, pero sencillo.
Al desmitificar el proceso y reducir la barrera de entrada, Nanochat promete ser una herramienta fundamental para cualquiera que busque construir, comprender y personalizar sus propios asistentes de IA, directamente desde su propio entorno informático.