Autoresearch de Karpathy: Los Agentes de IA Entrenan LLMs Durante la Noche

El repositorio autoresearch de Andrej Karpathy revoluciona el desarrollo de IA al permitir que agentes de IA autónomos experimenten con el entrenamiento de LLMs durante la noche. No se requiere codificación manual: los agentes modifican train.py, ejecutan experimentos de 5 minutos y optimizan modelos basados en la pérdida de validación. Despierta con mejores modelos y registros detallados. Configuración de una sola GPU con arquitectura nanochat hace que la investigación de frontera sea accesible para cualquiera con una GPU NVIDIA. Perfecto para investigadores de IA que quieran automatizar el ajuste de hiperparámetros, búsqueda de arquitectura y optimización de modelos.

Autoresearch de Karpathy: Deja que los agentes de IA revolucionen el entrenamiento de tus modelos

La era de la investigación manual de IA ha terminado. El repositorio autoresearch de Andrej Karpathy (20.6k estrellas) introduce un enfoque revolucionario: los agentes de IA mejoran los LLMs de forma autónoma durante la noche sin intervención humana.

El Concepto Revolucionario

En lugar de que los investigadores ajusten manualmente hiperparámetros, arquitectura y optimizadores, autoresearch entrega el control a agentes de IA. El flujo de trabajo:

  1. El agente edita train.py (modelo GPT, optimizador Muon+AdamW, bucle de entrenamiento)
  2. Ejecuta un entrenamiento de 5 minutos (presupuesto fijo de tiempo real)
  3. Evalúa en val_bpb (bits por byte, menor = mejor)
  4. Mantiene las mejoras, descarta los fallos
  5. Repite ~100x durante la noche

Despierta con modelos optimizados y registros detallados de experimentos.

Configuración Mínima de 4 Archivos

uv sync
uv run prepare.py  # Descarga datos + entrena tokenizador
uv run train.py    # Prueba manual (~5 min)

Archivos principales:

  • prepare.py – Preparación de datos + utilidades (fijo)
  • train.py – Parque de juegos del agente (modelo + entrenamiento)
  • program.md – Instrucciones del agente (editable por humanos)

Decisiones de Diseño Listas para Producción

Un solo archivo editable mantiene las diferencias revisables ✅ Presupuesto fijo de 5 min = comparaciones justas de arquitectura ✅ Autocontenido – PyTorch + dependencias mínimas ✅ Métrica independiente del vocabulario (val_bpb)

Inicio Rápido para Usuarios de H100

# 1. Instalar (Python 3.10+)
curl -LsSf https://astral.sh/uv/install.sh | sh
uv sync

# 2. Preparar datos (~2 min)
uv run prepare.py

# 3. Ejecución de prueba (~5 min)
uv run train.py

Inicia Claude/Codex:

"¡Hola, lee program.md e inicia un nuevo experimento!"

¿Hardware más pequeño? Prueba estos forks

Consejos pro para bajo cómputo: Conjunto de datos TinyStories, vocab_size=1024, DEPTH=4, MAX_SEQ_LEN=256.

Por Qué Esto Cambia Todo

  • Democratiza la investigación: Una sola GPU → progreso de frontera
  • Optimizado para la plataforma: Encuentra el mejor modelo para tu hardware
  • Programable por agentes: Edita program.md para agregar enjambres multiagente
  • Licencia MIT: Haz fork, extiende, contribuye

Repositorio GitHub (20.6k ⭐) – El futuro de la investigación de IA ha llegado.