TinyRecursiveModels: Razonamiento de IA con redes neuronales mínimas

TinyRecursiveModels: Redefiniendo la IA con "Menos es Más"

En una era dominada por modelos fundacionales cada vez más grandes, el proyecto TinyRecursiveModels (TRM) de Samsung SAILT Montreal presenta una narrativa refrescante y de gran impacto: "Menos es Más". Esta iniciativa de código abierto introduce un enfoque de razonamiento recursivo innovador que logra puntuaciones notables en complejos puntos de referencia de IA como ARC-AGI-1 (45%) y ARC-AGI-2 (8%), utilizando una red neuronal increíblemente compacta de 7 millones de parámetros.

Desafiando el Status Quo

La motivación principal detrás de TRM es desmentir el mito de que el éxito en tareas complejas de IA depende únicamente del despliegue de modelos masivos y costosos de entrenar. TRM demuestra que un modelo pequeño, cuando se diseña con un mecanismo de razonamiento recursivo eficiente, puede igualar el rendimiento de sus equivalentes mucho más grandes. Esta filosofía no solo democratiza el desarrollo de la IA al reducir las barreras computacionales, sino que también abre nuevas vías para la investigación en sistemas inteligentes.

Cómo funciona TRM: Razonamiento recursivo simplificado

TRM simplifica el concepto de razonamiento recursivo, despojándolo de la complejidad innecesaria que a menudo se observa en otros modelos inspirados en sistemas biológicos. Su mecanismo central implica una pequeña red que refina iterativamente su respuesta predicha. Comenzando con una pregunta de entrada incrustada, una respuesta inicial incrustada y un estado latente, TRM realiza dos pasos clave:

  1. Actualización latente recursiva: El modelo actualiza recursivamente su estado latente múltiples veces, condicionado por la pregunta, la respuesta actual y el estado latente existente.
  2. Refinamiento de la respuesta: El estado latente actualizado se utiliza luego para refinar la respuesta actual.

Este proceso iterativo permite a TRM mejorar progresivamente sus soluciones, abordando eficazmente errores pasados y minimizando el sobreajuste, todo ello dentro de un marco extremadamente eficiente en cuanto a parámetros.

Empiece a usar TinyRecursiveModels

El proyecto proporciona instrucciones completas para configurar y experimentar con TRM. Esto es lo que necesita para empezar:

  • Entorno: Python 3.10 y Cuda 12.6.0 (o versiones similares).
  • Dependencias: Instale las bibliotecas necesarias, incluyendo torch (asegúrese de que sea compatible con su versión de CUDA) y otros requisitos a través de pip.

Preparación de conjuntos de datos y experimentos

TRM es compatible con varios conjuntos de datos, incluyendo:

  • ARC-AGI-1 y ARC-AGI-2 (para los cuales se proporcionan notas específicas sobre los datos de entrenamiento).
  • Sudoku-Extreme.
  • Maze-Hard.

Hay comandos detallados disponibles para construir estos conjuntos de datos y ejecutar experimentos en diferentes configuraciones de GPU, mostrando la versatilidad del modelo en tareas de razonamiento lógico y resolución de rompecabezas. Los tiempos de ejecución oscilan entre menos de 24 horas y aproximadamente 3 días, dependiendo de la tarea y el hardware.

Cómo citar este trabajo

Si SmallRecursiveModels le resulta beneficioso para su investigación o aplicaciones, considere citar el artículo adjunto, "Less is More: Recursive Reasoning with Tiny Networks", de Alexia Jolicoeur-Martineau (2025). El trabajo también hace referencia al innovador Modelo de Razonamiento Jerárquico (HRM) que inspiró su desarrollo.

TinyRecursiveModels es un testimonio del poder del diseño arquitectónico reflexivo sobre la fuerza bruta del escalamiento, ofreciendo una solución práctica de código abierto para el razonamiento avanzado de IA.

Artículo original: Ver original

Compartir este artículo