迷你递归神经模型:用最少网络实现AI推理

TinyRecursiveModels:以“少即是多”的理念重塑人工智能

在大型基础模型主导的时代,三星 SAILT 蒙特利尔的 TinyRecursiveModels(TRM)项目提出了一种令人耳目一新的、具有深远影响的观点:“少即是多”。这项开源倡议引入了一种突破性的递归推理方法,它仅使用一个包含 700 万参数的紧凑型神经网络,就在 ARC-AGI-1(45%)和 ARC-AGI-2(8%)等具有挑战性的人工智能基准测试中取得了显著分数。

挑战现状

TRM 背后的核心动机是揭穿这样一个神话:在复杂人工智能任务中的成功仅仅取决于部署大规模、训练成本高昂的模型。TRM 表明,一个小型模型,如果设计时采用高效的递归推理机制,其性能可以与大得多的模型相媲美。这种理念不仅通过降低计算门槛使人工智能开发民主化,还为智能系统研究开辟了新途径。

TRM 工作原理:简化的递归推理

TRM 简化了递归推理的概念,剥离了其他受生物系统启发模型中常见的冗余复杂性。其核心机制是一个微型网络,它迭代地优化其预测答案。TRM 从嵌入式输入问题、初始嵌入式答案和潜在状态开始,执行两个关键步骤:

  1. 递归潜在状态更新:模型根据问题、当前答案和现有潜在状态,递归地多次更新其潜在状态。
  2. 答案优化:然后使用更新后的潜在状态来优化当前答案。

这种迭代过程使 TRM 能够逐步改进其解决方案,有效地纠正过去的错误并最大限度地减少过拟合,所有这些都在一个参数效率极高的框架内实现。

TinyRecursiveModels 入门

该项目提供了设置和试验 TRM 的全面说明。以下是您需要准备的:

  • 环境:Python 3.10 和 Cuda 12.6.0(或类似版本)。
  • 依赖项:通过 pip 安装必要的库,包括 torch(确保与您的 CUDA 版本兼容)和其他要求。

数据集准备和实验

TRM 支持各种数据集,包括:

  • ARC-AGI-1 和 ARC-AGI-2(提供了有关训练数据的具体说明)。
  • Sudoku-Extreme。
  • Maze-Hard。

提供了详细的命令来构建这些数据集并在不同的 GPU 设置上运行实验,展示了模型在逻辑推理和解谜任务中的多功能性。运行时间从不到 24 小时到大约 3 天不等,具体取决于任务和硬件。

引用此工作

如果您发现 TinyRecursiveModels 对您的研究或应用有益,请考虑引用随附的论文《少即是多:使用微型网络的递归推理》,作者 Alexia Jolicoeur-Martineau(2025 年)。该工作还引用了启发其开发的创新分层推理模型(HRM)。

TinyRecursiveModels 证明了深思熟虑的架构设计优于暴力扩展的强大力量,为先进的人工智能推理提供了一个实用、开源的解决方案。

原创文章: 查看原文

分享本文