AIBit 发现开源项目

首页 / 实用开源项目

迷你递归神经模型：用最少网络实现AI推理

October 21, 2025

类别: 实用开源项目

标签:

Open Source AI Recursive Reasoning Tiny ML ARC-AGI

TinyRecursiveModels：以“少即是多”的理念重塑人工智能

在大型基础模型主导的时代，三星 SAILT 蒙特利尔的 TinyRecursiveModels（TRM）项目提出了一种令人耳目一新的、具有深远影响的观点：“少即是多”。这项开源倡议引入了一种突破性的递归推理方法，它仅使用一个包含 700 万参数的紧凑型神经网络，就在 ARC-AGI-1（45%）和 ARC-AGI-2（8%）等具有挑战性的人工智能基准测试中取得了显著分数。

挑战现状

TRM 背后的核心动机是揭穿这样一个神话：在复杂人工智能任务中的成功仅仅取决于部署大规模、训练成本高昂的模型。TRM 表明，一个小型模型，如果设计时采用高效的递归推理机制，其性能可以与大得多的模型相媲美。这种理念不仅通过降低计算门槛使人工智能开发民主化，还为智能系统研究开辟了新途径。

TRM 工作原理：简化的递归推理

TRM 简化了递归推理的概念，剥离了其他受生物系统启发模型中常见的冗余复杂性。其核心机制是一个微型网络，它迭代地优化其预测答案。TRM 从嵌入式输入问题、初始嵌入式答案和潜在状态开始，执行两个关键步骤：

递归潜在状态更新：模型根据问题、当前答案和现有潜在状态，递归地多次更新其潜在状态。
答案优化：然后使用更新后的潜在状态来优化当前答案。

这种迭代过程使 TRM 能够逐步改进其解决方案，有效地纠正过去的错误并最大限度地减少过拟合，所有这些都在一个参数效率极高的框架内实现。

TinyRecursiveModels 入门

该项目提供了设置和试验 TRM 的全面说明。以下是您需要准备的：

环境：Python 3.10 和 Cuda 12.6.0（或类似版本）。
依赖项：通过 pip 安装必要的库，包括 torch（确保与您的 CUDA 版本兼容）和其他要求。

数据集准备和实验

TRM 支持各种数据集，包括：

ARC-AGI-1 和 ARC-AGI-2（提供了有关训练数据的具体说明）。
Sudoku-Extreme。
Maze-Hard。

提供了详细的命令来构建这些数据集并在不同的 GPU 设置上运行实验，展示了模型在逻辑推理和解谜任务中的多功能性。运行时间从不到 24 小时到大约 3 天不等，具体取决于任务和硬件。

引用此工作

如果您发现 TinyRecursiveModels 对您的研究或应用有益，请考虑引用随附的论文《少即是多：使用微型网络的递归推理》，作者 Alexia Jolicoeur-Martineau（2025 年）。该工作还引用了启发其开发的创新分层推理模型（HRM）。

TinyRecursiveModels 证明了深思熟虑的架构设计优于暴力扩展的强大力量，为先进的人工智能推理提供了一个实用、开源的解决方案。

原创文章: 查看原文

分享本文