递归是 AI 的下一个扩展定律

cover

摘要

本文深入探讨了递归（Recursion）作为人工智能领域下一个核心扩展定律的潜力。长期以来，AI 社区通过不断增大模型参数规模来提升性能，但 2025 年发表的两篇重要论文——分层推理模型（Hierarchical Reasoning Model, HRM）和微型递归模型（Tiny Recursive Model, TRM）——证明了一条截然不同的路径：通过在推理阶段引入递归，而非单纯增大模型，可以显著提升推理能力。

文章首先回顾了循环神经网络（RNN）与大型语言模型（LLM）的根本差异：RNN 天然具备递归结构和潜在推理能力，但受限于随时间反向传播（Backpropagation Through Time, BPTT）中的梯度消失和内存瓶颈；LLM 通过 Transformer 架构实现了高效的并行训练，却丧失了在连续潜在空间中进行递归推理的能力。HRM 通过三层递归结构（低频模块、高频模块和外部精炼循环）以及基于深度均衡学习（Deep Equilibrium Learning, DEQ）的截断反向传播技巧，仅用 2700 万参数就在 ARC Prize 上达到了当时的最佳成绩。TRM 则进一步简化了 HRM 的架构，将双网络合并为单网络、将四层 Transformer 压缩为一层、将反向传播扩展到一个完整的递归步骤，最终以仅 700 万参数将 ARC Prize 准确率从 70% 提升至 87%。这些成果表明，递归是一种独立于参数规模的扩展维度，将递归与大规模模型结合可能开启 AI 能力的全新高度。

正文

从 RNN 到 LLM：推理能力的此消彼长

本集 Decoded 节目邀请了 Y Combinator 访问合伙人 François Chollet（François Chollet，此处 ASR 识别为"Franis Shaard"，已修正）来讨论 AI 研究中递归这一趋势。François 指出，RNN 本质上就是一个反复调用自身的模型。在 2016 年之前，RNN 是主流范式，Alex Graves 在 NeurIPS 上关于自适应计算时间（Adaptive Computation Time）的主旨演讲是该范式的高峰，当时学界普遍认为 RNN 是实现通用人工智能（AGI）的必要路径。

然而，RNN 的根本瓶颈在于随时间反向传播（BPTT）。在 BPTT 中，模型需要展开所有时间步，逐步回传梯度以更新权重。随着模型规模增大和展开步数增加，梯度误差不断累积，导致梯度消失或爆炸问题。此外，每个时间步都需要保存激活值，这意味着如果处理百万级上下文，就需要在内存中保存百万份激活状态的副本。虽然梯度检查点（Gradient Checkpointing）等技术可以缓解内存压力，但这本质上是用计算时间换取内存空间。

Transformer 架构的出现彻底改变了这一局面。在训练阶段，Transformer 利用因果掩码（Causal Mask）的下三角技巧，实现了所有时间步的并行前向和反向传播。这意味着不需要逐时间步迭代，也不会遭遇 RNN 那样的梯度消失问题。然而，这一优势的代价是丧失了潜在推理（Latent Reasoning）能力和时间维度上的信息压缩。在 LLM 中，每次解码都必须保留完整的上下文序列——如同为了解码莎士比亚小说的一个片段就必须保留整部小说一样——而 RNN 则将所有历史信息压缩在隐藏状态（Hidden State）中。

LLM 的推理局限：不可压缩问题

讨论转向了 LLM 在推理方面的固有局限。以 GPT-2 为标志的"下一个词预测"范式虽然让验证损失（Validation Loss）持续下降、困惑度（Perplexity）不断改善，但当面对需要真正推理的难题时，其局限性暴露无遗。

François 以排序问题为例：给定无限量的无序列表和对应的有序列表作为训练数据，LLM 无法在一次前向传播中将无序列表映射为有序列表。这是因为比较排序（Comparison Sort）的理论下界是 O(n log n) 次比较操作，如果列表有 31 个元素而 Transformer 只有 30 层，模型就根本没有足够的步骤完成所有比较。类似地，数独（Sudoku）、迷宫（Maze）和滚动求和（Rolling Sum）都是不可压缩问题（Incompressible Problem）——它们无法在有限的前向步骤中一次性解决。

一个关键的洞察来自经典算法理论：如果排序算法能访问外部存储（如磁带），就可以超越 O(n log n) 的限制——基数排序（Radix Sort）正是利用外部存储桶将复杂度降至 O(n)。LLM 缺乏这样的外部存储机制，这正是其推理能力受限的核心原因。从计算理论的角度看，纯粹的 GPT-2 式前馈模型本质上只是一个有限步的计算设备，无法模拟图灵机（Turing Machine）的无限磁带。

思维链与工具使用：两条权宜之计

面对上述局限，社区发展出了两种"破解方案"：思维链（Chain of Thought, CoT）和工具使用（Tool Use）。

思维链利用了 LLM 在测试时的图灵完备性——通过不断输出中间结果并重新输入，LLM 可以在 Token 空间中模拟任意图灵可计算函数。然而，要训练模型学会这种推理方式，必须有对应的人工标注推理链（Trace），而对于许多问题（如千禧年数学难题），这样的推理链根本不存在。

工具使用则更为简单：直接教模型调用 Python 的 sort() 函数。但这两种方案都有根本局限——它们受限于人类已有知识的边界。如果人类只知道冒泡排序（Bubble Sort），那么无论用思维链还是工具使用，模型都只会冒泡排序，而无法发现归并排序（Merge Sort）等更优算法。Demis Hassabis 曾提出"爱因斯坦测试"：让模型回到 1911 年，仅凭当时的知识重建至今的全部物理学——这恰恰是当前方法无法做到的。

此外，还有一个更深层的问题：LLM 的推理发生在离散的 Token 空间中，信息必须被量化回离散 Token；而 RNN 的推理在连续的潜在空间中进行，维度更高、表达力更强，但受限于 BPTT 而难以训练。这正是 HRM 和 TRM 论文令人兴奋的原因。

分层推理模型（HRM）：三层递归的突破

HRM 论文直接继承了 RNN 的思想脉络。其核心灵感来自大脑中不同区域以不同频率运行的现象：低层级以高频运行，高层级以低频运行，两者之间的交互构成了层次化推理的基础。

HRM 的架构包含三层递归：

低频模块（L-Net）：对输入执行 T_L 步递归，更新低层隐藏状态 Z_L
高频模块（H-Net）：对低频模块的输出执行 T_H 步递归，更新高层隐藏状态 Z_H
外部精炼循环（Outer Refinement Loop）：将上述过程重复 N 次进行精炼

用编程中的变量作用域（Variable Scoping）来类比：Z_L 是内层函数的局部变量，在递归过程中不断被覆写和更新；Z_H 是外层函数的作用域变量，接收 Z_L 的输出并进行一次迭代后，再将结果传回内层继续递归；最外层的精炼循环则反复执行这一过程。

HRM 的训练技巧：深度均衡学习与截断反向传播

HRM 最关键的创新在于训练方法。Alex Graves 在其一系列工作（从神经图灵机到自适应计算时间再到微分神经计算机）中，始终对所有递归步骤进行完整的反向传播，因此受限于 BPTT。HRM 采用了深度均衡学习（DEQ）的思想，使用固定点迭代（Fixed Point Iteration）方法。

具体做法是：取一批数据，前向传播得到损失，反向传播更新权重——但不是换一批新数据，而是用同一批数据反复执行 16 次。关键在于，Z_L 和 Z_H 初始为零，经过递归后产生残差，但反向传播只穿透两个模块一步就执行停止梯度（Stop Gradient），不再沿递归链回溯。然后不重置 Z_L 和 Z_H，而是保留更新后的值，继续在同一输入上执行下一步。由于隐藏状态已改变，这实际上等同于在不同的潜在空间位置处理不同的"批次"——这就是"跨越记忆空间的迷你批次构造"概念。

当 Z_L 和 Z_H 的变化量趋近于零时，数学上等价于 DEQ 的固定点条件。然而，后续的 TRM 论文证明，这个条件实际上并不满足——残差并没有真正收敛到零，因此 DEQ 的数学基础并不完全成立。HRM 为何有效，至今仍是一个开放问题。

HRM 的成果：小模型的大突破

HRM 以仅 2700 万参数的模型在 ARC Prize 1 和 ARC Prize 2 上取得了当时的最佳成绩。该模型仅用约 1000 个 ARC 任务训练，没有任何预训练，从零初始化权重（Tabula Rasa）开始。作为对比，当时的 o3 模型在 ARC Prize 上的成绩为零。HRM 在 ARC Prize 1 上达到了约 70% 的准确率，这是一个巨大的突破。

HRM 的关键启示：外部精炼循环才是核心

来自 Constantine（Fronto Chalet 公司）的消融实验揭示了 HRM 各组件的相对贡献：外部精炼循环是性能提升的主要原因，而低频/高频模块的双层递归和其他复杂设计并非必需。这为 TRM 论文的简化奠定了基础。

微型递归模型（TRM）：大道至简

TRM 论文（作者 Alexia）对 HRM 进行了关键的简化和改进：

合并双网络为单网络：HRM 使用独立的 L-Net 和 H-Net（各 4 层 Transformer），TRM 将其合并为一个权重共享的 Net（仅 1 层 Transformer），同时保留 Z_L 和 Z_H 两个独立的隐藏状态。消融实验表明，同一个网络完全可以同时提取低层和高层特征。
扩展反向传播深度：HRM 仅反向传播穿过两个模块一步，TRM 则反向传播穿透一个完整的递归步骤。这使得模型能够学习更深的递归逻辑。
模型大幅缩小：从 HRM 的 2800 万参数压缩至 TRM 的 700 万参数。

结果令人瞩目：TRM 在 ARC Prize 1 上的准确率从 HRM 的 70% 提升至 87%，在 ARC Prize 2 上也表现出色。值得注意的是，在某些任务上（如数独），简单的多层感知机（MLP）甚至优于注意力机制，而在迷宫任务上 MLP 得分为零——这说明 Transformer 并非在所有情况下都是最优选择。

期望最大化视角：训练过程的直觉

TRM 的训练过程可以用期望最大化（Expectation Maximization, EM）算法来理解：首先基于输入 X 和当前的 Z_H 更新 Z_L（反复执行多次），然后基于 Z_L 更新 Z_H。Z_L 如同局部作用域变量，在递归中不断尝试和更新；Z_H 则是候选答案（Proposed Latent Answer），距离真正的答案只有一个 MLP 查找的距离。以数独为例，Z_L 在每一步只能填入一两个确定的格子，然后将进展传递给 Z_H，Z_H 填入更多格子后，再让 Z_L 基于新信息继续推理——这正是数独这类不可压缩问题的自然解题方式。

最重要的是，这种推理完全在潜在空间中进行，不需要思维链。如果人类不知道如何解数独，模型仍然能够自行发现解法——它不受教师强制（Teacher Forcing）的限制。

代码层面的对比：HRM 与 TRM 的核心算法

HRM 的核心训练循环如下：
- 初始化 Z 和 Z_L 为零
- 将原始输入 x_raw 映射到嵌入空间得到 X
- 对 Z_L 执行 T_L 步递归更新（通过 L-Net）
- 每隔 T_L 步对 Z_H 执行一步更新（通过 H-Net）
- 使用 no_grad 和 detach 隔离梯度流
- 截断反向传播：仅穿透 L-Net 和 H-Net 一步
- 更新权重后不重置 Z 和 Z_L，保留其状态用于下一步
- 外部精炼循环在训练和测试时分别执行 N_sub 和 M_test 次

TRM 的修改集中在两点：
- 将 L-Net 和 H-Net 合并为单网络 Net（1 层 Transformer vs HRM 的 4 层）
- 反向传播穿透一个完整的递归步骤（而非仅一步）

有趣的是，Constantine 的实验表明，训练时使用 16 次精炼循环但测试时仅用 1 次，仍能保留约 7/8 的性能——过多的测试时计算实际上并不必要。

展望未来：递归与大规模模型的融合

Melanie Mitchell 在其著作中讨论了这样一个现象：增大模型规模是提升性能的充分非必要条件，增加递归同样是充分非必要条件。最令人兴奋的前景是将两者结合：既利用大规模 LLM 在表示学习方面的卓越能力（找到优质的语义嵌入空间），又利用递归模型在潜在空间中的高效推理能力。

当前 LLM 的核心优势在于从 Token 空间或像素空间映射到高质量的语义潜在空间，但推理仍需通过离散 Token 空间进行，效率低下。未来的方向可能是：用大型模型构建嵌入空间，然后在该空间中部署微型递归模型进行深度推理——这种"大模型提供表示、小模型执行推理"的范式，有望实现两种范式的互补优势。

递归不会消失。截断反向传播（t=1）的有效性尚待深入理解。将递归与大模型结合的路径才刚刚开启，这可能是 AI 推理能力飞跃的下一个关键突破点。