递归是 AI 的下一个扩展定律

摘要
本文深入探讨了递归(Recursion)作为人工智能领域下一个核心扩展定律的潜力。长期以来,AI 社区通过不断增大模型参数规模来提升性能,但 2025 年发表的两篇重要论文——分层推理模型(Hierarchical Reasoning Model, HRM)和微型递归模型(Tiny Recursive Model, TRM)——证明了一条截然不同的路径:通过在推理阶段引入递归,而非单纯增大模型,可以显著提升推理能力。
文章首先回顾了循环神经网络(RNN)与大型语言模型(LLM)的根本差异:RNN 天然具备递归结构和潜在推理能力,但受限于随时间反向传播(Backpropagation Through Time, BPTT)中的梯度消失和内存瓶颈;LLM 通过 Transformer 架构实现了高效的并行训练,却丧失了在连续潜在空间中进行递归推理的能力。HRM 通过三层递归结构(低频模块、高频模块和外部精炼循环)以及基于深度均衡学习(Deep Equilibrium Learning, DEQ)的截断反向传播技巧,仅用 2700 万参数就在 ARC Prize 上达到了当时的最佳成绩。TRM 则进一步简化了 HRM 的架构,将双网络合并为单网络、将四层 Transformer 压缩为一层、将反向传播扩展到一个完整的递归步骤,最终以仅 700 万参数将 ARC Prize 准确率从 70% 提升至 87%。这些成果表明,递归是一种独立于参数规模的扩展维度,将递归与大规模模型结合可能开启 AI 能力的全新高度。
正文
从 RNN 到 LLM:推理能力的此消彼长
本集 Decoded 节目邀请了 Y Combinator 访问合伙人 François Chollet(François Chollet,此处 ASR 识别为"Franis Shaard",已修正)来讨论 AI 研究中递归这一趋势。François 指出,RNN 本质上就是一个反复调用自身的模型。在 2016 年之前,RNN 是主流范式,Alex Graves 在 NeurIPS 上关于自适应计算时间(Adaptive Computation Time)的主旨演讲是该范式的高峰,当时学界普遍认为 RNN 是实现通用人工智能(AGI)的必要路径。
然而,RNN 的根本瓶颈在于随时间反向传播(BPTT)。在 BPTT 中,模型需要展开所有时间步,逐步回传梯度以更新权重。随着模型规模增大和展开步数增加,梯度误差不断累积,导致梯度消失或爆炸问题。此外,每个时间步都需要保存激活值,这意味着如果处理百万级上下文,就需要在内存中保存百万份激活状态的副本。虽然梯度检查点(Gradient Checkpointing)等技术可以缓解内存压力,但这本质上是用计算时间换取内存空间。
Transformer 架构的出现彻底改变了这一局面。在训练阶段,Transformer 利用因果掩码(Causal Mask)的下三角技巧,实现了所有时间步的并行前向和反向传播。这意味着不需要逐时间步迭代,也不会遭遇 RNN 那样的梯度消失问题。然而,这一优势的代价是丧失了潜在推理(Latent Reasoning)能力和时间维度上的信息压缩。在 LLM 中,每次解码都必须保留完整的上下文序列——如同为了解码莎士比亚小说的一个片段就必须保留整部小说一样——而 RNN 则将所有历史信息压缩在隐藏状态(Hidden State)中。
LLM 的推理局限:不可压缩问题
讨论转向了 LLM 在推理方面的固有局限。以 GPT-2 为标志的"下一个词预测"范式虽然让验证损失(Validation Loss)持续下降、困惑度(Perplexity)不断改善,但当面对需要真正推理的难题时,其局限性暴露无遗。
François 以排序问题为例:给定无限量的无序列表和对应的有序列表作为训练数据,LLM 无法在一次前向传播中将无序列表映射为有序列表。这是因为比较排序(Comparison Sort)的理论下界是 O(n log n) 次比较操作,如果列表有 31 个元素而 Transformer 只有 30 层,模型就根本没有足够的步骤完成所有比较。类似地,数独(Sudoku)、迷宫(Maze)和滚动求和(Rolling Sum)都是不可压缩问题(Incompressible Problem)——它们无法在有限的前向步骤中一次性解决。
一个关键的洞察来自经典算法理论:如果排序算法能访问外部存储(如磁带),就可以超越 O(n log n) 的限制——基数排序(Radix Sort)正是利用外部存储桶将复杂度降至 O(n)。LLM 缺乏这样的外部存储机制,这正是其推理能力受限的核心原因。从计算理论的角度看,纯粹的 GPT-2 式前馈模型本质上只是一个有限步的计算设备,无法模拟图灵机(Turing Machine)的无限磁带。
思维链与工具使用:两条权宜之计
面对上述局限,社区发展出了两种"破解方案":思维链(Chain of Thought, CoT)和工具使用(Tool Use)。
思维链利用了 LLM 在测试时的图灵完备性——通过不断输出中间结果并重新输入,LLM 可以在 Token 空间中模拟任意图灵可计算函数。然而,要训练模型学会这种推理方式,必须有对应的人工标注推理链(Trace),而对于许多问题(如千禧年数学难题),这样的推理链根本不存在。
工具使用则更为简单:直接教模型调用 Python 的 sort() 函数。但这两种方案都有根本局限——它们受限于人类已有知识的边界。如果人类只知道冒泡排序(Bubble Sort),那么无论用思维链还是工具使用,模型都只会冒泡排序,而无法发现归并排序(Merge Sort)等更优算法。Demis Hassabis 曾提出"爱因斯坦测试":让模型回到 1911 年,仅凭当时的知识重建至今的全部物理学——这恰恰是当前方法无法做到的。
此外,还有一个更深层的问题:LLM 的推理发生在离散的 Token 空间中,信息必须被量化回离散 Token;而 RNN 的推理在连续的潜在空间中进行,维度更高、表达力更强,但受限于 BPTT 而难以训练。这正是 HRM 和 TRM 论文令人兴奋的原因。
分层推理模型(HRM):三层递归的突破
HRM 论文直接继承了 RNN 的思想脉络。其核心灵感来自大脑中不同区域以不同频率运行的现象:低层级以高频运行,高层级以低频运行,两者之间的交互构成了层次化推理的基础。
HRM 的架构包含三层递归:
- 低频模块(L-Net):对输入执行 T_L 步递归,更新低层隐藏状态 Z_L
- 高频模块(H-Net):对低频模块的输出执行 T_H 步递归,更新高层隐藏状态 Z_H
- 外部精炼循环(Outer Refinement Loop):将上述过程重复 N 次进行精炼
用编程中的变量作用域(Variable Scoping)来类比:Z_L 是内层函数的局部变量,在递归过程中不断被覆写和更新;Z_H 是外层函数的作用域变量,接收 Z_L 的输出并进行一次迭代后,再将结果传回内层继续递归;最外层的精炼循环则反复执行这一过程。
HRM 的训练技巧:深度均衡学习与截断反向传播
HRM 最关键的创新在于训练方法。Alex Graves 在其一系列工作(从神经图灵机到自适应计算时间再到微分神经计算机)中,始终对所有递归步骤进行完整的反向传播,因此受限于 BPTT。HRM 采用了深度均衡学习(DEQ)的思想,使用固定点迭代(Fixed Point Iteration)方法。
具体做法是:取一批数据,前向传播得到损失,反向传播更新权重——但不是换一批新数据,而是用同一批数据反复执行 16 次。关键在于,Z_L 和 Z_H 初始为零,经过递归后产生残差,但反向传播只穿透两个模块一步就执行停止梯度(Stop Gradient),不再沿递归链回溯。然后不重置 Z_L 和 Z_H,而是保留更新后的值,继续在同一输入上执行下一步。由于隐藏状态已改变,这实际上等同于在不同的潜在空间位置处理不同的"批次"——这就是"跨越记忆空间的迷你批次构造"概念。
当 Z_L 和 Z_H 的变化量趋近于零时,数学上等价于 DEQ 的固定点条件。然而,后续的 TRM 论文证明,这个条件实际上并不满足——残差并没有真正收敛到零,因此 DEQ 的数学基础并不完全成立。HRM 为何有效,至今仍是一个开放问题。
HRM 的成果:小模型的大突破
HRM 以仅 2700 万参数的模型在 ARC Prize 1 和 ARC Prize 2 上取得了当时的最佳成绩。该模型仅用约 1000 个 ARC 任务训练,没有任何预训练,从零初始化权重(Tabula Rasa)开始。作为对比,当时的 o3 模型在 ARC Prize 上的成绩为零。HRM 在 ARC Prize 1 上达到了约 70% 的准确率,这是一个巨大的突破。
HRM 的关键启示:外部精炼循环才是核心
来自 Constantine(Fronto Chalet 公司)的消融实验揭示了 HRM 各组件的相对贡献:外部精炼循环是性能提升的主要原因,而低频/高频模块的双层递归和其他复杂设计并非必需。这为 TRM 论文的简化奠定了基础。
微型递归模型(TRM):大道至简
TRM 论文(作者 Alexia)对 HRM 进行了关键的简化和改进:
-
合并双网络为单网络:HRM 使用独立的 L-Net 和 H-Net(各 4 层 Transformer),TRM 将其合并为一个权重共享的 Net(仅 1 层 Transformer),同时保留 Z_L 和 Z_H 两个独立的隐藏状态。消融实验表明,同一个网络完全可以同时提取低层和高层特征。
-
扩展反向传播深度:HRM 仅反向传播穿过两个模块一步,TRM 则反向传播穿透一个完整的递归步骤。这使得模型能够学习更深的递归逻辑。
-
模型大幅缩小:从 HRM 的 2800 万参数压缩至 TRM 的 700 万参数。
结果令人瞩目:TRM 在 ARC Prize 1 上的准确率从 HRM 的 70% 提升至 87%,在 ARC Prize 2 上也表现出色。值得注意的是,在某些任务上(如数独),简单的多层感知机(MLP)甚至优于注意力机制,而在迷宫任务上 MLP 得分为零——这说明 Transformer 并非在所有情况下都是最优选择。
期望最大化视角:训练过程的直觉
TRM 的训练过程可以用期望最大化(Expectation Maximization, EM)算法来理解:首先基于输入 X 和当前的 Z_H 更新 Z_L(反复执行多次),然后基于 Z_L 更新 Z_H。Z_L 如同局部作用域变量,在递归中不断尝试和更新;Z_H 则是候选答案(Proposed Latent Answer),距离真正的答案只有一个 MLP 查找的距离。以数独为例,Z_L 在每一步只能填入一两个确定的格子,然后将进展传递给 Z_H,Z_H 填入更多格子后,再让 Z_L 基于新信息继续推理——这正是数独这类不可压缩问题的自然解题方式。
最重要的是,这种推理完全在潜在空间中进行,不需要思维链。如果人类不知道如何解数独,模型仍然能够自行发现解法——它不受教师强制(Teacher Forcing)的限制。
代码层面的对比:HRM 与 TRM 的核心算法
HRM 的核心训练循环如下:
- 初始化 Z 和 Z_L 为零
- 将原始输入 x_raw 映射到嵌入空间得到 X
- 对 Z_L 执行 T_L 步递归更新(通过 L-Net)
- 每隔 T_L 步对 Z_H 执行一步更新(通过 H-Net)
- 使用 no_grad 和 detach 隔离梯度流
- 截断反向传播:仅穿透 L-Net 和 H-Net 一步
- 更新权重后不重置 Z 和 Z_L,保留其状态用于下一步
- 外部精炼循环在训练和测试时分别执行 N_sub 和 M_test 次
TRM 的修改集中在两点:
- 将 L-Net 和 H-Net 合并为单网络 Net(1 层 Transformer vs HRM 的 4 层)
- 反向传播穿透一个完整的递归步骤(而非仅一步)
有趣的是,Constantine 的实验表明,训练时使用 16 次精炼循环但测试时仅用 1 次,仍能保留约 7/8 的性能——过多的测试时计算实际上并不必要。
展望未来:递归与大规模模型的融合
Melanie Mitchell 在其著作中讨论了这样一个现象:增大模型规模是提升性能的充分非必要条件,增加递归同样是充分非必要条件。最令人兴奋的前景是将两者结合:既利用大规模 LLM 在表示学习方面的卓越能力(找到优质的语义嵌入空间),又利用递归模型在潜在空间中的高效推理能力。
当前 LLM 的核心优势在于从 Token 空间或像素空间映射到高质量的语义潜在空间,但推理仍需通过离散 Token 空间进行,效率低下。未来的方向可能是:用大型模型构建嵌入空间,然后在该空间中部署微型递归模型进行深度推理——这种"大模型提供表示、小模型执行推理"的范式,有望实现两种范式的互补优势。
递归不会消失。截断反向传播(t=1)的有效性尚待深入理解。将递归与大模型结合的路径才刚刚开启,这可能是 AI 推理能力飞跃的下一个关键突破点。