François Chollet:为什么仅靠扩展规模不足以实现AGI

cover

摘要

本期节目深度对话François Chollet——Keras框架创建者和ARC-AGI基准测试的发明者,探讨为什么单纯扩大模型规模(Scaling)无法通向通用人工智能(AGI)。Chollet从多个维度论证了这一核心观点:当前LLM本质上是在做模式匹配和记忆检索,而非真正的推理;深度学习的根本局限在于梯度下降(Gradient Descent)无法发现可泛化的程序,只会对训练数据进行过拟合式模式匹配;代码领域之所以取得突破,是因为存在可验证的奖励信号(如单元测试),使模型能够通过试错自我改进。他提出了对AGI的定义——不是"自动化大部分经济任务"(那只是自动化而非智能),而是"以与人类相同的效率学习新任务的能力"。ARC-AGI基准正是为了衡量这一能力而设计。Chollet还分享了从2015年发布Keras到2019年发表ARC论文的完整思想历程,以及推理模型(Reasoning Model)如何在2025年终于让ARC-AGI V1取得突破性进展。

正文

LLM的本质:模式匹配而非推理

Chollet指出,当前大语言模型(LLM)在推理任务上的表现本质上是在进行模式匹配(Pattern Matching)和记忆检索(Memorization & Retrieval),而非真正的逻辑推理。模型在看似推理时,实际上是在复现训练数据中见过的推理模式。虽然随着训练数据量增大,这种复现看起来不再像过拟合——因为数据分布更广了——但其本质并未改变。Chollet用一句名言概括:"所有模型都是错的,但有些是有用的"(All models are wrong, but some models are useful)。

梯度下降的根本局限

Chollet分享了他的研究历程:2016年在Google Brain工作时,他试图用深度学习模型解决一阶逻辑(First-Order Logic)和定理证明问题,结果发现梯度下降无法找到可泛化的程序(Generalizable Programs)。问题不在于模型无法表示这些算法——深度学习在表达能力上是图灵完备的——而在于梯度下降作为优化方法无法发现它们。梯度下降只会做模式匹配,对输入token序列进行过拟合,而无法学到真正可泛化的算法。这一发现从根本上质疑了"不断扩大规模就能达到AGI"的假设。

为什么代码是突破口

代码领域之所以率先取得突破,是因为它提供了一个独特优势:可验证的奖励信号(Verifiable Reward Signal)。单元测试可以自动验证代码的正确性,使模型不再仅依赖人类标注,而是可以自行尝试、验证答案、生成大量合成数据。这使模型能够更密集地覆盖问题空间,不仅学到答案的对错,还开始构建执行轨迹(Execution Trace)的模型——就像人类程序员在脑中"运行"代码一样追踪变量值。这种机制在散文、法律等无法自动验证的领域是不可能实现的。

对AGI的正确定义

Chollet强烈反对当前行业主流的AGI定义——"能够自动化大部分经济上有价值的任务"。他认为这定义的是自动化(Automation),而不是智能(Intelligence),更不是通用智能(General Intelligence)。他提出的定义是:AGI是一个能够以与人类相同的效率接近任何新问题、新任务、新领域,并理解它、建模它、变得胜任它的系统。这意味着它需要与人类相同数量的训练数据和计算——而人类在数据效率上极其出色。通用智能的本质是人类级别的技能获取效率(Human-Level Skill Acquisition Efficiency)。

两种AGI定义的实现时序

Chollet认为,"自动化大部分经济工作"这一定义的AGI很可能先于他定义的AGI实现。当前技术已经在原则上能够完全自动化任何拥有可验证奖励的领域(代码是第一个),而实现真正的人类级学习效率则需要完全不同的技术和思维方式。

LLM能否达到人类的样本效率?

关于LLM能否通过某种改造达到与人类相同的样本效率(Sample Efficiency),Chollet认为:在足够的计算量下,一切方法都会趋同——计算是伟大的均衡器。理论上可以在LLM之上构建看起来像AGI的系统,但这不会是LLM本身,而是在其上添加若干层的新架构。然而他同时认为这样做会是低效的,AI研究最终必须追求最优性(Optimality),因此未来几十年的AI不会是在推理模型和基础模型之上叠加的框架,而是会在更低、更高效的层次上实现。

Keras与ARC-AGI的诞生

Chollet回顾了自己的研究历程:2014年他训练和部署了首个用于自然语言处理的深度学习模型,2015年3月发布了Keras开源库——恰好距今11年。Keras获得了极大的产品市场契合度,使他一度从研究转向框架维护工作。2016-2017年,在发现深度学习的根本局限后,他开始构思一个"推理领域的ImageNet"——即程序合成基准测试(Program Synthesis Benchmark)。他尝试了元胞自动机等多种方案,最终在2018年初确定了ARC-AGI格式。2018年夏天他编写了ARC任务编辑器,手工制作了约1万个任务,2019年发表了论文,阐述"智能即技能获取效率"的核心思想。当GPT-3在2020年出现、ChatGPT在2022年底引发行业爆发时,ARC-AGI是LLM表现极差的基准之一,但在程序合成(Program Synthesis)社区内广为人知。基准要引起广泛关注需要模型开始"稍微能做"——太难了人们就会直接忽视它。

ARC-AGI作为行业晴雨表

ARC-AGI一直是行业重大变革的晴雨表。V1长期无人能解,直到2025年推理模型(Reasoning Model)出现才取得突破。V2正在接近饱和,V3已经发布。基础模型在V1上的得分极低(低于10%),而推理模型的引入带来了根本性改变——这正是Chollet一直期待的转折点。