François Chollet：为什么仅靠扩展规模不足以实现AGI

cover

摘要

本期节目深度对话François Chollet——Keras框架创建者和ARC-AGI基准测试的发明者，探讨为什么单纯扩大模型规模（Scaling）无法通向通用人工智能（AGI）。Chollet从多个维度论证了这一核心观点：当前LLM本质上是在做模式匹配和记忆检索，而非真正的推理；深度学习的根本局限在于梯度下降（Gradient Descent）无法发现可泛化的程序，只会对训练数据进行过拟合式模式匹配；代码领域之所以取得突破，是因为存在可验证的奖励信号（如单元测试），使模型能够通过试错自我改进。他提出了对AGI的定义——不是"自动化大部分经济任务"（那只是自动化而非智能），而是"以与人类相同的效率学习新任务的能力"。ARC-AGI基准正是为了衡量这一能力而设计。Chollet还分享了从2015年发布Keras到2019年发表ARC论文的完整思想历程，以及推理模型（Reasoning Model）如何在2025年终于让ARC-AGI V1取得突破性进展。

正文

LLM的本质：模式匹配而非推理

Chollet指出，当前大语言模型（LLM）在推理任务上的表现本质上是在进行模式匹配（Pattern Matching）和记忆检索（Memorization & Retrieval），而非真正的逻辑推理。模型在看似推理时，实际上是在复现训练数据中见过的推理模式。虽然随着训练数据量增大，这种复现看起来不再像过拟合——因为数据分布更广了——但其本质并未改变。Chollet用一句名言概括："所有模型都是错的，但有些是有用的"（All models are wrong, but some models are useful）。

梯度下降的根本局限

Chollet分享了他的研究历程：2016年在Google Brain工作时，他试图用深度学习模型解决一阶逻辑（First-Order Logic）和定理证明问题，结果发现梯度下降无法找到可泛化的程序（Generalizable Programs）。问题不在于模型无法表示这些算法——深度学习在表达能力上是图灵完备的——而在于梯度下降作为优化方法无法发现它们。梯度下降只会做模式匹配，对输入token序列进行过拟合，而无法学到真正可泛化的算法。这一发现从根本上质疑了"不断扩大规模就能达到AGI"的假设。

为什么代码是突破口

代码领域之所以率先取得突破，是因为它提供了一个独特优势：可验证的奖励信号（Verifiable Reward Signal）。单元测试可以自动验证代码的正确性，使模型不再仅依赖人类标注，而是可以自行尝试、验证答案、生成大量合成数据。这使模型能够更密集地覆盖问题空间，不仅学到答案的对错，还开始构建执行轨迹（Execution Trace）的模型——就像人类程序员在脑中"运行"代码一样追踪变量值。这种机制在散文、法律等无法自动验证的领域是不可能实现的。

对AGI的正确定义

Chollet强烈反对当前行业主流的AGI定义——"能够自动化大部分经济上有价值的任务"。他认为这定义的是自动化（Automation），而不是智能（Intelligence），更不是通用智能（General Intelligence）。他提出的定义是：AGI是一个能够以与人类相同的效率接近任何新问题、新任务、新领域，并理解它、建模它、变得胜任它的系统。这意味着它需要与人类相同数量的训练数据和计算——而人类在数据效率上极其出色。通用智能的本质是人类级别的技能获取效率（Human-Level Skill Acquisition Efficiency）。

两种AGI定义的实现时序

Chollet认为，"自动化大部分经济工作"这一定义的AGI很可能先于他定义的AGI实现。当前技术已经在原则上能够完全自动化任何拥有可验证奖励的领域（代码是第一个），而实现真正的人类级学习效率则需要完全不同的技术和思维方式。

LLM能否达到人类的样本效率？

关于LLM能否通过某种改造达到与人类相同的样本效率（Sample Efficiency），Chollet认为：在足够的计算量下，一切方法都会趋同——计算是伟大的均衡器。理论上可以在LLM之上构建看起来像AGI的系统，但这不会是LLM本身，而是在其上添加若干层的新架构。然而他同时认为这样做会是低效的，AI研究最终必须追求最优性（Optimality），因此未来几十年的AI不会是在推理模型和基础模型之上叠加的框架，而是会在更低、更高效的层次上实现。

Keras与ARC-AGI的诞生

Chollet回顾了自己的研究历程：2014年他训练和部署了首个用于自然语言处理的深度学习模型，2015年3月发布了Keras开源库——恰好距今11年。Keras获得了极大的产品市场契合度，使他一度从研究转向框架维护工作。2016-2017年，在发现深度学习的根本局限后，他开始构思一个"推理领域的ImageNet"——即程序合成基准测试（Program Synthesis Benchmark）。他尝试了元胞自动机等多种方案，最终在2018年初确定了ARC-AGI格式。2018年夏天他编写了ARC任务编辑器，手工制作了约1万个任务，2019年发表了论文，阐述"智能即技能获取效率"的核心思想。当GPT-3在2020年出现、ChatGPT在2022年底引发行业爆发时，ARC-AGI是LLM表现极差的基准之一，但在程序合成（Program Synthesis）社区内广为人知。基准要引起广泛关注需要模型开始"稍微能做"——太难了人们就会直接忽视它。

ARC-AGI作为行业晴雨表

ARC-AGI一直是行业重大变革的晴雨表。V1长期无人能解，直到2025年推理模型（Reasoning Model）出现才取得突破。V2正在接近饱和，V3已经发布。基础模型在V1上的得分极低（低于10%），而推理模型的引入带来了根本性改变——这正是Chollet一直期待的转折点。