François Chollet：我们如何抵达 AGI

cover

摘要

François Chollet 是 ARC 基准的创造者、Keras 框架的作者，也是新研究实验室 Ndea 的联合创始人。本次演讲系统阐述了他对智能本质、当前 AI 局限性以及通往 AGI 路径的深刻思考。他指出，计算成本自 1940 年以来每十年下降两个数量级，深度学习在 2010 年代借助 GPU 和大数据开始奏效，但预训练扩展（Pre-Training Scaling）范式并未如许多人预期的那样通向 AGI——ARC 基准显示，即使模型规模扩大 5 万倍，流体智能（Fluid Intelligence）的得分仍接近零。2024 年，测试时适应（Test-Time Adaptation, TTA）的出现带来了转机，但当前系统仍远未达到人类水平。Chollet 提出了智能的正式定义——将过去信息运用于面对未来新情境的效率比，区分了两类抽象（Type 1 价值中心抽象与 Type 2 程序中心抽象），论证了 Transformer 仅擅长 Type 1 而缺乏 Type 2 的组合泛化（Compositional Generalization）能力。他提出的解决方案是深度学习引导的离散程序搜索（Deep Learning-Guided Discrete Program Search）——用 Type 1 的直觉对抗组合爆炸，使 Type 2 的搜索变得可行。Ndea 实验室正在构建这种"类程序员的元学习器"，首个里程碑是从零开始解决 ARC。

正文

预训练扩展范式的兴衰

Chollet 开篇指出，自 1940 年以来，计算成本每十年稳定下降两个数量级，且毫无停滞迹象。在 AI 领域，计算与数据长期是能力瓶颈。2010 年代，随着基于 GPU 的计算和大型数据集的充足供应，深度学习（Deep Learning）开始真正奏效，在计算机视觉和自然语言处理等长期看似不可解的问题上取得了快速进展。

特别是自监督文本建模（Self-Supervised Text Modeling）开始发挥作用后，AI 的主流范式变成了扩展大语言模型训练（Scaling Up LLM Training）。这一方法碾压了几乎所有基准测试，且随着模型规模和训练数据规模的扩大，在完全相同的架构和训练流程下，基准成绩可预测地提升——这就是缩放定律（Scaling Laws）。许多人因此推论：更多规模就是通向 AGI 所需的一切。整个领域沉迷于一种信念：通过将越来越多的数据塞入越来越大的模型，通用智能会自发涌现。

基准测试的陷阱：记忆技能 ≠ 流体智能

然而，人们对基准测试的含义产生了根本性的混淆。记忆技能（Memorized Skills）与流体智能（Fluid Intelligence）之间存在巨大差异——前者是静态的、特定于任务的，后者是面对前所未见的问题时即时理解的能力。

2019 年，在大语言模型兴起之前，Chollet 发布了一个旨在凸显这种差异的 AI 基准——抽象与推理语料库（Abstraction and Reasoning Corpus, ARC-1）。从当时到现在，以 GPT-4.5 为代表的基础模型规模扩大了约 5 万倍，但 ARC 上的准确率仅从 0% 上升到约 10%——而任何普通人都能轻松达到 95% 以上。

这表明，要突破流体智能，仅靠扩展预训练和静态推理远远不够。ARC 不是关于复述记忆技能，而是关于即时理解从未见过的新问题。

测试时适应：2024 年的范式转换

2024 年，一切发生了变化。AI 研究社区开始转向一种全新的模式——测试时适应（Test-Time Adaptation, TTA），创造能在测试时改变自身状态以适应新事物的模型。这不再是查询预加载的知识，而是真正在推理时学习和适应的能力。

突然之间，ARC 上出现了显著进展。特别是 2024 年 12 月，OpenAI 预览了其 O3 模型——经过 ARC 专门微调的版本首次在该基准上达到了人类水平。2025 年的今天，AI 已从预训练扩展范式全面进入测试时适应时代。

TTA 涵盖的技术包括：测试时训练（Test-Time Training）、程序合成（Program Synthesis）、思维链合成（Train of Thought Synthesis）——模型尝试为当前任务重新编程自身。目前，每一个在 ARC 上表现良好的 AI 方法都使用了这些技术之一。

智能的本质定义

要回答"为何预训练扩展未能通向 AGI"以及"测试时适应是否能通向 AGI"这些问题，必须回到更根本的问题：什么是智能？

Chollet 梳理了两种定义智能的传统。一种是明斯基式观点（Minsky View）——AI 是制造能完成通常由人类完成的任务的机器，这呼应了当前主流企业将 AGI 定义为能完成 80% 经济上有价值任务的模型。另一种是麦卡锡式观点（McCarthy View）——AI 是让机器处理它们未被准备好的问题，面对全新事物。

Chollet 倾向于后者。他认为智能是一个过程，技能是该过程的输出——技能本身不是智能，在任何数量的任务上展示技能也不等于展示智能。这如同公路网络（Road Network）与公路建设公司（Road Building Company）的区别：前者让你在预定义的 A 和 B 之间通行，后者则能在需求演变时即时连接新的端点。将智能归因于固化的技能程序是一个范畴错误（Category Error）——混淆了过程与其输出。

形式化地说，Chollet 将智能定义为：将你拥有的信息（主要是过去经验，也包括开发者赋予的先验）转化为在面对高新颖性和不确定性的未来情境时的运作面积（Operational Area）的转化效率比。智能是将过去信息运用于面对未来的效率。

为什么考试式基准无法衡量智能

上述定义解释了为何考试式基准（Exam-Like Benchmarks）不适合衡量 AI 的智能水平。人类考试设计用于衡量特定任务的技能与知识，而非智能——它们基于对人类合理的假设（例如考生未曾预先阅读并记忆所有考题和答案），但这些假设对机器不成立。

要严格定义和衡量智能，需要关注三个核心概念：

静态技能与流体智能的区分——拥有解决已知问题的静态程序集合 vs. 即时合成全新程序应对前所未见的问题。两者之间是连续谱，而非二值对立。
运作面积（Operational Area）——对于给定技能，仅在接近过往经验的情境下有效 vs. 在极广范围内对任何情境都有效。例如学会开车后应能在任何城市驾驶，而非仅限于特定地理围栏区域。
信息效率（Information Efficiency）——获取某技能需要多少信息、数据和实践。更高的信息效率意味着更高的智能。

这些定义之所以关键，是因为工程师只能构建他们能衡量的东西。定义和衡量智能的方式反映了我们对认知问题的理解，划定了提问的范围，决定了获得的答案——它是驱动我们朝目标前进的反馈信号。

捷径法则：击中目标却错失要点

工程中常见的"捷径法则"（Shortcut Rule）表明：当你聚焦于单一成功指标时，你可能达成目标，却以牺牲该指标未捕捉的一切为代价。Netflix 大奖赛（Netflix Prize）的获胜系统极精确但过于复杂，从未被实际使用；AI 国际象棋的目标本应是理解人类智能，但深蓝（Deep Blue）击败卡斯帕罗夫后，我们关于智能什么也没学到——击中目标，错失要点。

数十年间 AI 追逐特定任务的技能，因为那就是我们对智能的定义。但这种定义只能通向自动化——正是我们今天拥有的系统。而我们真正想要的是能自主发明（Autonomous Invention）的 AI——不只是自动化已知任务，而是能解决人类最困难的挑战、加速科学进步。这才是 AGI 应有的含义。

ARC-1：指向正确方向的箭头

Chollet 的首次尝试是 2019 年发布的 ARC-1 基准——一个面向机器和人类的"IQ 测试"。ARC-1 包含 1000 个独特任务，每个任务都是唯一的，无法通过死记硬背应付，必须运用通用智能即时求解。所有 ARC 任务仅基于核心知识先验（Core Knowledge Priors）构建——如物体性（Objectness）、基础物理（Elementary Physics）、基本几何（Basic Geometry）、拓扑（Topology）、计数（Counting）等任何四岁儿童已掌握的概念。这使得 ARC 对人类相当容易，但对 AI 极具挑战性。

ARC 的目的并非判定系统是否已达 AGI，而是将研究社区的注意力引向通往 AGI 路上最重要的未解瓶颈。ARC 不是终点，而是指向正确方向的箭头。

ARC-1 完全抵抗了预训练扩展范式：即使基础模型规模扩大 5 万倍，ARC 上的表现仍接近零。因此可以确凿地得出结论：流体智能不会从预训练扩展中涌现。测试时适应是展示真正流体智能的必要条件。

ARC-2：更精细的衡量工具

ARC-1 是流体智能的最小复现——它本质上只提供两种模式：要么没有流体智能（得分接近零，如基础模型），要么有非零流体智能（得分立即很高，如 OpenAI O3）。ARC-1 在远低于人类流体智能的水平就饱和了，因此需要更灵敏的工具——ARC-2。

ARC-2 于 2025 年 3 月发布。如果说 ARC-1 挑战的是深度学习范式（大参数曲线用于静态推理），那么 ARC-2 挑战的是推理系统与测试时适应范式。它更注重探测组合泛化（Compositional Generalization），任务对人类仍然可行，但更为精巧，无法被暴力破解。在 ARC-1 中，许多任务一眼就能看出答案；在 ARC-2 中，所有任务都需要一定程度的审慎思考，但对普通人仍然完全可行——团队在圣地亚哥测试了 400 人，包括优步司机、大学生、失业者，所有任务都至少被两人解决。十名普通人通过多数投票即可在 ARC-2 上达到 100%。

AI 的表现则截然不同：基础模型（GPT-4.5、Llama 4）得分为 0%；静态推理系统（单次思维链）约 1-2%；使用测试时训练的系统虽然明显优于零，但仍远低于人类水平。这说明 O3 等系统尚未达到人类水平。只要仍然容易构造出任何人类都能做但 AI 无论投入多少算力都无法解决的任务，我们就尚未拥有 AGI。

ARC-3：评估能动性与效率

ARC-3 正在开发中，计划于 2026 年初发布（2025 年 7 月将推出开发者预览版）。ARC-3 是一次重大突破——脱离了 ARC-1 和 ARC-2 的输入输出对格式，评估的是能动性（Agency）：探索能力、交互式学习能力、设定目标与自主达成目标的能力。AI 被投入一个全新环境——不知道控制方式、不知道目标、不知道游戏机制，必须从零开始弄清一切。每个游戏完全独特，仅基于核心知识先验构建。

效率（Efficiency）是 ARC-3 设计的核心——模型不仅被评判能否解决任务，还被评判解决效率如何。严格的行动次数限制被设定，目标是与人类行动效率相当。

万花筒假说：智能的底层逻辑

Chollet 提出了"万花筒假说"（Kaleidoscope Hypothesis）：我们所经历的世界似乎呈现无穷的新颖性与复杂性，但描述它所需的独特意义原子（Atoms of Meaning）数量其实极少，周围一切都是这些原子的重组。智能就是从经验中挖掘可在不同情境和任务间复用的意义原子——识别不变量（Invariance）、结构（Structure）、重复性原理——这些构建块就是抽象（Abstractions）。

面对新情境时，智能会即时从抽象集合中选取并重组，生成适应当前情境的全新模型。因此，实现智能有两个关键部分：

抽象获取（Abstraction Acquisition）——从过往经验或数据流中高效提取可复用抽象。
即时重组（On-the-Fly Recombination）——高效选取并重组构建块，生成适应当前情境的模型。

效率至关重要：智能不仅取决于能否做到某事，更取决于多高效地获取抽象和多高效地重组它们——这既是数据效率（Data Efficiency），也是计算效率（Compute Efficiency）。需要数十万小时才能习得简单技能，或需要枚举棋盘上每一步才能找到最佳走法，都不是高智能的表现。

为何扩展未能通向 AGI：缺失的两个要素

这解释了为何单纯扩大模型规模和训练数据未能自动通向 AGI——缺少了两样东西：

第一，模型缺乏即时重组能力。训练时它们学到了许多有用抽象，但测试时完全静态——只能获取和应用预录模板。测试时适应正在解决这一问题，为 AI 添加了重组能力，这是通向 AGI 的巨大进步。

第二，模型仍然极度低效。梯度下降（Gradient Descent）需要海量数据才能提炼简单抽象——比人类所需多三到四个数量级。即使是最先进的测试时适应技术，仍需数千美元算力才能在 ARC-1 上达到人类水平，且无法扩展到 ARC-2。根本原因是深度学习模型缺乏组合泛化能力——这正是 ARC-2 试图衡量的。

两类抽象：Type 1 与 Type 2

Chollet 区分了两类抽象，它们互为镜像，都通过比较事物、消除不相关细节、保留共性来形成：

Type 1（价值中心抽象，Value-Centric Abstraction）：通过连续距离函数比较事物，是感知（Perception）、模式识别（Pattern Cognition）、直觉（Intuition）的基础，也是现代机器学习的核心。Transformer 在 Type 1 上极为出色。
Type 2（程序中心抽象，Program-Centric Abstraction）：通过比较离散程序（即图 Graph）寻找精确结构匹配（Exact Isomorphism, Subgraph Isomorphism），是人类推理（Reasoning）、规划（Planning）、严谨性的基础，也是软件工程师重构代码时所做的抽象。Transformer 在 Type 2 上表现不佳——甚至难以训练它们完成简单的排序或数字序列加法。

所有认知都源于这两种抽象形式的结合，可用左脑 vs. 右脑的隐喻来记忆：一半负责感知与直觉，另一半负责推理与严谨。

离散程序搜索：发明的引擎

深度学习不发明，但搜索可以。所有已知具有某种发明或创造力的 AI 系统——从 90 年代用巨型搜索设计新天线，到 AlphaGo 的第 37 手（Move 37），再到 DeepMind 的 AlphaEvolve——都依赖离散搜索（Discrete Search）。

离散程序搜索（Discrete Program Search）是在某种领域特定语言（DSL）的算子图空间中进行组合搜索。它与机器学习形成对偶：机器学习的模型是可微参数曲线，程序合成的模型是离散符号图；前者用梯度下降学习（计算高效但数据密集），后者用组合搜索学习（数据极高效——仅需两三个样本——但面临组合爆炸 Combinatorial Explosion）。

Type 1 与 Type 2 的融合

Chollet 强调，单独走 Type 1 或 Type 2 都走不远。人类智能的真正优势在于两者结合——用感知和直觉配合显式的逐步推理。

以下棋为例：Type 2 用于逐步展开潜在走法，但不可能对每一步都这样做——选择要分析哪些走法依靠的是 Type 1 的直觉（通过经验无意识提取的模式）。Type 1 的直觉使 Type 2 的计算变得可行。

融合方案的核心思想：用 Type 1 的快速近似判断来对抗组合爆炸，使 Type 2 的程序搜索变得可行。具体方法是将离散对象嵌入潜空间（Latent Space），用连续距离函数做出快速但近似的判断，如同绘制地铁线路图——将离散空间映射到可用距离函数快速判断邻近关系的嵌入空间中。

Ndea 实验室：构建类程序员的元学习器

Chollet 展示了其新研究实验室 Ndea 正在构建的系统全貌。AI 将走向更类似程序员（Programmer）的系统——面对新任务时，像程序员一样编写软件。类程序员的元学习器（Meta-Learner）会即时合成适应当前任务的程序或模型，其中融合深度学习子模块（处理 Type 1 子问题如感知）和算法模块（处理 Type 2 子问题）。这些模型由离散程序搜索系统组装，搜索过程由深度学习基于直觉引导程序空间的结构。

搜索并非从零开始，而是利用一个不断进化的全局抽象库（Global Library of Reusable Abstractions）。面对新问题时，系统搜索库中相关的构建块；在解决过程中合成的新构建块则上传回库——如同软件工程师将有用库发布到 GitHub。

最终目标是让 AI 面对全新情境时，利用丰富的抽象库快速组装可用模型——如同人类程序员利用现有工具和库快速创建软件解决新问题。这个 AI 还会持续自我改进：扩展抽象库、精炼对程序空间结构的直觉。

Ndea 的首个里程碑是从零开始解决 ARC——系统对 ARC 一无所知，凭借通用能力求解。最终目标是赋能科学研究人员，加速科学发现的进程。