AI 到底有多聪明?——ARC Prize 基金会主席 Greg Kamradt 谈智能的定义与测量

封面

摘要

本文整理自 YC Europe 2025 大会上 Diana 与 ARC Prize 基金会主席 Greg Kamradt 的深度对话。对话围绕"智能究竟如何定义与衡量"这一核心命题展开。François Chollet(François Chollet)在 2019 年的论文《On the Measure of Intelligence》中提出了一个颠覆性观点:智能不是你在考试中能拿多少分,而是你学习新事物的效率——这正是 ARC Prize 基金会的理论基础与使命出发点。由此诞生的 ARC AGI 基准测试(ARC AGI Benchmark)与传统的 MMLU(Massive Multitask Language Understanding)等"博士++"难度测试截然不同:它只出普通人都能完成的任务,但要求系统具备从少量样本中学习新规则的能力。从 GPT-4 基座模型仅获 4% 的惨淡成绩,到 o1 推理范式带来 21% 的飞跃,再到如今 OpenAI、xAI、Google DeepMind、Anthropic 等前沿实验室纷纷将 ARC AGI 纳入模型发布标准,推理范式(Reasoning Paradigm)的变革已被验证为突破性进展。对话还深入探讨了 RL(Reinforcement Learning)环境的局限性——如同打地鼠般逐个攻克并非真正的泛化——以及即将推出的 ARC AGI 3:一个包含约 150 个交互式视频游戏环境的全新基准,不给任何文字说明,要求测试者自行探索规则、识别目标,并在效率维度(训练数据量、能耗、动作次数)上与人类表现对齐。Kamradt 明确指出:攻克 ARC AGI 是实现 AGI(Artificial General Intelligence)的必要条件,但绝非充分条件。

智能的另类定义:不是考多少分,而是学多快

Greg Kamradt 开场介绍了 ARC Prize 基金会的定位:它是一家非常"技术驱动"的非营利组织,使命是推动开放研究,加速实现能够像人类一样泛化(Generalize)的智能系统。这一使命的理论根基来自 François Chollet 2019 年发表的论文《On the Measure of Intelligence》。Chollet 在文中提出了一个与传统认知截然不同的智能定义:人们通常认为智能就是你能在 SAT 考试中拿多少分,或者能解多难的数学题;但 Chollet 认为,智能的本质是你学习新事物的能力。

Kamradt 用具体例子阐释了这一点:我们已经知道 AI 在国际象棋上是超人的,在围棋上是超人的,在自动驾驶上也是超人的——但让同样的系统去学习一项全新的、不同的技能,这才是真正的难点。Chollet 不仅提出了智能的定义,还配套设计了一个测试——ARC AGI 基准(最初就叫 ARC Benchmark),专门测试系统学习新事物的能力。

ARC AGI 与传统基准的根本区别

Kamradt 指出,ARC 基准的独特之处在于:不仅人类可以参加这个测试,机器也可以。而传统的基准测试往往追求"博士++"级别的难题——从 MMLU 到 MMLU+,再到 Humanity's Last Exam,这些基准正在走向超人水平。相比之下,ARC 基准的任务普通人就能完成,而且基金会会对每个任务进行人类测试,确保普通人确实能够解答。

这种设计哲学的核心是:如果普通人能做、但 AI 做不了,那说明 AI 在某种根本性的能力上仍然缺失——而那个缺失的能力,正是"高效学习新事物"的泛化能力。

从 4% 到 21%:推理范式的突破性验证

回顾 ARC AGI 的成绩演变,Kamradt 提供了一组关键数据:2019 年 Chollet 发布基准后,一直到 2024 年,GPT-4 基座模型(无推理能力)在 ARC 上仅获得约 4%—5% 的成绩。五年间几乎没有进展。然而,当 OpenAI 发布 o1 推理模型后,成绩一跃跳升至 21%。从 4% 到 21% 的飞跃清晰地表明:推理范式(Reasoning Paradigm)是变革性的。

这一发现影响深远。如今,所有主要前沿实验室——xAI 的 Grok 4、Google 的 Gemini 3 Pro 与 Deepthink、Anthropic 的 Opus 4.5——都在模型发布时将 ARC AGI 作为核心衡量标准。Kamradt 对此表示欣慰,但他同时强调警惕"虚荣指标"(Vanity Metrics):大型实验室采用 ARC AGI 虽然是对基金会使命的认可,但 ARC Prize 的核心目标始终是激励小型研究团队和个人研究者推动开放 AGI 进展,而非仅仅为大实验室背书。

虚假进步的信号:RL 环境的"打地鼠"困局

当被问及最常见到的"假阳性进步"时,Kamradt 戴上了研究者的帽子,指出了一个核心问题:当前 AI 领域存在两种截然不同的取向——一种是"经济价值"取向(如何将 AI 商业化变现),另一种是"追求通用智能"的浪漫取向。他站在后者一边。

他特别批评了对强化学习(Reinforcement Learning, RL)环境的过度依赖。许多知名 AI 研究者声称"只要能构建 RL 环境,就能在任何基准或领域上取得好成绩"。Kamradt 将这种做法比作打地鼠(Whack-a-Mole):你不可能为未来可能遇到的每一个新问题都预先构建一个 RL 环境。ARC AGI 的核心在于新颖性(Novelty)和面对前所未见的问题的能力——这正是基金会设置隐藏测试集(Hidden Test Set)的原因。他更希望看到对真正泛化系统的投入,因为人类学习新技能时并不需要一个专门定制的训练环境。

ARC AGI 的版本演进:从静态到交互

Kamradt 详细梳理了 ARC AGI 的版本演进史:

V3 将包含约 150 个视频游戏环境。之所以用"视频游戏"来描述,是因为这是最直观的沟通方式——本质上是"你给出一个动作,环境返回一个响应"。V3 最令人兴奋的设计在于:不提供任何文字说明。没有英文、没有文字、没有符号——测试者必须进入环境,执行几个动作,观察环境的反馈,然后自行推断出终极目标是什么。

人类验证与可解性门槛

与 ARC 1 和 ARC 2 一样,V3 的每一个游戏都会经过人类测试。基金会将招募普通公众——会计师、Uber 司机等——让 10 个人试玩每个游戏。如果某个游戏无法通过最低可解性门槛(Minimum Solvability Threshold),就会被排除。这一设计与那些追求越来越难的基准形成鲜明对比:ARC 3 的理念是"普通人能做到,但 AI 做不到"——这恰恰说明还有某些根本性的东西缺失,需要新的研究思路。

超越准确率:效率维度的引入

对话深入到智能衡量中"准确率并非唯一指标"的主题。Kamradt 指出,时间(Wall Clock Time)本身是一个相对随意的维度——投入更多算力就能缩短时间,所以墙上时钟时间并非衡量智能的关键。真正关键的两个效率维度是:

  1. 训练数据量:完成一项任务需要多少数据点——人类只需极少样本就能学会新技能。
  2. 能量消耗:执行智能任务需要消耗多少能量——人类大脑的能耗约 20 瓦,而当前 AI 系统的能耗高出数个数量级。

这两个维度之所以意义重大,是因为我们拥有人类在这两方面的大量基准数据,可以直接对比。

在 ARC AGI 3 中,效率的具体衡量方式是:由于游戏是回合制的(点击上、下、左、右等),基金会将计算人类通关所需的平均动作次数,然后将 AI 的动作次数与之对比。回顾 2016 年 Atari 游戏时代的做法,AI 使用暴力搜索(Brute Force),需要数百万甚至数十亿帧和数百万次动作来穷举解空间。ARC AGI 3 将不允许这种做法,而是将 AI 的表现标准化到人类的平均水平。

攻克 ARC AGI 意味着什么?必要而非充分

在最后一个问题上,Kamradt 给出了清晰而审慎的回答:如果某个团队明天就在 ARC AGI 基准上获得 100%,世界应该怎样更新对 AGI 的认知?

他引用了 Chollet 始终坚持的观点:攻克 ARC AGI 是实现 AGI 的必要条件(Necessary),但不是充分条件(Sufficient)。这意味着,能解决 ARC AGI 1 和 2 的系统不会是 AGI,但它将是一个权威的泛化能力证明。对于 V3,基金会的立场是:击败它的系统也不会是 AGI,但它将是迄今为止关于系统泛化能力的最权威证据。

如果真的有团队明天就做到了,基金会当然希望深入分析那个系统,找出它仍然存在的失败点。作为基准的创建者,他们希望继续引导世界朝着正确的 AGI 方向前进。最终,ARC Prize 希望将自己置于一个能够充分理解并准备好宣布真正 AGI 到来的位置。如果那个团队明天就出现了——基金会希望能与他们进行深入对话。