AI 到底有多聪明？——ARC Prize 基金会主席 Greg Kamradt 谈智能的定义与测量

摘要

本文整理自 YC Europe 2025 大会上 Diana 与 ARC Prize 基金会主席 Greg Kamradt 的深度对话。对话围绕"智能究竟如何定义与衡量"这一核心命题展开。François Chollet（François Chollet）在 2019 年的论文《On the Measure of Intelligence》中提出了一个颠覆性观点：智能不是你在考试中能拿多少分，而是你学习新事物的效率——这正是 ARC Prize 基金会的理论基础与使命出发点。由此诞生的 ARC AGI 基准测试（ARC AGI Benchmark）与传统的 MMLU（Massive Multitask Language Understanding）等"博士++"难度测试截然不同：它只出普通人都能完成的任务，但要求系统具备从少量样本中学习新规则的能力。从 GPT-4 基座模型仅获 4% 的惨淡成绩，到 o1 推理范式带来 21% 的飞跃，再到如今 OpenAI、xAI、Google DeepMind、Anthropic 等前沿实验室纷纷将 ARC AGI 纳入模型发布标准，推理范式（Reasoning Paradigm）的变革已被验证为突破性进展。对话还深入探讨了 RL（Reinforcement Learning）环境的局限性——如同打地鼠般逐个攻克并非真正的泛化——以及即将推出的 ARC AGI 3：一个包含约 150 个交互式视频游戏环境的全新基准，不给任何文字说明，要求测试者自行探索规则、识别目标，并在效率维度（训练数据量、能耗、动作次数）上与人类表现对齐。Kamradt 明确指出：攻克 ARC AGI 是实现 AGI（Artificial General Intelligence）的必要条件，但绝非充分条件。

智能的另类定义：不是考多少分，而是学多快

Greg Kamradt 开场介绍了 ARC Prize 基金会的定位：它是一家非常"技术驱动"的非营利组织，使命是推动开放研究，加速实现能够像人类一样泛化（Generalize）的智能系统。这一使命的理论根基来自 François Chollet 2019 年发表的论文《On the Measure of Intelligence》。Chollet 在文中提出了一个与传统认知截然不同的智能定义：人们通常认为智能就是你能在 SAT 考试中拿多少分，或者能解多难的数学题；但 Chollet 认为，智能的本质是你学习新事物的能力。

Kamradt 用具体例子阐释了这一点：我们已经知道 AI 在国际象棋上是超人的，在围棋上是超人的，在自动驾驶上也是超人的——但让同样的系统去学习一项全新的、不同的技能，这才是真正的难点。Chollet 不仅提出了智能的定义，还配套设计了一个测试——ARC AGI 基准（最初就叫 ARC Benchmark），专门测试系统学习新事物的能力。

ARC AGI 与传统基准的根本区别

Kamradt 指出，ARC 基准的独特之处在于：不仅人类可以参加这个测试，机器也可以。而传统的基准测试往往追求"博士++"级别的难题——从 MMLU 到 MMLU+，再到 Humanity's Last Exam，这些基准正在走向超人水平。相比之下，ARC 基准的任务普通人就能完成，而且基金会会对每个任务进行人类测试，确保普通人确实能够解答。

这种设计哲学的核心是：如果普通人能做、但 AI 做不了，那说明 AI 在某种根本性的能力上仍然缺失——而那个缺失的能力，正是"高效学习新事物"的泛化能力。

从 4% 到 21%：推理范式的突破性验证

回顾 ARC AGI 的成绩演变，Kamradt 提供了一组关键数据：2019 年 Chollet 发布基准后，一直到 2024 年，GPT-4 基座模型（无推理能力）在 ARC 上仅获得约 4%—5% 的成绩。五年间几乎没有进展。然而，当 OpenAI 发布 o1 推理模型后，成绩一跃跳升至 21%。从 4% 到 21% 的飞跃清晰地表明：推理范式（Reasoning Paradigm）是变革性的。

这一发现影响深远。如今，所有主要前沿实验室——xAI 的 Grok 4、Google 的 Gemini 3 Pro 与 Deepthink、Anthropic 的 Opus 4.5——都在模型发布时将 ARC AGI 作为核心衡量标准。Kamradt 对此表示欣慰，但他同时强调警惕"虚荣指标"（Vanity Metrics）：大型实验室采用 ARC AGI 虽然是对基金会使命的认可，但 ARC Prize 的核心目标始终是激励小型研究团队和个人研究者推动开放 AGI 进展，而非仅仅为大实验室背书。

虚假进步的信号：RL 环境的"打地鼠"困局

当被问及最常见到的"假阳性进步"时，Kamradt 戴上了研究者的帽子，指出了一个核心问题：当前 AI 领域存在两种截然不同的取向——一种是"经济价值"取向（如何将 AI 商业化变现），另一种是"追求通用智能"的浪漫取向。他站在后者一边。

他特别批评了对强化学习（Reinforcement Learning, RL）环境的过度依赖。许多知名 AI 研究者声称"只要能构建 RL 环境，就能在任何基准或领域上取得好成绩"。Kamradt 将这种做法比作打地鼠（Whack-a-Mole）：你不可能为未来可能遇到的每一个新问题都预先构建一个 RL 环境。ARC AGI 的核心在于新颖性（Novelty）和面对前所未见的问题的能力——这正是基金会设置隐藏测试集（Hidden Test Set）的原因。他更希望看到对真正泛化系统的投入，因为人类学习新技能时并不需要一个专门定制的训练环境。

ARC AGI 的版本演进：从静态到交互

Kamradt 详细梳理了 ARC AGI 的版本演进史：

ARC AGI 1（2019 年）：由 Chollet 个人提出，他亲手制作了全部 800 个任务，配套论文《On the Measure of Intelligence》一同发布。
ARC AGI 2（2025 年 3 月）：可视为第一版的深化升级版。两者均为静态基准（Static Benchmark），即测试者面对固定的输入输出样本进行推理。
ARC AGI 3（计划于 2026 年推出）：这是一个根本性的范式转变——从静态走向交互式（Interactive）。现实世界中，我们不断做出行动、获取反馈、与环境来回互动。Kamradt 认为，未来的 AGI 将通过交互式基准来宣告，因为那才是现实的真实运作方式。

V3 将包含约 150 个视频游戏环境。之所以用"视频游戏"来描述，是因为这是最直观的沟通方式——本质上是"你给出一个动作，环境返回一个响应"。V3 最令人兴奋的设计在于：不提供任何文字说明。没有英文、没有文字、没有符号——测试者必须进入环境，执行几个动作，观察环境的反馈，然后自行推断出终极目标是什么。

人类验证与可解性门槛

与 ARC 1 和 ARC 2 一样，V3 的每一个游戏都会经过人类测试。基金会将招募普通公众——会计师、Uber 司机等——让 10 个人试玩每个游戏。如果某个游戏无法通过最低可解性门槛（Minimum Solvability Threshold），就会被排除。这一设计与那些追求越来越难的基准形成鲜明对比：ARC 3 的理念是"普通人能做到，但 AI 做不到"——这恰恰说明还有某些根本性的东西缺失，需要新的研究思路。

超越准确率：效率维度的引入

对话深入到智能衡量中"准确率并非唯一指标"的主题。Kamradt 指出，时间（Wall Clock Time）本身是一个相对随意的维度——投入更多算力就能缩短时间，所以墙上时钟时间并非衡量智能的关键。真正关键的两个效率维度是：

训练数据量：完成一项任务需要多少数据点——人类只需极少样本就能学会新技能。
能量消耗：执行智能任务需要消耗多少能量——人类大脑的能耗约 20 瓦，而当前 AI 系统的能耗高出数个数量级。

这两个维度之所以意义重大，是因为我们拥有人类在这两方面的大量基准数据，可以直接对比。

在 ARC AGI 3 中，效率的具体衡量方式是：由于游戏是回合制的（点击上、下、左、右等），基金会将计算人类通关所需的平均动作次数，然后将 AI 的动作次数与之对比。回顾 2016 年 Atari 游戏时代的做法，AI 使用暴力搜索（Brute Force），需要数百万甚至数十亿帧和数百万次动作来穷举解空间。ARC AGI 3 将不允许这种做法，而是将 AI 的表现标准化到人类的平均水平。

攻克 ARC AGI 意味着什么？必要而非充分

在最后一个问题上，Kamradt 给出了清晰而审慎的回答：如果某个团队明天就在 ARC AGI 基准上获得 100%，世界应该怎样更新对 AGI 的认知？

他引用了 Chollet 始终坚持的观点：攻克 ARC AGI 是实现 AGI 的必要条件（Necessary），但不是充分条件（Sufficient）。这意味着，能解决 ARC AGI 1 和 2 的系统不会是 AGI，但它将是一个权威的泛化能力证明。对于 V3，基金会的立场是：击败它的系统也不会是 AGI，但它将是迄今为止关于系统泛化能力的最权威证据。

如果真的有团队明天就做到了，基金会当然希望深入分析那个系统，找出它仍然存在的失败点。作为基准的创建者，他们希望继续引导世界朝着正确的 AGI 方向前进。最终，ARC Prize 希望将自己置于一个能够充分理解并准备好宣布真正 AGI 到来的位置。如果那个团队明天就出现了——基金会希望能与他们进行深入对话。