Demis Hassabis：智能体、AGI 与下一个重大科学突破

cover

摘要

DeepMind联合创始人、诺贝尔化学奖得主Demis Hassabis在Y Combinator的深度对话中，系统阐述了他对AGI路线图、智能体发展、科学发现与创业方向的思考。他认为当前大语言模型的核心组件（大规模预训练、RLHF、思维链）将成为AGI最终架构的一部分，但持续学习（Continual Learning）、长期推理和记忆机制仍是关键缺失。他回顾了从AlphaGo到AlphaFold的技术脉络，指出强化学习与搜索（如蒙特卡洛树搜索）的思想正在当代基础模型中复兴。在模型效率方面，DeepMind凭借蒸馏技术将前沿能力迅速压缩至Flash和Gemma等小模型，服务数十亿用户。关于智能体，他认为目前仍处于实验阶段，尚未看到"杀手级"成果，但6到12个月内将会出现。在科学领域，他描绘了从虚拟细胞到材料科学的愿景，并总结了"AlphaFold式突破"的模式：巨大组合搜索空间、清晰的目标函数、充足的数据或模拟器。他提出了著名的"爱因斯坦测试"——用1901年的知识截断训练系统，看它能否独立得出1905年的狭义相对论。对于创业者，他建议深耕深科技（Deep Tech）与跨学科交叉领域，并认真考虑AGI在2030年前后出现对长期项目的影响。

正文

Demis Hassabis的非凡履历

Demis Hassabis拥有科技界最不寻常的职业轨迹之一。少年时期他是国际象棋神童，17岁时设计了他的第一款畅销电子游戏《主题公园》（Theme Park）。随后他重返校园，获得认知神经科学博士学位，发表了关于大脑中记忆与想象力如何运作的基础性研究。2010年，他联合创办了DeepMind，使命只有一个：解决智能（Solve Intelligence）。此后，他的实验室完成了一系列大多数人认为数十年后才可能实现的突破：AlphaGo击败围棋世界冠军；AlphaFold破解了蛋白质结构预测这一生物学50年大挑战，并将成果免费开放给全球科学家。这项工作为他赢得了去年的诺贝尔化学奖。如今，Demis领导Google DeepMind，正在构建Gemini并朝着他少年时代就设定的目标推进——通用人工智能（Artificial General Intelligence, AGI）。

AGI架构：我们已有什么，还缺什么

当被问及当前范式（大规模预训练、RLHF、思维链）在AGI最终架构中占多大比重时，Hassabis表示，他确信这些组件将是AGI最终架构的一部分——它们已经走得足够远，证明了自身的能力，不可能在几年后被认为是死胡同。但仍然可能缺少一两样东西：

持续学习（Continual Learning）：当前模型是无状态的，无法在学习新知识的同时优雅地整合到已有知识库中
长期推理（Long-Term Reasoning）：模型在跨越长时间跨度的推理任务上仍然薄弱
记忆机制的某些方面：虽然上下文窗口已达百万token级别，但将所有信息暴力塞入上下文窗口并不优雅
一致性：系统在不同任务上的表现参差不齐

他估计可能还需要一到两个重大突破，概率大约五五开。当然，也有可能现有技术只需增量创新就能扩展到AGI水平。

持续学习与记忆：从海马体到DQN

Hassabis的博士研究正是关于海马体（Hippocampus）如何将新知识优雅地整合到已有知识库中。大脑通过睡眠——尤其是REM睡眠——重播重要经历来实现这一点。DeepMind最早的Atari程序DQN就借鉴了这一机制，通过经验回放（Experience Replay）来掌握Atari游戏，这是2013年的工作。

当前的做法则显得粗糙——将所有信息"用胶带粘起来"塞入上下文窗口。虽然上下文窗口已达到百万甚至千万token级别，远超人类的工作记忆（约7个信息单元），但问题在于：

当前做法过于暴力，将重要和不重要的信息统统存入
即使能存储，查找与当前决策相关的信息仍有非平凡成本
如果智能体需要处理实时视频流，百万token仅相当于约20分钟的数据，远不足以覆盖数月的生活经历

Hassabis认为，记忆领域仍有巨大的创新空间。百万token的上下文窗口对大多数用途来说已经够用，但不应试图在其中存储一切——需要更智能的检索和过滤机制。

强化学习与搜索的复兴

DeepMind历来深耕强化学习（Reinforcement Learning, RL）和搜索。从AlphaGo、AlphaZero到MuZero，这些都是智能体系统——能够自主完成目标、做出主动决策和规划的智能体。

早期DeepMind在游戏领域验证了这些理念：从Atari到AlphaGo，再到StarCraft的AlphaStar。核心问题是：能否将这些模型泛化为世界模型或语言模型，而不仅仅是游戏模型？过去几年正是回答这个问题的过程。

如今，所有领先模型的"思考模式"（Thinking Mode）和思维链推理（Chain of Thought Reasoning），本质上都是AlphaGo开创的思想在更一般化场景下的回归。DeepMind正在大规模重新审视那些旧想法，包括蒙特卡洛树搜索（Monte Carlo Tree Search）以及其他增强RL的方法。Hassabis认为，AlphaGo和AlphaZero的很多思想对当前基础模型的发展至关重要，未来几年的很多进展都将源于此。

模型蒸馏与效率

当被问及小模型能有多聪明时，Hassabis表示目前尚未触及信息密度的理论极限。DeepMind的核心优势之一就是蒸馏技术——将前沿能力迅速压缩到更小模型中。Jeff Dean和Oriol Vinyals等人在蒸馏工艺上是世界级专家。

DeepMind有巨大的动力做这件事，因为他们需要服务可能是最大的AI用户界面：搜索中的AI概览（AI Overviews）和AI模式、Gemini应用，以及Google地图、YouTube等十多个十亿用户产品。这些都需要极快、极高效、低延迟地运行，因此Flash模型和更小模型必须极其高效。

Hassabis的假设是：一年后发布的前沿模型（Pro/Mythic级别），半年到一年后其能力就会出现在极小的边缘模型中。Gemma 4系列就是这些蒸馏技术的体现，在同等规模上具有惊人的性能。他尚未看到任何理论极限的迹象。

速度、边缘计算与隐私

小模型的价值不仅在于成本，更在于速度带来的迭代加速。在编程等场景中，95%的前沿能力配合更快的迭代速度，往往比100%能力但速度慢更有价值。另一个重大方向是边缘计算（Edge Computing）：

隐私与安全：处理高度个人信息的设备需要在本地运行模型
机器人：家用机器人需要高效、强大的本地模型
分层架构：本地模型处理音视频流等隐私数据，仅在特定情况下委托给云端的前沿模型

Hassabis设想了一个理想的终态：所有音视频处理在本地完成并保持本地，仅在需要时调用云端大模型。

持续学习：智能体的关键缺失

Hassabis认为，缺乏持续学习是当前智能体无法完成完整任务的主要原因。目前的智能体对任务的部分环节有用，可以拼凑起来做一些很酷的事情，但它们无法很好地适应特定上下文。这是智能体实现"发射后不管"（Fire and Forget）的关键缺失——它们需要能够学习你所处的特定上下文。必须攻克这一问题才能实现真正的通用智能。

推理能力的现状与局限

尽管模型在思维链推理上表现出色，但仍会在聪明本科生不会犯错的地方出错。Hassabis认为思考范式仍有大量创新空间：

当前做法过于暴力：可以想象在思维链中途进行监控和干预
过度思考问题：模型有时会陷入推理循环——以与Gemini下棋为例，它可能考虑一步棋、意识到是败招，但找不到更好的选择，于是又回到那步败招
锯齿状智能（Jagged Intelligence）：一方面能解决国际数学奥林匹克（IMO）金牌级别的难题，另一方面却会在基本数学或推理错误上出错

Hassabis感觉，模型对自己思维过程的自省（Introspection）能力可能是缺失的关键环节。不过他估计，修复这些差距可能只需要一两个调整。

智能体：刚刚起步

Hassabis同意智能体被过度宣传的说法，但他认为我们确实只在起步阶段。要达到AGI，必须有一个能主动解决问题的活跃系统——智能体就是这条路径。

目前的状况是：

大家都在实验如何将AI融入工作流程，但直到最近几个月才开始找到真正有价值的场景
有人让数十个智能体运行40小时，但产出尚未证明投入的合理性
尚未出现"氛围编码"（Vibe Coding）产出的登顶App Store的3A级游戏
Hassabis自己用AI在半小时内做出了《主题公园》的原型——当年17岁时花了6个月

他预计，首先会看到这个房间里的人以1000倍效率工作，然后出现用AI工具构建的畅销应用，之后才会有更多自动化。真正产出杀手级成果可能还需要6到12个月。

创造力：从第37手到发明围棋

AlphaGo最著名的时刻是第二局的"第37手"（Move 37）——一步人类永远不会下的棋，却被证明是卓越的。Hassabis从首尔回来后第二天就启动了AlphaFold项目，至今已10年。

但Hassabis指出，仅想出第37手还不够——那很酷，但能否发明围棋？他想要的系统是：给定一个高层描述（"一种5分钟可学会规则、需终生精通、美学上优美、一个下午可下完的游戏"），能返回围棋本身。当前系统还做不到这一点。

不过Hassabis也承认，也许答案不是系统缺少什么，而是我们使用系统的方式不对——也许今天的系统在一个足够有创造力的天才手中，配合对工具的深度掌握，就能实现这一点。

开源与开放权重

DeepMind是开源和开放科学的坚定支持者。AlphaFold的成果全部免费开放，所有科学工作至今仍在顶级期刊发表。Gemma系列的目标是在同等规模上打造世界领先的模型——上线仅两周半就有4000万次下载。

Hassabis强调了几个关键点：

西方开源生态的需要：中国模型目前在开源领域领先，Gemma在其规模上非常有竞争力
边缘模型的开放策略：用于Android、眼镜、机器人的边缘模型一旦部署到设备上就容易被提取，不如直接完全开放——将Nano级别统一为开放模型
资源约束：没有人有足够的算力同时训练两个最大规模的前沿模型，因此策略性地选择开放边缘模型是合理的

多模态：Gemini的先天优势

Gemini从第一天起就是多模态（Multimodal）架构，虽然这让早期开发更困难，但Hassabis认为长期将从中受益：

世界模型构建：如Genie等项目在Gemini之上构建
机器人：Gemini Robotics基于多模态基础模型，理解物理世界和直觉物理（Intuitive Physics）
自动驾驶：Waymo正在越来越多地使用Gemini
数字助手：手机、眼镜等设备上的助手需要理解你周围的物理世界和上下文

Hassabis表示，在多模态问题上，Gemini远远领先于其他模型。

推理成本：杰文斯悖论

当被问及推理成本趋近于零时会怎样时，Hassabis引用了杰文斯悖论（Jevons' Paradox）——效率提高反而导致使用量增加。他认为推理永远不会"本质上免费"，因为：

我们会用掉所有可用的推理算力——百万级智能体蜂群协作，或多方向思考后集成
即使解决了核聚变（Fusion）、超导体或最优电池等材料科学问题使能源成本趋近于零，芯片的物理制造仍是瓶颈
至少在未来几十年内，推理资源仍需配给，必须高效使用

生物学：从AlphaFold到虚拟细胞

AlphaFold 3已将能力从蛋白质扩展到广泛的生物分子。Isomorphic Labs——从DeepMind拆分出的公司——正在构建AlphaFold之外的药物发现全流程，包括设计具有正确性质的化合物。Hassabis预告很快将有重大发布。

最终目标是构建完整的虚拟细胞（Virtual Cell）：一个可扰动的工作细胞模拟，其输出足够接近实验结果，可以跳过大量搜索步骤并生成大量合成数据。Hassabis估计这大约还需要10年。当前DeepMind正在从虚拟细胞核（Virtual Nucleus）开始——因为细胞核相对自包含。

关键挑战在于：

选取复杂度的正确切片：最终要模拟人体，但需要找到足够自包含的子系统，可以近似其输入输出
数据不足：如果能对活细胞进行纳米级分辨率的非破坏性成像，就可以将其转化为视觉问题——但目前没有这种技术。静态高分辨率成像已经可以实现，但不足以将其转化为复杂的视觉问题

解决路径有两条：硬件驱动的数据方案，或构建更好的可学习模拟器（Learnable Simulator）。

AI作为科学的终极工具

Hassabis30多年从事AI的终极动力就是将AI作为科学发现的终极工具。DeepMind最初的使命表述分为两步：第一步是解决智能（即构建AGI），第二步是用它解决其他一切。当时很多人质疑"解决一切"是否当真，Hassabis说他确实是认真的——他指的是解决科学中的"根节点问题"（Root Node Problems），即那些能解锁全新发现分支的领域。

AlphaFold就是这一理念的典型例证：全球超过300万研究人员、几乎所有生物学研究者都在使用AlphaFold。Hassabis被告知，从现在起几乎所有药物在发现过程中都会在某个环节使用AlphaFold。

他认为AI将能帮助所有科学和工程领域，材料科学、数学等领域正在接近"AlphaFold时刻"——已有很有希望的结果，但尚未完全攻克大挑战。未来两年将有很多重要发布。

AlphaFold式突破的模式

Hassabis总结了"Alpha项目"（AlphaGo和AlphaFold）成功的关键条件：

巨大的组合搜索空间（Massive Combinatorial Search Space）：越大越好，暴力搜索或特例算法无法解决——围棋的可能走法和蛋白质的可能构型都远超宇宙中的原子数
清晰的目标函数（Clear Objective Function）：可以明确指定并据此爬山优化——如蛋白质的自由能最小化或围棋的胜利
充足的数据或模拟器：能生成大量分布内的合成数据

当这些条件满足时，当前方法可以走得很远，在干草堆中找到那根针。药物发现也是如此——存在一种化合物能治愈某种疾病且无副作用，只要物理定律允许，问题只是如何高效找到它。AlphaGo首次证明了这些系统能找到干草堆中的针。

AI的科学推理能力

DeepMind有一个名为"共同科学家"（Co-Scientist）的系统，以及AlphaFold等能超越基础Gemini能力的专业算法。但Hassabis表示，他尚未看到任何真正的、大规模的原创发现。各个前沿实验室都在实验更难的数学问题等，但还没达到那个突破点。

他认为这与创造力问题相关——真正的科学发现不只是模式匹配（因为不存在可匹配的模式），也不只是外推，而是某种类比推理（Analogical Reasoning），当前系统还不具备这种能力。

Hassabis提出了一个关键区分：不仅能解决黎曼假设或千禧年难题（Millennium Prize Problems），更要能提出一组被顶尖数学家认为同样深刻、同样值得终生研究的全新千禧年难题。后者要难得多。

爱因斯坦测试

Hassabis提出了检验AI科学创造力的终极标准——"爱因斯坦测试"（Einstein Test）：

用知识截止日期为1901年的数据训练系统，看它能否独立得出爱因斯坦1905年"奇迹年"（Annus Mirabilis）的成果——包括狭义相对论。

一旦系统能通过这个测试，就意味着它们具备了真正发明全新事物的能力。他建议实际运行这个测试并持续检验。

给创业者的建议

当被问及现在25岁的自己应该知道什么时，Hassabis给出了三点核心建议：

攻克难题：攻克难题并不比攻克简单问题更难——只是难的方向不同。人生短暂，应该将生命力投入到真正能产生差异的事情上
跨学科交叉：他热爱跨学科工作，AI将使不同领域的交叉变得更加容易。将AI与材料科学、医学等深度技术领域结合的"甜点区"特别有价值——这些领域涉及"原子世界"，不会因为基础模型的下一次更新而被淹没
考虑AGI时间线：如果AGI在2030年前后出现，而你今天启动的深科技项目需要10年，那么AGI将在项目中期出现。这不一定是坏事，但必须认真考虑：AGI将如何利用你的成果？你的专业工具（如AlphaFold）会被通用系统调用吗？

Hassabis不认为未来会是一个"超级大脑"解决一切。将所有蛋白质折叠知识塞进Gemini没有意义——那会以信息效率为代价损害其语言能力。更好的架构是：优秀通用模型通过工具使用调用专门系统，甚至由通用模型训练这些专门工具，但它们运行在独立系统中。物理世界的工厂、金融系统等也需要在这种框架下重新思考。

未来已来，只是尚未均匀分布。