Demis Hassabis:智能体、AGI 与下一个重大科学突破

cover

摘要

DeepMind联合创始人、诺贝尔化学奖得主Demis Hassabis在Y Combinator的深度对话中,系统阐述了他对AGI路线图、智能体发展、科学发现与创业方向的思考。他认为当前大语言模型的核心组件(大规模预训练、RLHF、思维链)将成为AGI最终架构的一部分,但持续学习(Continual Learning)、长期推理和记忆机制仍是关键缺失。他回顾了从AlphaGo到AlphaFold的技术脉络,指出强化学习与搜索(如蒙特卡洛树搜索)的思想正在当代基础模型中复兴。在模型效率方面,DeepMind凭借蒸馏技术将前沿能力迅速压缩至Flash和Gemma等小模型,服务数十亿用户。关于智能体,他认为目前仍处于实验阶段,尚未看到"杀手级"成果,但6到12个月内将会出现。在科学领域,他描绘了从虚拟细胞到材料科学的愿景,并总结了"AlphaFold式突破"的模式:巨大组合搜索空间、清晰的目标函数、充足的数据或模拟器。他提出了著名的"爱因斯坦测试"——用1901年的知识截断训练系统,看它能否独立得出1905年的狭义相对论。对于创业者,他建议深耕深科技(Deep Tech)与跨学科交叉领域,并认真考虑AGI在2030年前后出现对长期项目的影响。

正文

Demis Hassabis的非凡履历

Demis Hassabis拥有科技界最不寻常的职业轨迹之一。少年时期他是国际象棋神童,17岁时设计了他的第一款畅销电子游戏《主题公园》(Theme Park)。随后他重返校园,获得认知神经科学博士学位,发表了关于大脑中记忆与想象力如何运作的基础性研究。2010年,他联合创办了DeepMind,使命只有一个:解决智能(Solve Intelligence)。此后,他的实验室完成了一系列大多数人认为数十年后才可能实现的突破:AlphaGo击败围棋世界冠军;AlphaFold破解了蛋白质结构预测这一生物学50年大挑战,并将成果免费开放给全球科学家。这项工作为他赢得了去年的诺贝尔化学奖。如今,Demis领导Google DeepMind,正在构建Gemini并朝着他少年时代就设定的目标推进——通用人工智能(Artificial General Intelligence, AGI)。

AGI架构:我们已有什么,还缺什么

当被问及当前范式(大规模预训练、RLHF、思维链)在AGI最终架构中占多大比重时,Hassabis表示,他确信这些组件将是AGI最终架构的一部分——它们已经走得足够远,证明了自身的能力,不可能在几年后被认为是死胡同。但仍然可能缺少一两样东西:

他估计可能还需要一到两个重大突破,概率大约五五开。当然,也有可能现有技术只需增量创新就能扩展到AGI水平。

持续学习与记忆:从海马体到DQN

Hassabis的博士研究正是关于海马体(Hippocampus)如何将新知识优雅地整合到已有知识库中。大脑通过睡眠——尤其是REM睡眠——重播重要经历来实现这一点。DeepMind最早的Atari程序DQN就借鉴了这一机制,通过经验回放(Experience Replay)来掌握Atari游戏,这是2013年的工作。

当前的做法则显得粗糙——将所有信息"用胶带粘起来"塞入上下文窗口。虽然上下文窗口已达到百万甚至千万token级别,远超人类的工作记忆(约7个信息单元),但问题在于:

  1. 当前做法过于暴力,将重要和不重要的信息统统存入
  2. 即使能存储,查找与当前决策相关的信息仍有非平凡成本
  3. 如果智能体需要处理实时视频流,百万token仅相当于约20分钟的数据,远不足以覆盖数月的生活经历

Hassabis认为,记忆领域仍有巨大的创新空间。百万token的上下文窗口对大多数用途来说已经够用,但不应试图在其中存储一切——需要更智能的检索和过滤机制。

强化学习与搜索的复兴

DeepMind历来深耕强化学习(Reinforcement Learning, RL)和搜索。从AlphaGo、AlphaZero到MuZero,这些都是智能体系统——能够自主完成目标、做出主动决策和规划的智能体。

早期DeepMind在游戏领域验证了这些理念:从Atari到AlphaGo,再到StarCraft的AlphaStar。核心问题是:能否将这些模型泛化为世界模型或语言模型,而不仅仅是游戏模型?过去几年正是回答这个问题的过程。

如今,所有领先模型的"思考模式"(Thinking Mode)和思维链推理(Chain of Thought Reasoning),本质上都是AlphaGo开创的思想在更一般化场景下的回归。DeepMind正在大规模重新审视那些旧想法,包括蒙特卡洛树搜索(Monte Carlo Tree Search)以及其他增强RL的方法。Hassabis认为,AlphaGo和AlphaZero的很多思想对当前基础模型的发展至关重要,未来几年的很多进展都将源于此。

模型蒸馏与效率

当被问及小模型能有多聪明时,Hassabis表示目前尚未触及信息密度的理论极限。DeepMind的核心优势之一就是蒸馏技术——将前沿能力迅速压缩到更小模型中。Jeff Dean和Oriol Vinyals等人在蒸馏工艺上是世界级专家。

DeepMind有巨大的动力做这件事,因为他们需要服务可能是最大的AI用户界面:搜索中的AI概览(AI Overviews)和AI模式、Gemini应用,以及Google地图、YouTube等十多个十亿用户产品。这些都需要极快、极高效、低延迟地运行,因此Flash模型和更小模型必须极其高效。

Hassabis的假设是:一年后发布的前沿模型(Pro/Mythic级别),半年到一年后其能力就会出现在极小的边缘模型中。Gemma 4系列就是这些蒸馏技术的体现,在同等规模上具有惊人的性能。他尚未看到任何理论极限的迹象。

速度、边缘计算与隐私

小模型的价值不仅在于成本,更在于速度带来的迭代加速。在编程等场景中,95%的前沿能力配合更快的迭代速度,往往比100%能力但速度慢更有价值。另一个重大方向是边缘计算(Edge Computing):

Hassabis设想了一个理想的终态:所有音视频处理在本地完成并保持本地,仅在需要时调用云端大模型。

持续学习:智能体的关键缺失

Hassabis认为,缺乏持续学习是当前智能体无法完成完整任务的主要原因。目前的智能体对任务的部分环节有用,可以拼凑起来做一些很酷的事情,但它们无法很好地适应特定上下文。这是智能体实现"发射后不管"(Fire and Forget)的关键缺失——它们需要能够学习你所处的特定上下文。必须攻克这一问题才能实现真正的通用智能。

推理能力的现状与局限

尽管模型在思维链推理上表现出色,但仍会在聪明本科生不会犯错的地方出错。Hassabis认为思考范式仍有大量创新空间:

  1. 当前做法过于暴力:可以想象在思维链中途进行监控和干预
  2. 过度思考问题:模型有时会陷入推理循环——以与Gemini下棋为例,它可能考虑一步棋、意识到是败招,但找不到更好的选择,于是又回到那步败招
  3. 锯齿状智能(Jagged Intelligence):一方面能解决国际数学奥林匹克(IMO)金牌级别的难题,另一方面却会在基本数学或推理错误上出错

Hassabis感觉,模型对自己思维过程的自省(Introspection)能力可能是缺失的关键环节。不过他估计,修复这些差距可能只需要一两个调整。

智能体:刚刚起步

Hassabis同意智能体被过度宣传的说法,但他认为我们确实只在起步阶段。要达到AGI,必须有一个能主动解决问题的活跃系统——智能体就是这条路径。

目前的状况是:

他预计,首先会看到这个房间里的人以1000倍效率工作,然后出现用AI工具构建的畅销应用,之后才会有更多自动化。真正产出杀手级成果可能还需要6到12个月。

创造力:从第37手到发明围棋

AlphaGo最著名的时刻是第二局的"第37手"(Move 37)——一步人类永远不会下的棋,却被证明是卓越的。Hassabis从首尔回来后第二天就启动了AlphaFold项目,至今已10年。

但Hassabis指出,仅想出第37手还不够——那很酷,但能否发明围棋?他想要的系统是:给定一个高层描述("一种5分钟可学会规则、需终生精通、美学上优美、一个下午可下完的游戏"),能返回围棋本身。当前系统还做不到这一点。

不过Hassabis也承认,也许答案不是系统缺少什么,而是我们使用系统的方式不对——也许今天的系统在一个足够有创造力的天才手中,配合对工具的深度掌握,就能实现这一点。

开源与开放权重

DeepMind是开源和开放科学的坚定支持者。AlphaFold的成果全部免费开放,所有科学工作至今仍在顶级期刊发表。Gemma系列的目标是在同等规模上打造世界领先的模型——上线仅两周半就有4000万次下载。

Hassabis强调了几个关键点:

  1. 西方开源生态的需要:中国模型目前在开源领域领先,Gemma在其规模上非常有竞争力
  2. 边缘模型的开放策略:用于Android、眼镜、机器人的边缘模型一旦部署到设备上就容易被提取,不如直接完全开放——将Nano级别统一为开放模型
  3. 资源约束:没有人有足够的算力同时训练两个最大规模的前沿模型,因此策略性地选择开放边缘模型是合理的

多模态:Gemini的先天优势

Gemini从第一天起就是多模态(Multimodal)架构,虽然这让早期开发更困难,但Hassabis认为长期将从中受益:

Hassabis表示,在多模态问题上,Gemini远远领先于其他模型。

推理成本:杰文斯悖论

当被问及推理成本趋近于零时会怎样时,Hassabis引用了杰文斯悖论(Jevons' Paradox)——效率提高反而导致使用量增加。他认为推理永远不会"本质上免费",因为:

  1. 我们会用掉所有可用的推理算力——百万级智能体蜂群协作,或多方向思考后集成
  2. 即使解决了核聚变(Fusion)、超导体或最优电池等材料科学问题使能源成本趋近于零,芯片的物理制造仍是瓶颈
  3. 至少在未来几十年内,推理资源仍需配给,必须高效使用

生物学:从AlphaFold到虚拟细胞

AlphaFold 3已将能力从蛋白质扩展到广泛的生物分子。Isomorphic Labs——从DeepMind拆分出的公司——正在构建AlphaFold之外的药物发现全流程,包括设计具有正确性质的化合物。Hassabis预告很快将有重大发布。

最终目标是构建完整的虚拟细胞(Virtual Cell):一个可扰动的工作细胞模拟,其输出足够接近实验结果,可以跳过大量搜索步骤并生成大量合成数据。Hassabis估计这大约还需要10年。当前DeepMind正在从虚拟细胞核(Virtual Nucleus)开始——因为细胞核相对自包含。

关键挑战在于:

  1. 选取复杂度的正确切片:最终要模拟人体,但需要找到足够自包含的子系统,可以近似其输入输出
  2. 数据不足:如果能对活细胞进行纳米级分辨率的非破坏性成像,就可以将其转化为视觉问题——但目前没有这种技术。静态高分辨率成像已经可以实现,但不足以将其转化为复杂的视觉问题

解决路径有两条:硬件驱动的数据方案,或构建更好的可学习模拟器(Learnable Simulator)。

AI作为科学的终极工具

Hassabis30多年从事AI的终极动力就是将AI作为科学发现的终极工具。DeepMind最初的使命表述分为两步:第一步是解决智能(即构建AGI),第二步是用它解决其他一切。当时很多人质疑"解决一切"是否当真,Hassabis说他确实是认真的——他指的是解决科学中的"根节点问题"(Root Node Problems),即那些能解锁全新发现分支的领域。

AlphaFold就是这一理念的典型例证:全球超过300万研究人员、几乎所有生物学研究者都在使用AlphaFold。Hassabis被告知,从现在起几乎所有药物在发现过程中都会在某个环节使用AlphaFold。

他认为AI将能帮助所有科学和工程领域,材料科学、数学等领域正在接近"AlphaFold时刻"——已有很有希望的结果,但尚未完全攻克大挑战。未来两年将有很多重要发布。

AlphaFold式突破的模式

Hassabis总结了"Alpha项目"(AlphaGo和AlphaFold)成功的关键条件:

  1. 巨大的组合搜索空间(Massive Combinatorial Search Space):越大越好,暴力搜索或特例算法无法解决——围棋的可能走法和蛋白质的可能构型都远超宇宙中的原子数
  2. 清晰的目标函数(Clear Objective Function):可以明确指定并据此爬山优化——如蛋白质的自由能最小化或围棋的胜利
  3. 充足的数据或模拟器:能生成大量分布内的合成数据

当这些条件满足时,当前方法可以走得很远,在干草堆中找到那根针。药物发现也是如此——存在一种化合物能治愈某种疾病且无副作用,只要物理定律允许,问题只是如何高效找到它。AlphaGo首次证明了这些系统能找到干草堆中的针。

AI的科学推理能力

DeepMind有一个名为"共同科学家"(Co-Scientist)的系统,以及AlphaFold等能超越基础Gemini能力的专业算法。但Hassabis表示,他尚未看到任何真正的、大规模的原创发现。各个前沿实验室都在实验更难的数学问题等,但还没达到那个突破点。

他认为这与创造力问题相关——真正的科学发现不只是模式匹配(因为不存在可匹配的模式),也不只是外推,而是某种类比推理(Analogical Reasoning),当前系统还不具备这种能力。

Hassabis提出了一个关键区分:不仅能解决黎曼假设或千禧年难题(Millennium Prize Problems),更要能提出一组被顶尖数学家认为同样深刻、同样值得终生研究的全新千禧年难题。后者要难得多。

爱因斯坦测试

Hassabis提出了检验AI科学创造力的终极标准——"爱因斯坦测试"(Einstein Test):

用知识截止日期为1901年的数据训练系统,看它能否独立得出爱因斯坦1905年"奇迹年"(Annus Mirabilis)的成果——包括狭义相对论。

一旦系统能通过这个测试,就意味着它们具备了真正发明全新事物的能力。他建议实际运行这个测试并持续检验。

给创业者的建议

当被问及现在25岁的自己应该知道什么时,Hassabis给出了三点核心建议:

  1. 攻克难题:攻克难题并不比攻克简单问题更难——只是难的方向不同。人生短暂,应该将生命力投入到真正能产生差异的事情上
  2. 跨学科交叉:他热爱跨学科工作,AI将使不同领域的交叉变得更加容易。将AI与材料科学、医学等深度技术领域结合的"甜点区"特别有价值——这些领域涉及"原子世界",不会因为基础模型的下一次更新而被淹没
  3. 考虑AGI时间线:如果AGI在2030年前后出现,而你今天启动的深科技项目需要10年,那么AGI将在项目中期出现。这不一定是坏事,但必须认真考虑:AGI将如何利用你的成果?你的专业工具(如AlphaFold)会被通用系统调用吗?

Hassabis不认为未来会是一个"超级大脑"解决一切。将所有蛋白质折叠知识塞进Gemini没有意义——那会以信息效率为代价损害其语言能力。更好的架构是:优秀通用模型通过工具使用调用专门系统,甚至由通用模型训练这些专门工具,但它们运行在独立系统中。物理世界的工厂、金融系统等也需要在这种框架下重新思考。

未来已来,只是尚未均匀分布。