诺贝尔奖得主约翰·贾珀:AI 正在革新科学发现

cover

摘要

约翰·贾珀(John Jumper)是 2024 年诺贝尔化学奖得主之一,也是 AlphaFold 的核心研发者。在本场演讲中,他回顾了自己从物理学到计算生物学再到机器学习的学术历程,并详细讲述了 AlphaFold 如何从蛋白质折叠问题出发,通过数据、算力与独创性研究的有机结合,实现了对蛋白质三维结构的精准预测。他特别强调,研究创意(而不仅仅是数据规模或算力投入)是突破的关键——AlphaFold 2 的架构在仅用 1% 训练数据时,便已达到前代最优系统的精度,证明研究创意的价值等价于百倍数据增量。此外,他论述了盲测评估(CASP)对衡量真实进展的重要性、开源代码与开放数据库在推动科学社区信任与应用方面的决定性作用,以及用户如何以意料之外的方式使用工具——例如将蛋白质交互预测的精度推至世界领先水平,或利用结构预测重新设计"分子注射器"以实现靶向药物递送。最后,他将 AlphaFold 定位为实验科学家的"放大器",并展望 AI for Science 将从狭窄领域走向更广泛、更通用的科学智能系统。

从物理学到 AI for Science

约翰·贾珀开场时幽默地表示,在科学会议上从来没有人鼓掌欢呼,而今天这场面向创业者的活动让他倍感振奋。他简要回顾了自己的学术历程:最初接受物理学训练,立志做一名研究宇宙基本定律的物理学家,甚至希望有朝一日能在教科书中占据一句话的位置。他进入物理学博士项目后,却发现研究方向未能真正吸引自己,于是选择退学——虽然他没有像典型的 YC 创业者那样创办公司,但这一决定将他引向了计算生物学领域。

他在一家从事计算生物学(Computational Biology)的公司工作,专注于如何让计算机对生物学做出有意义的推断。这段经历让他深深着迷:既能发挥编写代码、推演方程式和深入思考世界本质的能力,又能服务于极其具体的实际目标——帮助研发药物。随后他重返研究生院学习生物物理(Biophysics)和化学,却失去了之前工作中使用的强大计算资源——那家公司甚至拥有专门用于模拟蛋白质运动的自研 ASIC 芯片。为了在没有大规模算力的情况下继续攻克同样的问题,他开始转向统计学与机器学习(当时这个领域甚至还不够体面,被称为"统计物理")。最终,他加入 Google DeepMind,在工业级环境中以极高的节奏推进 AI for Science 的研究。

世界上最短的生物课:蛋白质与折叠问题

贾珀以一个简明却深刻的生物学入门开始介绍核心问题。细胞并非高中课本中几个带标签的简单结构,而是一个极度拥挤、极其复杂的体系——他将其比作"7 月 4 日独立日拥挤的游泳池"。人体约有 20,000 种不同的蛋白质(Protein),它们承担了细胞中几乎所有的功能。

DNA 常被称为"生命的指令手册",但它的指令具体在做什么?它在指导构建这些纳米尺度的分子机器。DNA 以线性序列编码蛋白质,蛋白质按照一个接一个的顺序将氨基酸"珠子"串联起来。然而,DNA 是一维的,人体显然不是。关键的一步在于:蛋白质合成后会自发折叠(Folding)成特定的三维结构——贾珀将其比作宜家书架自动组装。以典型的激酶(Kinase)蛋白质为例,其原子排列极其复杂且具有功能性,人体中大多数蛋白质都经历这种从线性链到三维结构的转变。

这些蛋白质极其微小,仅有几纳米大小,比光学显微镜的分辨极限还小,因此长期以来科学家一直渴望理解其结构,以便预测蛋白质变化如何影响疾病,以及药物如何通过干扰特定蛋白质功能来发挥作用。

实验测定蛋白质结构的艰难历程

科学家通过非凡的智慧已经测定了大量蛋白质结构,但至今仍然极其困难。这并非一个遵循标准实验流程就能完成的任务,而是充满创造性尝试和大量失败的过程。以 X 射线晶体学(X-ray Crystallography)为例,研究者需要说服蛋白质分子形成规整的晶体,但没有任何简单配方可以实现——他们只能反复尝试各种方案。贾珀引用一篇论文的记录:经过一年多的尝试后,晶体才开始形成,而那一年间还在同时尝试上千种其他方案。

一旦获得晶体,需要将其带到同步辐射光源(Synchrotron)——一种极其庞大的设施——照射超强 X 射线获取衍射图案(Diffraction Pattern),最终求解结构并提交至蛋白质数据库(Protein Data Bank, PDB)。50 年前科学家的远见——将所有已知蛋白质结构集中归档——为后来的 AI 研究奠定了至关重要的数据基础。

目前已知的蛋白质结构约 200,000 个,每年新增约 12,000 个。然而,获取蛋白质序列(即 DNA 编码信息)要比获取结构容易得多——蛋白质序列的发现速度约为结构测定速度的 3,000 倍,数十亿条序列正在被不断发现。这种巨大的差距正是 AI 介入的空间。

AlphaFold 的三大要素:数据、算力与独创性研究

AlphaFold 的目标是:从蛋白质的氨基酸序列(左侧输入)出发,经过系统处理(中间),预测出与实验测定高度吻合的三维结构(右侧输出)。蓝色为预测,绿色为实验结构——后者往往耗费一两年时间和约十万美元。实现这一突破依赖三个要素:

  1. 数据:200,000 个公开的蛋白质结构,所有人都能获取相同的数据。
  2. 算力:最终模型的训练使用了 128 个 TPU v3 核心(大致相当于每核心一块 GPU),运行两周——这在学术资源范围内。但贾珀强调,真正消耗算力的不是最终模型,而是所有未成功的想法和实验。
  3. 研究:核心团队不过寥寥数人,正是独创性的研究使工作脱颖而出。

研究创意的百倍放大效应

贾珀认为,人们在讲述 AI 突破时过度聚焦于数据和算力,而忽视了研究创意的核心作用。他举了一个有力的证据:AlphaFold 2 在 CASP 评估中大幅领先所有竞争对手,而有人做过严格实验——将 AlphaFold 2 的架构仅用 1% 的可用数据训练,其精度竟已达到或超过前代最优系统 AlphaFold 1。这意味着,AlphaFold 2 中的研究创意(第三个要素)的价值等价于百倍的数据(第一个要素)。对创业者而言,这是一个重要启示:研究创意和发现可以极大地放大数据和算力的价值。

不是单一创意,而是中等规模创意的累积

早期系统主要基于卷积神经网络(Convolutional Neural Network, CNN),效果尚可。仅仅替换为 Transformer 架构本身并不能带来根本改进——真正的突破来自于 Transformer 的理念加上大量实验和许多"中等规模创意"(Midscale Ideas)的叠加。贾珀以等变性(Equivariance)为例:AlphaFold 发布后,许多人声称等变性是其成功的关键,但消融实验(Ablation Study)显示,移除所有等变性的 IPA(Invariant Point Attention)模块仅造成很小的精度损失。AlphaFold 2 比 AlphaFold 1 高出约 30 GDT 分,而等变性仅贡献了其中两三分。真正驱动变革的不是某个单一创意,而是多个中等规模创意的累加。

生物学相关性:跨越实用精度门槛

贾珀强调,仅仅逐步提升 1% 的指标并不够,真正关键的是跨越实验生物学家所关心的精度门槛——这些生物学家并不关心机器学习的评分,他们关心的是预测结构是否足够准确以至于可用。一旦跨越这一门槛,影响便是变革性的。蛋白质结构预测领域自 1994 年起就拥有严格的盲测评估(Blind Assessment)机制 CASP(Critical Assessment of protein Structure Prediction),每两年一次,参与者对尚未发表的结构进行预测。AlphaFold 2 的误差仅为其他最佳系统的约三分之一。

贾珀指出,外部基准测试(External Benchmark)对判断什么真正有效至关重要,因为人们总会不自觉地过拟合(Overfit)到自己的基准上,而现实世界的问题几乎总是比训练数据更难。唯有严格的盲测才能揭示系统的真实水平。

开源代码与开放数据库:信任是如何建立的

AlphaFold 的开放采取了两种形式:开源代码和免费数据库。代码首先公开,随后发布了包含 30 万个预测的数据库,最终扩展至 2 亿个预测——覆盖了所有基因组已被测序的生物体的蛋白质。贾珀讲述了一个有趣的"社会学"发现:即使在 CASP 评估中 AlphaFold 证明了其巨大优势,结构预测领域的专家已确信问题已被攻克,但普通生物学家仍持怀疑态度,认为"CASP 也许太简单了"。直到数据库发布后,人们纷纷查找自己研究的、尚未发表的蛋白质结构并与预测对比,才真正信服——有人甚至惊呼"DeepMind 怎么拿到了我未发表的结构!"这种社会化的验证远比学术评估更有说服力。

用户的创造性使用:超出预期的涌现能力

AlphaFold 的用户展现了惊人的创造力。代码发布仅两天后,研究者 Yoshaka Morowaki 就将两个蛋白质拼在一起输入 AlphaFold,中间加上一段连接序列——本质上是在蛋白质层面做提示工程(Prompt Engineering)——结果发现这竟成为当时世界上最好的蛋白质交互预测方法。这种在训练中未曾预期的新能力,贾珀称之为"涌现技能"(Emergent Skills),类似于大语言模型展现的出乎意料的能力。

另一个重要案例来自 MIT 的张实验室(Zhang Lab)。他们研究"分子注射器"(Molecular Syringe)——一种能附着在细胞上并注入蛋白质的收缩注射系统(Contractile Injection System),希望将其改造为靶向药物递送工具,将基因编辑工具如 Cas9 送入特定细胞。在尝试了 100 多种方法均告失败后,他们运行了 AlphaFold 预测。虽然预测并非完美,但研究人员立刻注意到结构底部的"腿"状部分——那一定是其识别和附着细胞的方式。于是他们用设计蛋白质替换了那部分,成功实现了对小鼠脑中特定细胞的靶向蛋白递送。这是利用 AI 结构预测推动药物递送创新的典型案例。

AI for Science 的未来:从狭窄工具到通用科学智能

贾珀总结道,结构预测及更广泛的 AI for Science 应被视为实验科学家的强大放大器:从散布的观察数据(相当于科学领域的"互联网文本")出发,训练一个理解底层规则的通用模型,补全剩余图景。AlphaFold 已经使结构生物学整体加速了 5%—10%,其对世界的影响却极为深远。

他展望未来,AI for Science 最激动人心的问题是它的通用程度——我们是否只会发现少数几个具有变革性影响的狭窄领域,还是会构建出真正广泛的科学智能系统?贾珀倾向于后者:随着更多基础数据源的发现和更通用系统的构建,AI 将在越来越广泛的科学领域中发挥深度作用。