Alexandr Wang:构建Scale AI、用代理变革工作,以及与中国的竞争

cover

摘要

本文是对Scale AI创始人兼CEO Alexandr Wang的深度访谈精译。录制本期Light Cone节目后,Meta已同意向Scale投资超过140亿美元,估值达290亿美元,Wang也宣布将领导Meta新的AI超级智能实验室 (Superintelligence Lab)。对话涵盖了从Scale在YC的早期日子到其在基础模型训练中的核心角色的完整历程。Wang详述了从MIT辍学创业的故事——在Quora工作期间发现机器学习工程师薪资已高于软件工程师,通过理性主义者 (Rationalist) 社区的夏令营接触到AI安全的理念,最终在YC期间从"医生聊天机器人"的失败想法转向"人类劳动API" (API for Human Labor) 的关键洞察。Scale最初专注于自动驾驶数据标注,与Cruise等公司合作迅速成长,此后持续随AI浪潮转型:2019年开始与OpenAI合作(GPT-2时代),2020年进军国防AI,2021年底开始构建AI应用业务。Wang深入讨论了缩放定律 (Scaling Laws) 的演进、企业核心IP将从代码库转向专有微调模型 (Fine-tuned Models) 的趋势、AGI是否会导致经济垄断还是保持专业化分工的争论,以及"人类大规模管理代理" (Humans Manage Agents at Scale) 的未来工作范式。他还介绍了Scale与安全中心合作推出的"人类最后考试" (Humanity's Last Exam) 评测基准,深入分析了中美AI竞争格局——中国在数据优势、政府支持的数据标注基础设施和制造业方面的挑战,以及美国在算力和算法创新上的优势。在国防领域,Scale正在与印太司令部构建Thunder Forge系统,将军事规划决策周期从72小时压缩到10分钟。Wang最后的创业哲学是"雇佣在乎的人" (Hire People Who Give a Shit) 和"质量是分形的" (Quality is Fractal)——高标准从顶层渗透到组织的每一个角落。

正文

Scale的里程碑时刻

自本期Light Cone节目录制以来,Meta已同意向Scale AI投资超过140亿美元,估值达290亿美元。Alexandr Wang也已宣布将领导Meta新的AI超级智能实验室。本次对话涵盖了从Scale在YC的早期日子到其在基础模型训练中的核心角色的完整历程。

从MIT辍学到YC创业

Wang在去MIT之前,于2014至2015年间在Quora工作了一年,担任软件工程师。当时市场上机器学习工程师 (ML Engineers) 的薪资已经高于软件工程师——这已是当时的市场现实。

他参加了由旧金山理性主义者 (Rationalist) 社区组织的夏令营,面向早慧青少年。许多组织者后来成为AI行业的关键人物:其中一位是Paul Cristiano——RLHF (基于人类反馈的强化学习,Reinforcement Learning from Human Feedback) 的发明者,现任美国AI安全研究所研究主管,曾在OpenAI工作很长时间。Greg Brockman曾来做过演讲,Eliezer Yudkowsky也来过。Wang大约16岁时就接触到"AI和AI安全可能是我一生中最重要的工作领域"这一概念。

进入MIT后他深入学习AI,但在校期间变得焦虑不安,申请了YC。最初的想法是"如何将AI应用于各个领域"——这正值2016年聊天机器人 (Chatbot) 小泡沫时期,由Magic等应用和Facebook对聊天机器人的宏大愿景所推动。

医生聊天机器人到人类劳动API

他们最初的创业想法是"为医生做聊天机器人"。Wang坦言,他们对医生一无所知——"医生听起来很贵"是当时唯一的逻辑。这反映了年轻创始人的典型模式:前10个想法往往是模仿性的 (Mimetic),缺乏真正的洞察力 (Alpha),也不知道自己独特定位在哪里。

在YC期间,他们与另一家YC公司合租,观察到聊天机器人要真正有效,需要大量数据和大量人工操作。某天灵光一现:如果你就专门做数据和人类标注呢?这催生了"人类任务API" (API for Human Tasks) 的概念。Wang注册了scaleapi.com域名,一周后就在Product Hunt上线,口号是"人类劳动的API" (An API for Human Labor)——API调用人类,人类为机器工作,这是一种有趣的形式颠覆。

Product Hunt上的发布吸引了足够多的工程师用户,让他们得以在当时融资并起步。

聚焦自动驾驶:看似太小实则关键

几个月后,自动驾驶 (Self-driving Cars) 成为需要聚焦的第一个主要应用领域。Wang回忆与领投投资者的对话:"我们觉得应该专注于自动驾驶。"投资者的反应是"市场太小了,那样你永远建不成大公司。"他们则认为市场远比投资者想象的大——所有自动驾驶公司都在获得巨额融资,汽车公司也在做大规模项目。

回头看,两方都是对的:专注于自动驾驶确实让他们快速规模化,但那个市场也确实不够大以支撑一家巨型公司。Scale的历程就是这样一系列渐进式的演进——AI是一个极速变化的领域,他们的自豪之处在于能够持续构建并贡献于这个飞速发展的行业。

从自动驾驶到OpenAI:认识缩放定律

Wang指出,在自动驾驶领域,缩放定律 (Scaling Laws) 并非真正存在——因为整个算法需要在车载上运行,计算资源极其受限,工程师们思考的都是如何把算法压得足够小以适应车载计算。

2019年,Scale开始与OpenAI合作,当时处于GPT-2时代。GPT-1只是一个好奇心,GPT-2在大型AI会议上有展台,允许研究者与之交互——有点酷但并不特别令人印象深刻。到GPT-3(2020年),缩放定律的感觉变得非常真实。Wang回忆获得了GPT-3的早期访问权限,让朋友试用时,朋友对AI产生了个人化的挫败感和愤怒——不是"这是个愚蠢玩具"的反应,而是某种带有个人情绪的反应。那一刻Wang意识到,这在性质上与之前任何东西都不同,仿佛有了通过图灵测试 (Turing Test) 的迹象。

但真正让所有人信服"生成式AI" (Generative AI) 概念的是DALL·E。Wang个人的认知旅程是:GPT-3非常有趣但只是众多押注之一,到了2022年——DALL·E、ChatGPT、GPT-4的相继出现——才是Scale和整个世界的真正分水岭。GPT-4是让缩放定律"非常真实"的时刻,数据需求将增长到消费人类所有可用信息的程度。

推理范式的转变

当前模型改进的最新阶段中,收益不再主要来自预训练 (Pre-training),而是转向了推理 (Reasoning) 和强化学习 (Reinforcement Learning) 的新缩放曲线——其效果令人震惊。AI与摩尔定律 (Moore's Law) 的类比非常清晰:你会登上不同的技术曲线,但远观之下就像一条平滑的进步线。

企业的未来IP:专有微调模型

关于大型模型厂商获取全参数微调 (Full Parameter Fine-tuning) 的趋势,Wang认为这将是未来的蓝图。目前大规模参数微调或强化微调的模型数量仍然很少,但一种未来的图景是:每家公司的核心IP将不再是代码库,而是它们的专有微调模型 (Specialized Fine-tuned Model)——就像今天你认为科技公司的IP是代码库,未来你会认为它们的IP是驱动所有内部工作流的专有模型。

它们能添加什么独特价值?数据和环境 (Environments)——那些对日常业务问题极为具体的信息,是其他任何人都不具备的。

YC的一位朋友提到,某顶级模型公司曾来问"YC和YC公司会不会把他们的评测 (Evals) 给我们用来训练?"他们的回答是"你在说什么?那是他们的护城河 (Moat)。"评测是RL (强化学习) 循环中的重要组成部分,但真正有价值的不仅是评测,而是针对你的数据集和问题集正确微调的模型。数据、环境和基础模型——像乐高积木一样堆叠起来,就能得到差异化的微调模型。

AGI:垄断还是专业化经济?

这涉及一个根本性的张力:AGI是否变成一个"博格" (Borg) 吞噬整个经济、由一家公司主导?还是我们仍然拥有专业化经济?Wang的信念是:我们仍将有专业化经济。模型是平台,但Alpha——竞争优势——将取决于你能将业务问题封装为数据集或环境的程度,进而构建差异化模型或AI能力。

就像科技公司本能地知道不应交出代码库和数据库一样,AI驱动经济中的等价物——评测、数据、环境——将随时间被识别出来。

未来的工作:人类大规模管理代理

Wang对未来的工作持技术乐观态度。不可否认,我们正处于一个新工作方式时代的起点——所谓"工作的未来" (Future of Work) 正在成为现实。

以编程为案例,工作方式的演进路径是:
1. 助手模式:模型偶尔提供帮助
2. 代理协作模式:你异步地让代理执行工作流,类似与单个代理结对编程 (Pair Programming)
3. 代理集群模式:部署一群代理 (Swarm of Agents) 处理各种任务

最后这种模式在当前劳动力中有一个语义对应的职位:管理者 (Manager)。你本质上在管理一组代理做实际工作。

AGI末日论者认为连管理代理的工作也会被代理取代,但Wang的信念是:管理非常复杂,更多关乎愿景 (Vision) 和最终目标。我们有一个由人类需求和欲望驱动的经济,所以这些目标将由人类驱动。经济的终极状态就是人类大规模管理代理 (Large-scale Humans Manage Agents)。

他分享了一个有趣的故事:一位创始人朋友试图提拔一位在代理基础设施上工作的年轻工程师做管理,这位工程师的反应是"为什么要管理人?给我更多计算资源就行——看看上个月模型刚获得了什么能力,我管理更多代理就好。"

但管理仍然复杂:让代理相互协调、协调工作流、调试出现的问题——这些仍是难题。就像自动驾驶:很容易达到90%,但非常难达到99%。最后10%的准确性需要大量工作。即便是现在的自动驾驶汽车,也有远程协助 (Remote Assist) 处理极端边缘情况——比例大概是3到5辆车配1名远程操作员 (Tele-operator)——人类比大多数人以为的更深度地参与其中。

不过乐观地看:从做1辆车的Uber司机变成同时管理5辆车的远程操作员,产出提升了。只要相信人类的需求近乎贪得无厌——价格下降、经济更高效、我们只会想要更多——这在人类历史上一直是可靠趋势。

Scale的转型之路

Scale的业务经历了几个关键阶段:

第一阶段(前3年):数据标注。专注于为自动驾驶公司生产数据。这种专注迫使他们始终走在AI浪潮前面——因为AI要在任何垂直领域成功都需要数据,所以对他们产品的需求往往先于AI向那些行业的实际扩展。2019年开始与OpenAI合作语言模型,2020年与国防部合作政府AI应用,很早就开始与大型企业合作——都是在这些领域成为热点之前。

第二阶段(2021年底起):AI应用。开始构建AI驱动的应用,现在更多是代理式工作流 (Agentic Workflows) 和代理应用——面向企业和政府客户。

Wang研究了成功附加了截然不同业务的公司,最引人注目的是亚马逊构建AWS。2000年时,如果说这个大型在线零售商会构建大规模云计算租服务器业务,看起来荒谬至极。2006年AWS发布时亚马逊股票反而下跌,因为分析师认为这是糟糕的主意。但其智慧在于:他们确信AWS的潜在市场是无限大且持续增长的——全球需要建设的算力将呈指数增长——且规模经济会带来成本优势。

创业公司需要在某个时点切换模式:早期瞄准极窄的市场获取动能,然后缓慢扩展;到了某个时刻,如果有志于成为千亿美元公司,就要切换到寻找无限市场。Scale的简单认知是:每个企业和组织都不得不用AI驱动(现在是代理驱动)的技术重新格式化整个业务——这将随时间吞噬整个经济。

目前Scale的应用业务增长远快于数据业务。他们采取聚焦策略:与世界排名第一的制药公司、电信公司、银行、医疗提供商以及美国政府和国防部合作,集中构建真正差异化的AI能力。这背后由数据业务的差异化支撑——核心信念是每个企业的终态都是某种由自身数据赋予的特化能力。

与Palantir的比较:Palantir专注于数据本体论 (Data Ontologies) 和解决混乱的数据集成问题;Scale的视角是——什么是最能为你AI战略赋能的差异化数据,以及如何从企业内部生成或利用这些数据。实际上Scale更多是与Palantir合作而非竞争,因为大型组织的问题如此庞大棘手,市场太大甚至不可能赢者通吃。

内部代理部署

Scale内部早已广泛部署代理。当模型开发者开始开发代理和推理模型时,Scale负责生产了大量支撑代理训练的数据集,因此亲眼见证了强化学习对代理部署的效果是多么惊人。

一旦意识到可以将现有人类工作流转化为强化学习的环境和数据,就可以将这些工作流转化为代理式工作流——只要你能接受一定程度的故障率和可靠性水平。Scale在招聘流程、质量控制、数据分析、销售报告等各个主要组织中都嵌入了代理工作流。核心是一种思维模式:识别重复性人类工作流,将其转化为数据集以构建自动化工具。

典型的低垂果实是"深度研究+"(Deep Research Plus) 类任务——需要点击多个地方、提取信息、整合分析的过程。所需的数据就是:任务定义、完成任务所需的完整数据集,以及有效执行的标准 (Rubric)。

关于是否需要RL和微调:提示工程 (Prompt Engineering) 随模型变好而变好,但只能到一定水平;强化学习能带你超越那个水平。实际上在Scale的大部分业务中,提示工程就已经很好了——不用打开模型,等下一代模型出来、评测主要是选择何时切换模型。

但创业公司需要一个沿着复杂性曲线攀升的策略——你的产品或业务需要真正受益于模型能力不断增长的这条更广阔曲线。

人类最后考试 (Humanity's Last Exam)

Scale与安全中心 (Center for AI Safety) 合作推出的"人类最后考试"是一项极具挑战性的AI评测基准。他们与世界各地最聪明的科学家合作——包括杰出的教授和个人研究者——收集这些研究者认为他们近期遇到的最难科学问题。每位教授贡献全新的问题,这些问题从未出现在任何教科书或考试中,纯粹从他们的头脑中原创产生。

这些题目极其困难——除非你拥有特定领域的专业知识否则几乎没有机会答对,而且无法在互联网上搜索到答案。模型目前有15或30分钟的思考时间限制,最近有实验室要求将时间限制延长到一整天。

刚推出时最佳模型得分约7-8%,现在已经超过20%,进步非常快。虽然名字叫"最后考试",但Wang承认终将被饱和,新的评测将是现实世界任务——本质上更模糊、更复杂。

AGI与科学突破

Wang认为,模型在科学前沿做出突破是非常可能的。在生物学等领域,模型可能拥有人类所没有的直觉——因为它们具有不同形式的智能。生物学是最清晰的领域,化学已经实现了——去年诺贝尔奖颁给了Google DeepMind的Demis Hassabis和John Jumper的AlphaFold,这是一个巨大飞跃。在一个未来场景中,AI进行所有前沿研发,科学家则致力于理解和解释AI的发现。

中美AI竞争

关于DeepSeek开源模型:最好的开源模型现在来自中国,这是一个需要面对的尴尬现实。

Wang认为中国模型之所以如此出色,最简单的解释是间谍活动 (Espionage)。前沿模型的训练中有许多秘密——听起来比实际更有趣,但确实存在大量关于超参数 (Hyperparameters) 设置的技巧和直觉、让模型训练成功的各种诀窍。中国实验室能够如此快速推进,而一些非常有才华的美国实验室进展更慢,纯粹是因为很多训练秘密从前沿实验室泄露后流入了中国实验室。

建模未来的唯一方式是假设中国拥有相当先进的模型——目前他们不是最好的,大约落后半步——但当真正并驾齐驱时会发生什么就很难预测了。

能源:美国在能源生产上严重落后,这纯粹是监管问题——本可以在2秒内解决但尚未解决。美国总电网产量几乎持平,而中国总电网产量在过去十年翻倍增长——虽然主要来自煤炭,但仍在复合增长。

算力:净来看美国将在算力上保持领先。

数据:中国从根本上在数据方面占据优势。他们可以无视版权和隐私规则来构建大型模型;还有大规模政府数据标注项目——7个城市由政府设立的数据标注中心,为AI公司使用数据标注的代金券制度,甚至大学里也有相关项目。在机器人数据领域,中国已有大规模工厂装满机器人专门收集数据,甚至很多美国公司如今也依赖来自中国的数据来训练机器人基础模型。

算法:美国净更具创新性,但如果间谍活动持续,算法上基本持平。

综合来看,Wang认为美国保持不可否认的持续优势的概率大约是60-70%,但存在许多中国追平甚至超越的可能情景。

制造业:这是更大的问题。同样的机器人在中国制造成本可能只需2000-4000美元,而在美国要20000-30000美元——"我们在美国甚至连高精度螺丝都造不了"。这涉及国防和国家安全:国防最终将取决于哪个国家拥有更多可以威慑冲突或击落对方的东西。未来不再是战斗机和航空母舰,而是无人机 (Drones)、具身机器人 (Embodied Robots) 和网络战 (Cyber Warfare)——从冷战"造更大的炸弹"的哲学转向碎片化、更敏捷、可消耗的资源。

Thunder Forge:代理驱动的军事规划

Scale正在与印太司令部 (Indo-Pacific Command) 构建名为Thunder Forge的系统——这是国防部使用AI进行军事规划和作战的旗舰项目。他们将现有的人类军事工作流——遵循所谓教条式 (Doctrinal) 的既定军事规划流程——转化为一系列协作的代理,执行完全相同的任务但全部代理驱动。这将关键决策周期从72小时压缩到10分钟。就像下棋:与人下棋时对方需要时间思考,而与计算机下棋则是即时回应——一种无情的战争形式。

看到推理链 (Chain of Thought) 立即可见是最强大的能力——你不想只看答案,你想看推理过程。这也是为什么第一次DeepSeek发布比o1更有趣:o1隐藏了推理过程(出于防止窃取的考虑,但最终还是被窃取了),而DeepSeek展示了推理。这个领域的一个有趣现象是:先进能力可以尝试保密,但无论你做什么,它们总会随时间开放。

创业哲学:在乎每一件事

Wang给创业者的建议归结为一件事:你必须非常非常非常在乎

年轻时几乎所有事情都感觉天文数字般重要,所以你拼命努力、在乎每一个细节。这种特质非常重要。他多年前写过一篇文章叫"雇佣在乎的人" (Hire People Who Give a Shit)。面试或与人互动时,你能分辨出谁是在敷衍了事,谁是将工作视为极其重大而重要的事——他们做出伟大的工作,做不好时寝食难安,做好了则深感受满足。

在Scale,Wang仍然亲自审批每一位录用——这是他批准或否决每一位招聘的流程。他极度在乎,与他共事的人也极度在乎,这让他们更深刻地感知业务中的变化,更快地调整方向、更快地学习、更认真地对待工作、更快地适应。

Scale有一个核心价值观:质量是分形的 (Quality is Fractal)。高标准会沿组织向下渗透。你很少看到一个组织中越往下标准越高的——大多数时候,当人们意识到管理层不在乎时,他们就失去了必须在乎的深层渴望。因此,高标准和深层质量关怀必须成为整个组织根深蒂固的信条。

这就是创始人模式 (Founder Mode)。