Chelsea Finn：构建能做任何事的机器人

cover

摘要

Chelsea Finn 是 Physical Intelligence（物理智能公司）的联合创始人，也是斯坦福大学计算机科学教授。她在本次演讲中分享了如何开发通用机器人模型，使任何机器人能够在任何环境中执行任何任务。当前机器人行业面临的核心困境是：每解决一个应用场景，就需要围绕该场景从零开始构建一整个公司——包括新硬件、定制软件、独特的运动基元和边界情况处理等。Finn 指出，借鉴语言基础模型 (Foundation Model) 的经验，通用模型可能比专用模型效果更好、更易使用。她详细讲述了团队在三个方向上的突破：利用预训练 (Pre-training) 加后训练 (Post-training) 的配方让机器人完成从烘干机中取出衣物并折叠等精细长时域任务；通过收集多样化数据使机器人在从未见过的环境中成功执行指令；以及利用语言模型生成合成数据，让机器人能够响应开放式提示和实时打断。整个演讲贯穿了一个核心洞见：规模 (Scale) 是必要的，但不是充分的——真正解锁物理智能需要将规模与精心的数据策划和训练策略相结合。

正文

机器人行业的根本困境

如果要真正解决一个机器人应用问题，你本质上需要围绕该应用构建一整个公司。你需要为物流、湿实验室自动化、厨房机器人、手术机器人等分别建立不同的公司。这极其困难，因为每个公司都需要制造新硬件、开发定制软件、设计独特的运动基元 (Movement Primitives)、处理边界情况等，所有这些都必须从零开始。结果是，许多机器人公司并未成功地将机器人真正带入我们的日常生活。

Finn 联合创立了 Physical Intelligence 公司，致力于解决这个问题。他们的目标是开发一个通用模型 (General Purpose Model)，使任何机器人能够在任何环境中执行任何任务。正如语言和其他领域的基础模型 (Foundation Model) 所展示的那样，这种通用模型可能比专用模型更有效、更易用。例如，现在构建编程助手时，你不会只针对编程开发专用模型，而是在大规模数据（不仅限于代码）上训练的模型之上构建。

规模是必要的，但不是充分的

从语言模型的经验来看，规模 (Scale) 的重要性毋庸置疑。但如果仅追求规模，可能会走弯路。Finn 分析了三种大规模数据源：

工业自动化数据：机器人重复执行任务的庞大数据量，但这种数据无法让机器人进入灾区、制作三明治或打包杂货——缺乏行为多样性。
YouTube 视频：人类执行各种任务的海量视频，但我们不会通过观看他人写字来学会写字，也不会通过观看温布尔顿网球赛成为网球高手。此外，机器人和人类之间存在具身差异 (Embodiment Gap)。
仿真数据：同样可以大规模获取，但缺乏真实性，与现实之间存在差距。

核心教训是：规模对于开发能在开放世界条件下泛化的模型是必要的，但它从属于真正解决问题——规模是必要的，但不充分。

在 Physical Intelligence，他们通过遥操作 (Teleoperation) 收集真实机器人数据。例如，遥操作员使用主臂 (Leader Arms) 控制机器人完成点蜡烛等精细任务。

突破一：预训练加后训练——让机器人折叠衣物

Finn 详细讲述了训练机器人从烘干机中取出衣物并折叠的艰难历程。这是她见过的机器人在物理世界中完成的最令人印象深刻的任务，因为衣物的变异性极大——褶皱方式、位置、形状都不可预测，任务耗时约十分钟，期间有许多灾难性失败的机会（如物品掉落地面）。

从简单开始：他们首先让机器人折叠单一尺码、单一品牌的衬衫，以及动态展平一件衬衫。使用约一亿参数的模型，通过模仿学习 (Imitation Learning) 将机器人摄像头图像映射到关节目标位置 (Joint Target Positions)，以 50 赫兹频率进行控制。2024 年 3 月公司成立，几个月后即获得了可可靠折叠单件衬衫的策略。

逐步增加难度：将起始状态从平铺的衬衫改为褶皱状态，成功率骤降至接近 0%。他们尝试了多种方案——加入记忆/历史、延长训练时间、在末端执行器空间 (End Effector Space) 而非关节空间控制、提高编码器校准一致性、增加输入信息、引入层次化分解等——经历了大约两到三个月的持续失败。

关键突破：受语言模型启发，他们采用了预训练加后训练的配方——先在所有数据上预训练 (Pre-train)，然后在精心策划的高质量示范数据上微调 (Fine-tune)。这一改变带来了质的飞跃：2024 年 9 月，机器人首次成功连续折叠五件衣物并叠放整齐。虽然耗时 20 分钟且远非完美，但证明了这个配方的潜力。继续迭代后，耗时从 20 分钟缩短到 12 分钟。

引入视觉语言模型：他们采用了 30 亿参数的开源视觉语言模型 (Vision Language Model) PaliGemma，取代之前的 1-3 亿参数模型。该模型以机器人图像和语言指令为输入，通过扩散头 (Diffusion Head) 预测未来 50 个动作步骤（约 1 秒的动作量），使用流匹配 (Flow Matching)——扩散的一种变体——输出连续动作。在所有机器人数据上预训练后，使用相同的后训练配方微调，5 件衣物折叠时间从 12 分钟缩短到 9 分钟，折叠质量也更一致。

机器人展现出了令人惊喜的泛化能力：处理未见过的短裤时能伸手到下方展平；将衬衫对折以找到角落再折叠；成功折叠训练数据中从未出现过的 V 领衫和带纽扣的衬衫；以及处理人类持续打断和干扰。

定量验证：消融实验明确证实了预训练加后训练配方的关键作用——省略预训练或省略后训练都导致性能大幅下降，尤其是省略后训练时，机器人仅能完成从篮中取出衣物，几乎无法展平和折叠。而组合使用时，机器人能可靠地展平和折叠。

配方的通用性：同样的预训练加后训练配方可直接应用于其他任务——清理桌面、舀咖啡豆到磨豆机、组装纸箱底座、自主用火柴点燃蜡烛，甚至应用于其他公司的机器人（该机器人 Finn 从未见过，对方收集数据后发送过来，微调模型即可控制该机器人制作咖啡）。

突破二：多样化数据——让机器人在未知环境中成功

前述机器人在训练环境中测试，但实际部署时环境必然变化。借鉴机器学习的经验，他们收集了多样化的数据——在旧金山各地家庭及多种模拟厨房和卧室中收集整理房间的数据，总计超过 100 个独特房间。移动操作数据 (Mobile Manipulation Data) 仅占预训练混合数据的 2.4%，其余包括多样化静态操作数据、网络数据和高层指令数据。关键是，无需重新收集所有数据，就能在新的机器人上启动新任务。

语言跟随问题：早期模型常常忽略语言指令——例如要求拿起砧板却拿起了盘子。解决方案是利用 π₀ 架构 (Pi Zero Architecture) 的特性：扩散头是随机初始化的，会损害视觉语言模型中的预训练知识。他们改为预测标记化动作 (Tokenized Actions)，并从扩散头到视觉语言模型骨干 (VLM Backbone) 停止梯度传播 (Stop Gradient)，防止预训练知识被破坏。这带来了更快的训练速度和显著更好的语言跟随率——从 20% 提升到 80%。

在未知家庭中测试：他们租了三间从未去过的 Airbnb，将移动机器人放入厨房，要求执行关柜门、收好从未见过的餐具、清理洒出物等任务，机器人均能成功完成。在卧室中，机器人能将衣物放入洗衣篮、扔掉垃圾、整理床铺。

多样性数据的价值：定量实验表明，排除静态机器人数据后，在全新家庭中的性能降至 60% 以下；使用完整预训练混合数据则性能高出 20% 以上。增加训练环境数量也能持续提升性能，最终达到与在目标环境中训练相当的水平——基本弥合了泛化差距 (Generalization Gap)。当前瓶颈不再是收集更多样化的数据，而是提高可靠性和整体性能。成功率约为 80%，仍有大量改进空间。

突破三：开放式提示与实时打断

上述模型的指令集仍有限。如同语言模型可以被自由提示，能否让机器人也响应开放式提示 (Open-ended Prompts) 和打断 (Interjections)？

他们采用了层次化视觉语言动作模型 (Hierarchical Vision Language Action Model)：高层策略将提示分解为中间语言命令，低层模型执行具体动作。但收集大量人机交互数据困难且难以扩展。

合成数据的妙用：他们利用现有机器人数据，让语言模型重新标注并生成假设性的人类提示。例如，对于机器人即将拿起 Kit Kat 的场景，询问视觉语言模型"什么样的人类提示可能导致机器人选择拿起 Kit Kat？"然后在合成提示上训练高层策略。

这使得机器人能够响应各种提示：如"机器人你好，能给我做一个火腿芝士三明治吗？"机器人会分解为取面包、放砧板、取芝士、放面包上、取火腿等子任务。也能处理更复杂的提示如"能给我做一个纯素三明治吗？但我不喜欢腌黄瓜。"——机器人会加入生菜和番茄，不加腌黄瓜、芝士和肉。

机器人还能处理实时打断和纠正：当用户说"给我拿点甜的，但不要篮子里的那个"时，机器人理解后选择拿彩虹糖而非之前放入篮子的 Kit Kat。

与通用基础模型的对比：直接使用现有前沿模型作为高层规划器，其指令跟随和任务完成表现远低于专门训练的系统——这些模型在机器人相关的视觉理解上明显不足。

问答环节

关于后训练数据质量：高质量主要体现在数据的一致性 (Consistency)——数据是否遵循统一策略、是否高效可靠地完成任务。

关于强化学习 (Reinforcement Learning, RL) 在后训练中的角色：RL 可以发挥巨大作用——在线数据 (Online Data) 来自机器人自身尝试，能让机器人获得更高成功率和更快速度，超越单纯模仿学习的上限。

关于融资：Physical Intelligence 不仅专注于家庭应用，也在做插入网线、组装纸箱等任务。物理智能的潜力远超家务，在家务领域本身也有巨大市场。近年来机器人领域确实取得了实质性进展，投资者对此越来越兴奋。

关于世界模型 (World Model) 与 VLA 的结合：有自然的方式将世界模型目标融入 VLA，例如预测中间子目标图像再预测动作。但世界模型也面临挑战——用成功示范数据训练后，在评估非最优动作时可能产生幻觉 (Hallucination)，即使输入的动作不会成功，也会生成成功完成任务的虚假视频。

关于基础设施：机器人端需要实时系统保证控制频率；训练端需要处理非常模态化（视频、动作、语言片段）的大规模数据。

关于小模型加检索的方案：检索式系统 (Retrieval-based System) 在实践中很棘手——难以确定哪些内容应卸载到数据库、哪些应由模型处理；模型有时会忽略检索到的内容而自行生成。模型本身仍需一定智能才能有效利用检索信息。

关于合成数据：真实机器人数据不可替代，但仿真和合成数据在评估方面极具价值——评估模型在多个新环境中的泛化能力时，仿真比实际部署便捷得多。此外，语言模型中合成数据的对应物在机器人领域更接近强化学习——模型自身尝试任务并从中学习，这种在线数据将在后训练中扮演关键角色。

学术界 vs 产业界：两者各有优劣。学术界在数据收集通量、评估通量和算力上不如产业界，但许多算法层面的问题不需要大量资源。产业界的优势在于大规模模型和数据上的实验。但差距并不如人们想象的那么大——资源过多有时反而导致不够审慎的实验设计。

关于 VLM 架构的局限性：他们通过标记化动作 (Tokenized Actions) 来解决，详见其发布的 fast tokenizer 论文。