Chelsea Finn:构建能做任何事的机器人

cover

摘要

Chelsea Finn 是 Physical Intelligence(物理智能公司)的联合创始人,也是斯坦福大学计算机科学教授。她在本次演讲中分享了如何开发通用机器人模型,使任何机器人能够在任何环境中执行任何任务。当前机器人行业面临的核心困境是:每解决一个应用场景,就需要围绕该场景从零开始构建一整个公司——包括新硬件、定制软件、独特的运动基元和边界情况处理等。Finn 指出,借鉴语言基础模型 (Foundation Model) 的经验,通用模型可能比专用模型效果更好、更易使用。她详细讲述了团队在三个方向上的突破:利用预训练 (Pre-training) 加后训练 (Post-training) 的配方让机器人完成从烘干机中取出衣物并折叠等精细长时域任务;通过收集多样化数据使机器人在从未见过的环境中成功执行指令;以及利用语言模型生成合成数据,让机器人能够响应开放式提示和实时打断。整个演讲贯穿了一个核心洞见:规模 (Scale) 是必要的,但不是充分的——真正解锁物理智能需要将规模与精心的数据策划和训练策略相结合。

正文

机器人行业的根本困境

如果要真正解决一个机器人应用问题,你本质上需要围绕该应用构建一整个公司。你需要为物流、湿实验室自动化、厨房机器人、手术机器人等分别建立不同的公司。这极其困难,因为每个公司都需要制造新硬件、开发定制软件、设计独特的运动基元 (Movement Primitives)、处理边界情况等,所有这些都必须从零开始。结果是,许多机器人公司并未成功地将机器人真正带入我们的日常生活。

Finn 联合创立了 Physical Intelligence 公司,致力于解决这个问题。他们的目标是开发一个通用模型 (General Purpose Model),使任何机器人能够在任何环境中执行任何任务。正如语言和其他领域的基础模型 (Foundation Model) 所展示的那样,这种通用模型可能比专用模型更有效、更易用。例如,现在构建编程助手时,你不会只针对编程开发专用模型,而是在大规模数据(不仅限于代码)上训练的模型之上构建。

规模是必要的,但不是充分的

从语言模型的经验来看,规模 (Scale) 的重要性毋庸置疑。但如果仅追求规模,可能会走弯路。Finn 分析了三种大规模数据源:

核心教训是:规模对于开发能在开放世界条件下泛化的模型是必要的,但它从属于真正解决问题——规模是必要的,但不充分。

在 Physical Intelligence,他们通过遥操作 (Teleoperation) 收集真实机器人数据。例如,遥操作员使用主臂 (Leader Arms) 控制机器人完成点蜡烛等精细任务。

突破一:预训练加后训练——让机器人折叠衣物

Finn 详细讲述了训练机器人从烘干机中取出衣物并折叠的艰难历程。这是她见过的机器人在物理世界中完成的最令人印象深刻的任务,因为衣物的变异性极大——褶皱方式、位置、形状都不可预测,任务耗时约十分钟,期间有许多灾难性失败的机会(如物品掉落地面)。

从简单开始:他们首先让机器人折叠单一尺码、单一品牌的衬衫,以及动态展平一件衬衫。使用约一亿参数的模型,通过模仿学习 (Imitation Learning) 将机器人摄像头图像映射到关节目标位置 (Joint Target Positions),以 50 赫兹频率进行控制。2024 年 3 月公司成立,几个月后即获得了可可靠折叠单件衬衫的策略。

逐步增加难度:将起始状态从平铺的衬衫改为褶皱状态,成功率骤降至接近 0%。他们尝试了多种方案——加入记忆/历史、延长训练时间、在末端执行器空间 (End Effector Space) 而非关节空间控制、提高编码器校准一致性、增加输入信息、引入层次化分解等——经历了大约两到三个月的持续失败。

关键突破:受语言模型启发,他们采用了预训练加后训练的配方——先在所有数据上预训练 (Pre-train),然后在精心策划的高质量示范数据上微调 (Fine-tune)。这一改变带来了质的飞跃:2024 年 9 月,机器人首次成功连续折叠五件衣物并叠放整齐。虽然耗时 20 分钟且远非完美,但证明了这个配方的潜力。继续迭代后,耗时从 20 分钟缩短到 12 分钟。

引入视觉语言模型:他们采用了 30 亿参数的开源视觉语言模型 (Vision Language Model) PaliGemma,取代之前的 1-3 亿参数模型。该模型以机器人图像和语言指令为输入,通过扩散头 (Diffusion Head) 预测未来 50 个动作步骤(约 1 秒的动作量),使用流匹配 (Flow Matching)——扩散的一种变体——输出连续动作。在所有机器人数据上预训练后,使用相同的后训练配方微调,5 件衣物折叠时间从 12 分钟缩短到 9 分钟,折叠质量也更一致。

机器人展现出了令人惊喜的泛化能力:处理未见过的短裤时能伸手到下方展平;将衬衫对折以找到角落再折叠;成功折叠训练数据中从未出现过的 V 领衫和带纽扣的衬衫;以及处理人类持续打断和干扰。

定量验证:消融实验明确证实了预训练加后训练配方的关键作用——省略预训练或省略后训练都导致性能大幅下降,尤其是省略后训练时,机器人仅能完成从篮中取出衣物,几乎无法展平和折叠。而组合使用时,机器人能可靠地展平和折叠。

配方的通用性:同样的预训练加后训练配方可直接应用于其他任务——清理桌面、舀咖啡豆到磨豆机、组装纸箱底座、自主用火柴点燃蜡烛,甚至应用于其他公司的机器人(该机器人 Finn 从未见过,对方收集数据后发送过来,微调模型即可控制该机器人制作咖啡)。

突破二:多样化数据——让机器人在未知环境中成功

前述机器人在训练环境中测试,但实际部署时环境必然变化。借鉴机器学习的经验,他们收集了多样化的数据——在旧金山各地家庭及多种模拟厨房和卧室中收集整理房间的数据,总计超过 100 个独特房间。移动操作数据 (Mobile Manipulation Data) 仅占预训练混合数据的 2.4%,其余包括多样化静态操作数据、网络数据和高层指令数据。关键是,无需重新收集所有数据,就能在新的机器人上启动新任务。

语言跟随问题:早期模型常常忽略语言指令——例如要求拿起砧板却拿起了盘子。解决方案是利用 π₀ 架构 (Pi Zero Architecture) 的特性:扩散头是随机初始化的,会损害视觉语言模型中的预训练知识。他们改为预测标记化动作 (Tokenized Actions),并从扩散头到视觉语言模型骨干 (VLM Backbone) 停止梯度传播 (Stop Gradient),防止预训练知识被破坏。这带来了更快的训练速度和显著更好的语言跟随率——从 20% 提升到 80%。

在未知家庭中测试:他们租了三间从未去过的 Airbnb,将移动机器人放入厨房,要求执行关柜门、收好从未见过的餐具、清理洒出物等任务,机器人均能成功完成。在卧室中,机器人能将衣物放入洗衣篮、扔掉垃圾、整理床铺。

多样性数据的价值:定量实验表明,排除静态机器人数据后,在全新家庭中的性能降至 60% 以下;使用完整预训练混合数据则性能高出 20% 以上。增加训练环境数量也能持续提升性能,最终达到与在目标环境中训练相当的水平——基本弥合了泛化差距 (Generalization Gap)。当前瓶颈不再是收集更多样化的数据,而是提高可靠性和整体性能。成功率约为 80%,仍有大量改进空间。

突破三:开放式提示与实时打断

上述模型的指令集仍有限。如同语言模型可以被自由提示,能否让机器人也响应开放式提示 (Open-ended Prompts) 和打断 (Interjections)?

他们采用了层次化视觉语言动作模型 (Hierarchical Vision Language Action Model):高层策略将提示分解为中间语言命令,低层模型执行具体动作。但收集大量人机交互数据困难且难以扩展。

合成数据的妙用:他们利用现有机器人数据,让语言模型重新标注并生成假设性的人类提示。例如,对于机器人即将拿起 Kit Kat 的场景,询问视觉语言模型"什么样的人类提示可能导致机器人选择拿起 Kit Kat?"然后在合成提示上训练高层策略。

这使得机器人能够响应各种提示:如"机器人你好,能给我做一个火腿芝士三明治吗?"机器人会分解为取面包、放砧板、取芝士、放面包上、取火腿等子任务。也能处理更复杂的提示如"能给我做一个纯素三明治吗?但我不喜欢腌黄瓜。"——机器人会加入生菜和番茄,不加腌黄瓜、芝士和肉。

机器人还能处理实时打断和纠正:当用户说"给我拿点甜的,但不要篮子里的那个"时,机器人理解后选择拿彩虹糖而非之前放入篮子的 Kit Kat。

与通用基础模型的对比:直接使用现有前沿模型作为高层规划器,其指令跟随和任务完成表现远低于专门训练的系统——这些模型在机器人相关的视觉理解上明显不足。

问答环节

关于后训练数据质量:高质量主要体现在数据的一致性 (Consistency)——数据是否遵循统一策略、是否高效可靠地完成任务。

关于强化学习 (Reinforcement Learning, RL) 在后训练中的角色:RL 可以发挥巨大作用——在线数据 (Online Data) 来自机器人自身尝试,能让机器人获得更高成功率和更快速度,超越单纯模仿学习的上限。

关于融资:Physical Intelligence 不仅专注于家庭应用,也在做插入网线、组装纸箱等任务。物理智能的潜力远超家务,在家务领域本身也有巨大市场。近年来机器人领域确实取得了实质性进展,投资者对此越来越兴奋。

关于世界模型 (World Model) 与 VLA 的结合:有自然的方式将世界模型目标融入 VLA,例如预测中间子目标图像再预测动作。但世界模型也面临挑战——用成功示范数据训练后,在评估非最优动作时可能产生幻觉 (Hallucination),即使输入的动作不会成功,也会生成成功完成任务的虚假视频。

关于基础设施:机器人端需要实时系统保证控制频率;训练端需要处理非常模态化(视频、动作、语言片段)的大规模数据。

关于小模型加检索的方案:检索式系统 (Retrieval-based System) 在实践中很棘手——难以确定哪些内容应卸载到数据库、哪些应由模型处理;模型有时会忽略检索到的内容而自行生成。模型本身仍需一定智能才能有效利用检索信息。

关于合成数据:真实机器人数据不可替代,但仿真和合成数据在评估方面极具价值——评估模型在多个新环境中的泛化能力时,仿真比实际部署便捷得多。此外,语言模型中合成数据的对应物在机器人领域更接近强化学习——模型自身尝试任务并从中学习,这种在线数据将在后训练中扮演关键角色。

学术界 vs 产业界:两者各有优劣。学术界在数据收集通量、评估通量和算力上不如产业界,但许多算法层面的问题不需要大量资源。产业界的优势在于大规模模型和数据上的实验。但差距并不如人们想象的那么大——资源过多有时反而导致不够审慎的实验设计。

关于 VLM 架构的局限性:他们通过标记化动作 (Tokenized Actions) 来解决,详见其发布的 fast tokenizer 论文。