机器人的GPT时刻已经到来

cover

摘要

本期对话Physical Intelligence(π)的联合创始人,深入探讨机器人基础模型(Robot Foundation Model)的最新进展和未来前景。π正在构建能够控制任何机器人执行任何任务的通用机器人模型,其核心方法论是跨实体(Cross-Embodiment)训练——从多种不同类型的机器人收集数据,让模型学到控制"机器人"的抽象能力而非特定硬件平台。关键洞察包括:即使同一型号的机器人也不完全相同(硬件偏移、软件更新),单一平台优化实际上比多平台更难扩展;模型正在涌现出零样本(Zero-Shot)能力,无需额外数据采集即可完成去年还需数百小时训练的任务。π与Weave和Ultra等YC公司的合作展示了实际部署成果:在真实洗衣店中折叠各种未见过的衣物,仅用约两周就达到了可用水平。创始人认为,当前处于"如果允许犯错并由人接管纠错"的混合自治(Mixed Autonomy)模式下,机器人部署已经可以开始规模化。

正文

Physical Intelligence的使命

Physical Intelligence(π)是一家专注于构建通用机器人基础模型的研究型公司。其目标不是优化某一种特定机器人,而是构建能够控制任何机器人执行任何任务的通用智能——一个机器人领域的"GPT时刻"。这一愿景的实现需要解决机器人领域特有的数据稀缺问题。

机器人数据问题的三个维度

创始人从三个角度分析了机器人数据问题:第一,数据采集(Data Capture)——大量机器人数据实际上正在产生,但从未有人有激励去捕获和格式化以供训练使用,π的OpenX项目正是为了解决这一问题;第二,与语言模型不同,不存在"互联网级的机器人数据",必须通过操作密集型的数据采集来积累,但考虑到美国GDP约24万亿美元,如果机器人能贡献10%,这已是巨大数字,足以支撑数据采集投资;第三,跨实体(Cross-Embodiment)数据——确保模型和组织架构能够吸收来自多种不同机器人来源的数据。

为什么跨实体训练优于单平台优化

一个反直觉的发现是:即使在π公司内部盘点机器人时,他们震惊地发现没有两个完全相同的机器人平台。单机器人优化的支持者认为这更简单,但实践中并非如此——即使你优化的是同一台机器人,平台也会随时间漂移(硬件变更、软件更新),导致旧数据难以复用。而如果从多种机器人平台收集数据,模型将学到更抽象的能力——"如何控制一台机器人"而非"如何控制某台特定机器人"——从而能更好地适应略有不同的新机器人。

涌现属性与零样本能力

π的机器人大型策略模型正在展现出涌现属性(Emergent Property):模型能够零样本(Zero-Shot)完成从未见过数据的任务——这些任务去年还需要数百小时的数据采集。测试覆盖了多种不同"风味"的任务:需要精确性的任务、需要在场景中与多个物体进行推理的任务,都展现出了这一属性。这表明零样本能力不是在某个特定测试上的运气,而是一种更一般的涌现特性。

实际部署:与Weave合作折叠衣物

π与Weave(一家YC公司,正在将首批家用机器人出货)合作展示了实际部署成果。在真实的洗衣店中,机器人折叠各种各样未见过的衣物——衣物是可变形的,没有两件完全相同,且不在训练数据中。视频中可以看到路人从店外走过,证明这是真实环境。这个系统仅用大约两周时间就达到了可用水平,展示了模型能力与系统集成的协同效果。π的定位是专注于构建最佳模型,通过与部署机器人的公司深度合作确保模型解决真实世界的问题。

当前水平与规模化路径

创始人认为当前处于这样的阶段:如果任务允许机器人犯错,且可以设置人在机器人犯错时接管并提供纠正的混合自治(Mixed Autonomy)系统,那么已经有理由开始考虑规模化部署机器人。机器人是一个极其困难的系统问题——需要一切都能良好运转且相互配合才能得到好的结果。从折叠衣物到更广泛的家用任务,π和合作伙伴正在证明这一路径的可行性。