机器人的GPT时刻已经到来

cover

摘要

本期对话Physical Intelligence（π）的联合创始人，深入探讨机器人基础模型（Robot Foundation Model）的最新进展和未来前景。π正在构建能够控制任何机器人执行任何任务的通用机器人模型，其核心方法论是跨实体（Cross-Embodiment）训练——从多种不同类型的机器人收集数据，让模型学到控制"机器人"的抽象能力而非特定硬件平台。关键洞察包括：即使同一型号的机器人也不完全相同（硬件偏移、软件更新），单一平台优化实际上比多平台更难扩展；模型正在涌现出零样本（Zero-Shot）能力，无需额外数据采集即可完成去年还需数百小时训练的任务。π与Weave和Ultra等YC公司的合作展示了实际部署成果：在真实洗衣店中折叠各种未见过的衣物，仅用约两周就达到了可用水平。创始人认为，当前处于"如果允许犯错并由人接管纠错"的混合自治（Mixed Autonomy）模式下，机器人部署已经可以开始规模化。

正文

Physical Intelligence的使命

Physical Intelligence（π）是一家专注于构建通用机器人基础模型的研究型公司。其目标不是优化某一种特定机器人，而是构建能够控制任何机器人执行任何任务的通用智能——一个机器人领域的"GPT时刻"。这一愿景的实现需要解决机器人领域特有的数据稀缺问题。

机器人数据问题的三个维度

创始人从三个角度分析了机器人数据问题：第一，数据采集（Data Capture）——大量机器人数据实际上正在产生，但从未有人有激励去捕获和格式化以供训练使用，π的OpenX项目正是为了解决这一问题；第二，与语言模型不同，不存在"互联网级的机器人数据"，必须通过操作密集型的数据采集来积累，但考虑到美国GDP约24万亿美元，如果机器人能贡献10%，这已是巨大数字，足以支撑数据采集投资；第三，跨实体（Cross-Embodiment）数据——确保模型和组织架构能够吸收来自多种不同机器人来源的数据。

为什么跨实体训练优于单平台优化

一个反直觉的发现是：即使在π公司内部盘点机器人时，他们震惊地发现没有两个完全相同的机器人平台。单机器人优化的支持者认为这更简单，但实践中并非如此——即使你优化的是同一台机器人，平台也会随时间漂移（硬件变更、软件更新），导致旧数据难以复用。而如果从多种机器人平台收集数据，模型将学到更抽象的能力——"如何控制一台机器人"而非"如何控制某台特定机器人"——从而能更好地适应略有不同的新机器人。

涌现属性与零样本能力

π的机器人大型策略模型正在展现出涌现属性（Emergent Property）：模型能够零样本（Zero-Shot）完成从未见过数据的任务——这些任务去年还需要数百小时的数据采集。测试覆盖了多种不同"风味"的任务：需要精确性的任务、需要在场景中与多个物体进行推理的任务，都展现出了这一属性。这表明零样本能力不是在某个特定测试上的运气，而是一种更一般的涌现特性。

实际部署：与Weave合作折叠衣物

π与Weave（一家YC公司，正在将首批家用机器人出货）合作展示了实际部署成果。在真实的洗衣店中，机器人折叠各种各样未见过的衣物——衣物是可变形的，没有两件完全相同，且不在训练数据中。视频中可以看到路人从店外走过，证明这是真实环境。这个系统仅用大约两周时间就达到了可用水平，展示了模型能力与系统集成的协同效果。π的定位是专注于构建最佳模型，通过与部署机器人的公司深度合作确保模型解决真实世界的问题。

当前水平与规模化路径

创始人认为当前处于这样的阶段：如果任务允许机器人犯错，且可以设置人在机器人犯错时接管并提供纠正的混合自治（Mixed Autonomy）系统，那么已经有理由开始考虑规模化部署机器人。机器人是一个极其困难的系统问题——需要一切都能良好运转且相互配合才能得到好的结果。从折叠衣物到更广泛的家用任务，π和合作伙伴正在证明这一路径的可行性。