大型空间模型

cover

摘要

当前AI系统在有限的空间任务——如基本空间关系判断或深度估计——上已有一定能力,但无法稳健地对空间操控、2D和3D特征、空间关系或心理旋转(Mental Rotation)等操作进行推理。这限制了AI理解或与物理世界交互的能力。本文提出了一种新的范式:构建大规模空间推理模型(Large Spatial Models),将几何(Geometry)和物理结构作为一等原语(First-class Primitives),而非叠加在语言之上的近似。这样的模型将使AI系统能够推理和设计真实世界的物体与环境,而成功构建这一能力的公司有望定义下一个与OpenAI或Anthropic同等规模的AI基础模型。

正文

当前系统的局限性

目前的AI系统可以处理一些有限的空间任务,如基本的空间关系判断或深度估计。然而,当面对更复杂的需求——空间操控(Spatial Manipulation)、2D和3D特征的协同理解、空间关系的推理操作(如心理旋转 Mental Rotation)——时,现有系统就显得力不从心。这种局限性直接制约了AI理解和交互物理世界的能力。

核心问题:空间作为附属品

当前模型之所以在空间推理上表现不佳,根本原因在于它们将空间信息作为语言模型之上的"附加层"来处理——空间关系被近似、被翻译成文本描述,而非被直接建模。这种"语言优先"的范式天然不适合处理本质上属于几何和物理结构的问题。

新范式:空间作为一等原语

构建大规模空间推理模型的关键范式转变在于:将几何和物理结构视为一等原语(First-class Primitives),而非叠加在语言之上的近似。这意味着模型从底层架构上就是为空间推理而设计的,空间关系、几何变换和物理约束是其原生能力,而非翻译后的衍生品。

潜在影响

这样的模型将使AI系统能够:稳健地推理真实世界的物体与环境;进行复杂的空间操控和设计;理解并操作2D和3D特征的融合表示;执行心理旋转等高级空间认知操作。

市场定位

成功构建大规模空间推理模型的公司,将定义下一个AI基础模型——其规模和影响力可与OpenAI或Anthropic比肩。这是一个基础模型级别(Foundation Model-scale)的创业机会。如果你正在这一领域工作,YC希望听到你的想法。