大型空间模型

cover

摘要

当前AI系统在有限的空间任务——如基本空间关系判断或深度估计——上已有一定能力，但无法稳健地对空间操控、2D和3D特征、空间关系或心理旋转（Mental Rotation）等操作进行推理。这限制了AI理解或与物理世界交互的能力。本文提出了一种新的范式：构建大规模空间推理模型（Large Spatial Models），将几何（Geometry）和物理结构作为一等原语（First-class Primitives），而非叠加在语言之上的近似。这样的模型将使AI系统能够推理和设计真实世界的物体与环境，而成功构建这一能力的公司有望定义下一个与OpenAI或Anthropic同等规模的AI基础模型。

正文

当前系统的局限性

目前的AI系统可以处理一些有限的空间任务，如基本的空间关系判断或深度估计。然而，当面对更复杂的需求——空间操控（Spatial Manipulation）、2D和3D特征的协同理解、空间关系的推理操作（如心理旋转 Mental Rotation）——时，现有系统就显得力不从心。这种局限性直接制约了AI理解和交互物理世界的能力。

核心问题：空间作为附属品

当前模型之所以在空间推理上表现不佳，根本原因在于它们将空间信息作为语言模型之上的"附加层"来处理——空间关系被近似、被翻译成文本描述，而非被直接建模。这种"语言优先"的范式天然不适合处理本质上属于几何和物理结构的问题。

新范式：空间作为一等原语

构建大规模空间推理模型的关键范式转变在于：将几何和物理结构视为一等原语（First-class Primitives），而非叠加在语言之上的近似。这意味着模型从底层架构上就是为空间推理而设计的，空间关系、几何变换和物理约束是其原生能力，而非翻译后的衍生品。

潜在影响

这样的模型将使AI系统能够：稳健地推理真实世界的物体与环境；进行复杂的空间操控和设计；理解并操作2D和3D特征的融合表示；执行心理旋转等高级空间认知操作。

市场定位

成功构建大规模空间推理模型的公司，将定义下一个AI基础模型——其规模和影响力可与OpenAI或Anthropic比肩。这是一个基础模型级别（Foundation Model-scale）的创业机会。如果你正在这一领域工作，YC希望听到你的想法。