Apple Vision Pro:未来的创业平台?

摘要
本期《光锥》(The Light Cone)播客深入探讨了 Apple Vision Pro 对创业者意味着什么。Y Combinator 合伙人 Diana——一位在增强现实(AR, Augmented Reality)和虚拟现实(VR, Virtual Reality)领域深耕十年的专家,曾在 YC 孵化 AR SDK 初创公司 Asher Reality(后被 Niantic 收购,其代码运行在数百万 Pokémon GO 玩家的设备上)——从技术、生态和创业视角全面拆解了 Vision Pro。节目覆盖了光学方案之争(光学透视 vs. 视频透视)、硬件架构(M2 + R1 双芯片设计,10+ 摄像头与激光雷达)、眼动追踪与注视点渲染(Foveated Rendering)、Apple 与 Meta 在开发者生态上的根本差异,以及历史上平台变革的规律——iPhone 从发布到催生 Instacart、DoorDash、Uber 等伟大公司历时约五年。Vision Pro 是 iPhone 时刻还是 Newton 时刻?创始人应在何时入局?Y Combinator 的答案出人意料地务实:他们寻找的是那种非理性地被 VR/AR 所吸引、在业余时间就忍不住开发 VR 应用的创始人,而非跟风炒作的人。
空间计算的前世今生
Diana 分享了自己的创业经历:她通过 Y Combinator 创办了 Asher Reality,打造跨平台增强现实 SDK,让游戏开发者编写一次代码即可在 iOS、Android 及各种 AR 设备上运行多人 AR 体验。然而,AR 普及所需的时间远超预期,最终 Asher Reality 被 Niantic(Pokémon GO 的开发商)收购。Diana 随后在 Niantic 负责 AR 平台,将 AR SDK 集成到大量游戏中——数百万玩家正在运行她编写的代码。这段经历让她深刻体会到:空间计算的梦想由来已久,但真正落地需要的不仅是技术,还有硬件的成熟。
计算的进化与 AR 的技术挑战
回顾计算历史,构建 AR 和 VR 头戴设备的尝试几乎与计算机本身一样古老。早在 1960 年代,Ivan Sutherland 就创造了最早的头戴显示设备。然而,与平板和手机不同,AR 头戴设备的制造极为困难。核心挑战在于光学方案:人眼的视野(FOV, Field of View)达到 210°,而且人眼具有无穷远的对焦能力——既能看清近处,也能极目远眺。要制造一套能覆盖如此视野和焦距范围的显示系统,其难度远非摩尔定律可以解决,而是需要突破新的物理学和光子学原理。
光学透视 vs. 视频透视:两条技术路线
微软 HoloLens 和 Magic Leap 采用了光学透视(Optical See-Through)方案:用户直接看到真实世界,数字内容叠加在视线中。然而,这种方案的视野极小,且光学问题无法通过单纯增加算力或像素来解决——它涉及新的物理与光子学原理。Apple Vision Pro 和 Meta Quest 3/Pro 则采用视频透视(Video Pass-Through)方案:真实世界通过摄像头采集为全数字视频画面,用户看到的一切(包括身边的人)本质上都是像素。视频透视方案大幅降低了光学层面的技术难度,使 Apple 能凭借其在显示技术上的世界级实力来弥补不足。
硬件架构:M2 + R1 与传感器融合
Vision Pro 是 Apple 多年技术积累的集大成者。它搭载了 M2 芯片(与 MacBook Pro 同款,处理常规计算负载)和 R1 协处理器——后者是专为处理传感器数据而设计的定制芯片,拥有极高带宽数据通道,能实时处理来自 10+ 摄像头、激光雷达(LiDAR)、深度相机(TrueDepth Camera)和红外眼动追踪摄像头的数据。Diana 推测 R1 上甚至可能运行着实时操作系统(RTOS, Real-Time Operating System)。这与自动驾驶汽车的技术架构如出一辙:自动驾驶汽车用激光雷达、雷达和摄像头来定位,空间计算头戴设备同样用 SLAM(Simultaneous Localization and Mapping,同步定位与建图)技术来确定用户在三维世界中的位置。区别在于,自动驾驶汽车可以在后备箱放置服务器级 GPU,而头戴设备必须在极小体积内解决散热与功耗问题。
眼动追踪与注视点渲染
Apple 在 Vision Pro 中投入巨资实现眼动追踪(Eye Tracking),其目的不仅是 UX 交互,还关乎渲染效率。注视点渲染(Foveated Rendering)技术使设备在你注视的区域渲染高像素密度画面,而在周边视野区域降低分辨率,从而在小体积内控制功耗和散热。用户在视觉焦点处获得高保真画面,但可以察觉到周边视野略有模糊——这正是为了平衡性能而做的取舍。
Apple 与 Meta 的战略差异
产品定位:生产力 vs. 游戏
Vision Pro 的核心定位是生产力工具。搭载与 MacBook Air 同款的 M2 芯片,配合键盘即可完成全天工作——这对忙碌的专业人士而言是日常可用的设备。而 Meta 的产品线则深植于游戏社区和 VR 体验。Apple 不提供控制器,这一点在 VR 社区引发争议,但也凸显了其全盘押注生产力的决心。Diana 认为,AR 的终极愿景是让人"不知不觉"地使用它——解决日常事务,替代所有屏幕。如果做得好,Vision Pro 瞄准的是全球所有屏幕的市值。
开发者生态:Unity/Unreal vs. visionOS
Meta 源自游戏基因,对 Unity 和 Unreal 游戏引擎支持良好——这些引擎擅长构建受限的三维游戏世界。但真实世界是无限的,游戏引擎有时并不适配空间计算的需求。例如,在 Meta 平台上打开一个 PDF 文件需要大量代码,而在 visionOS 上只需几行。Apple 的 SDK 更适合构建生产力与日常应用。
人机交互指南(HIG)的启示
Apple 曾为 iPhone 发布人机交互指南(HIG, Human Interface Guidelines),定义了触控、手势和信息层级的交互范式,培养了一代设计师和开发者。如今,Vision Pro 也拥有自己的 HIG,核心围绕眼动追踪、深度与空间信息传达展开。正如电容触控(Capacitive Touch)之于 iPhone,眼动追踪之于 Vision Pro 可能正是那个解锁全新交互范式的关键。
iPhone 时刻还是 Newton 时刻?
iPhone 的启示:从发布到伟大公司需要时间
iPhone 于 2007 年发布时并没有 App Store(约一年后才上线),首批流行的应用多是"放屁应用"和"我是富豪"这类噱头产品。真正伟大的公司——Instacart(2012)、Coinbase(移动端驱动)、DoorDash(2013)、Uber——都是在 iPhone 发布约五年后才创立的。原因在于:这些移动劳动力公司只有在社会上 70-80% 的人拥有设备时才可能诞生,而那是移动互联网连接和应用生态首次达到足够稳定和统一的时刻。
Vision Pro 的 Tesla Roadster 类比
Vision Pro 目前的处境更像 Tesla Roadster:为愿意支付高昂价格的核心用户打造的高端设备。如果 Apple 能像 Tesla 从 Roadster 迭代到 Model 3 那样,推出更亲民的后续产品,则生态有望繁荣;但如果无法实现价格下探,则可能止步于小众市场。关键在于是否存在"鸡与蛋"的困局——开发者需要足够多的用户才有动力构建应用,而用户需要足够多的应用才有理由购买设备。
平台变革的历史规律
Facebook 购买 Oculus 的动机,恰恰是 Mark Zuckerberg 对平台变革的恐惧——Facebook 曾险些被 Instagram 取代,而 Instagram 正是移动互联网平台变革的产物。历史一再证明,平台变革会重塑竞争格局。Y Combinator 在历次平台变革中表现出了相当准确的判断力,其方法并非对每种技术持有强烈论点,而是从第一性原理出发审视每个应用,与创始人对话,判断想法是否站得住脚——从而区分"跟风炒作"和"真正有意义的创新"。
给创始人的建议
什么样的创始人应该入局?
Y Combinator 寻找的不是跟风者,而是那种"非理性地被吸引"到 VR/AR 领域的人——你在业余时间就忍不住开发 VR 应用,你对这个领域有真正的热情和长期承诺。空间计算技术挑战巨大,当前开发优秀应用极为困难,但这恰恰能吸引对的创始人。长期坚持会让你在时机到来时积累世界级的专业能力。
应用方向的思考
目前空间计算应用仍处于尴尬的早期阶段——即便是 Apple 和 Meta 的 SDK,大量应用仍是扁平的 2D 界面。我们尚未找到真正发挥 360° 视野、深度交互和空间数据呈现优势的杀手级应用范式。可能的方向包括:
- 金融交易员:用虚拟屏幕替代 20 块物理显示器,以眼动和手势在海量信息中快速定位
- 工程与建筑:三维空间中的设计与协作
- 高信息密度工作流:建筑、施工、工程领域的可视化
这些高价值的专业场景可能是空间计算最早实现商业闭环的领域,用户愿意为提升效率支付每月数千美元的订阅费用。
何时入局?
Diana 认为,创始人需要有坚定的信念,愿意在这个空间长期投入。当创始人全力以赴时,他们会变得势不可挡。在等待市场成熟的漫长过程中,持续深耕所积累的专业能力,将在拐点到来时形成不可替代的竞争优势。正如 Gary 所言:Y Combinator 永远不会劝阻创始人去做他们认为酷的事情。