推理时代：测试时计算世界中的 AI 推理基础设施

cover

摘要

本视频由 Y Combinator 发布，聚焦于测试时计算 (Test-Time Compute) 时代下 AI 推理基础设施 (Inference Infrastructure) 面临的挑战与创业机遇。随着 DeepSeek R1、OpenAI o1/o3 等推理模型 (Reasoning Models) 的兴起，AI 计算的重心正从预训练 (Pre-training) 阶段向推理阶段转移。通过 API 调用这些复杂推理模型的频率将增长十倍甚至百倍，AI 应用的基础设施成本将成为真正的痛点。Y Combinator 认为，这为创业公司创造了重塑技术栈的机会——包括推理层 (Inference Layer) 的更优软件、GPU 工作负载 (GPU Workloads) 的低成本处理方案，以及让应用在不烧钱的前提下实现规模化的优化方案。这类"不性感但至关重要"的问题，往往是孕育巨大商业机会的温床。

正文

从预训练到推理：计算重心的历史性转移

直到最近，AI 领域的计算投入主要集中于预训练基础模型 (Foundation Models)。但 DeepSeek R1 和 OpenAI o1/o3 的发布标志着一种新的规模化趋势 (Scaling Trend) 的确立：推理阶段所需的计算量将远超以往。

推理成本：AI 应用的真正挑战

随着通过 API 运行复杂推理模型的使用量增长十倍乃至百倍，AI 应用的基础设施成本将成为一个不容忽视的现实问题。当前的应用开发者正面临推理开销急剧攀升的压力——每一次 API 调用背后，都是模型在推理时生成冗长思维链 (Chain of Thought) 所消耗的大量 GPU 算力。

重塑技术栈：创业机会的涌现

正是在这一痛点之上，新的创业空间正在打开。Y Combinator 指出，整个推理技术栈都有重建的空间：推理层需要更好的软件来优化请求调度与模型服务；GPU 工作负载管理需要更低成本的处理方式；还需要各类优化手段，让 AI 应用在不亏损的前提下实现规模化扩展。这类问题虽然不如构建前沿模型那样引人注目，却是支撑整个 AI 产业运转的关键底座，往往也是催生大公司的领域。Y Combinator 呼吁正在解决这一问题的团队积极申请。