推理时代:测试时计算世界中的 AI 推理基础设施

摘要
本视频由 Y Combinator 发布,聚焦于测试时计算 (Test-Time Compute) 时代下 AI 推理基础设施 (Inference Infrastructure) 面临的挑战与创业机遇。随着 DeepSeek R1、OpenAI o1/o3 等推理模型 (Reasoning Models) 的兴起,AI 计算的重心正从预训练 (Pre-training) 阶段向推理阶段转移。通过 API 调用这些复杂推理模型的频率将增长十倍甚至百倍,AI 应用的基础设施成本将成为真正的痛点。Y Combinator 认为,这为创业公司创造了重塑技术栈的机会——包括推理层 (Inference Layer) 的更优软件、GPU 工作负载 (GPU Workloads) 的低成本处理方案,以及让应用在不烧钱的前提下实现规模化的优化方案。这类"不性感但至关重要"的问题,往往是孕育巨大商业机会的温床。
正文
从预训练到推理:计算重心的历史性转移
直到最近,AI 领域的计算投入主要集中于预训练基础模型 (Foundation Models)。但 DeepSeek R1 和 OpenAI o1/o3 的发布标志着一种新的规模化趋势 (Scaling Trend) 的确立:推理阶段所需的计算量将远超以往。
推理成本:AI 应用的真正挑战
随着通过 API 运行复杂推理模型的使用量增长十倍乃至百倍,AI 应用的基础设施成本将成为一个不容忽视的现实问题。当前的应用开发者正面临推理开销急剧攀升的压力——每一次 API 调用背后,都是模型在推理时生成冗长思维链 (Chain of Thought) 所消耗的大量 GPU 算力。
重塑技术栈:创业机会的涌现
正是在这一痛点之上,新的创业空间正在打开。Y Combinator 指出,整个推理技术栈都有重建的空间:推理层需要更好的软件来优化请求调度与模型服务;GPU 工作负载管理需要更低成本的处理方式;还需要各类优化手段,让 AI 应用在不亏损的前提下实现规模化扩展。这类问题虽然不如构建前沿模型那样引人注目,却是支撑整个 AI 产业运转的关键底座,往往也是催生大公司的领域。Y Combinator 呼吁正在解决这一问题的团队积极申请。