Agent 工作流的推理芯片:为智能体循环设计专用硅

cover

摘要

当前大多数 AI 芯片是为"提示输入-响应输出"(Prompt In, Response Out)的推理范式设计的,但 Agent(智能体)的工作方式截然不同。智能体在执行中不断循环:调用工具(Tool Calling)、分支(Branching)、回溯(Backtracking),并在数十个步骤间维护上下文(Context)。这构成了一个完全不同的硬件问题。当前 GPU 在这些工作负载上仅能达到 30%–40% 的峰值利用率(Peak Utilization),因为工作呈现突发性(Bursty)特征——在内存密集型的模型调用、IO 密集型的工具使用和 CPU 密集型的编排(Orchestration)之间反复跳转。这一利用率差距正是专用硅(Purpose-Built Silicon)的取胜之地。Nvidia 以 200 亿美元收购 Groq 正是预见了这一趋势,Google 也专门为推理构建了 TPU v7,但目前没有人专门为 Agent 循环本身做设计——包括模型间快速上下文切换(Context Switching)、原生推测解码(Speculative Decoding),以及为持久化 KV 缓存(KV Cache)而设计的内存架构。Groq 的真正洞见不在于芯片本身,而在于让芯片发挥作用的编译器(Compiler)。作者认为,下一个胜出者同样如此——如果你同时理解芯片架构(Chip Architecture)和智能体的实际执行方式,这正是两种经验都极为关键的罕见时刻。

正文

推理范式的根本差异

大多数 AI 芯片的设计假设是:推理意味着"提示输入,响应输出"(Prompt In, Response Out)。然而,智能体(Agent)并非如此工作。它们在执行过程中不断循环:调用工具(Calling Tools)、分支(Branching)、回溯(Backtracking),并在数十个步骤间持续维护上下文(Context)。这是一个完全不同的硬件问题。

GPU 利用率困境

当前 GPU 在智能体工作负载上仅能达到 30%–40% 的峰值利用率(Peak Utilization)。根本原因在于工作的突发性(Bursty)特征——任务在三种不同性质的计算之间反复跳转:

这种利用率差距,正是专用硅(Purpose-Built Silicon)的取胜之地。

行业动向:巨头已经出手

巨头已经感知到这一趋势:

然而,目前尚无人专门为 Agent 循环本身设计芯片。

为 Agent 循环设计的核心需求

真正面向智能体工作流的推理芯片需要解决以下关键问题:

编译器才是真正的护城河

Groq 的真正洞见不在于芯片本身,而在于让芯片发挥作用的编译器(Compiler)。作者认为,下一个胜出者同样如此——芯片与编译器的协同设计才是关键。

罕见的双重经验交汇

如果你同时理解芯片架构(Chip Architecture)和智能体的实际执行方式,这是一个两种经验都极为关键的罕见时刻。如果你正在为智能体 AI(Agentic AI)构建推理芯片(Inference Silicon),Y Combinator 希望听到你的声音。