Agent 工作流的推理芯片:为智能体循环设计专用硅

摘要
当前大多数 AI 芯片是为"提示输入-响应输出"(Prompt In, Response Out)的推理范式设计的,但 Agent(智能体)的工作方式截然不同。智能体在执行中不断循环:调用工具(Tool Calling)、分支(Branching)、回溯(Backtracking),并在数十个步骤间维护上下文(Context)。这构成了一个完全不同的硬件问题。当前 GPU 在这些工作负载上仅能达到 30%–40% 的峰值利用率(Peak Utilization),因为工作呈现突发性(Bursty)特征——在内存密集型的模型调用、IO 密集型的工具使用和 CPU 密集型的编排(Orchestration)之间反复跳转。这一利用率差距正是专用硅(Purpose-Built Silicon)的取胜之地。Nvidia 以 200 亿美元收购 Groq 正是预见了这一趋势,Google 也专门为推理构建了 TPU v7,但目前没有人专门为 Agent 循环本身做设计——包括模型间快速上下文切换(Context Switching)、原生推测解码(Speculative Decoding),以及为持久化 KV 缓存(KV Cache)而设计的内存架构。Groq 的真正洞见不在于芯片本身,而在于让芯片发挥作用的编译器(Compiler)。作者认为,下一个胜出者同样如此——如果你同时理解芯片架构(Chip Architecture)和智能体的实际执行方式,这正是两种经验都极为关键的罕见时刻。
正文
推理范式的根本差异
大多数 AI 芯片的设计假设是:推理意味着"提示输入,响应输出"(Prompt In, Response Out)。然而,智能体(Agent)并非如此工作。它们在执行过程中不断循环:调用工具(Calling Tools)、分支(Branching)、回溯(Backtracking),并在数十个步骤间持续维护上下文(Context)。这是一个完全不同的硬件问题。
GPU 利用率困境
当前 GPU 在智能体工作负载上仅能达到 30%–40% 的峰值利用率(Peak Utilization)。根本原因在于工作的突发性(Bursty)特征——任务在三种不同性质的计算之间反复跳转:
- 内存密集型(Memory Bound):模型调用
- IO 密集型(IO Bound):工具使用
- CPU 密集型(CPU Bound):编排调度(Orchestration)
这种利用率差距,正是专用硅(Purpose-Built Silicon)的取胜之地。
行业动向:巨头已经出手
巨头已经感知到这一趋势:
- Nvidia 以 200 亿美元收购 Groq:正是因为预见到了推理范式的转变。
- Google 构建 TPU v7:专门为推理(Inference)设计。
然而,目前尚无人专门为 Agent 循环本身设计芯片。
为 Agent 循环设计的核心需求
真正面向智能体工作流的推理芯片需要解决以下关键问题:
- 快速上下文切换(Fast Context Switching):在不同模型间快速切换。
- 原生推测解码(Native Speculative Decoding):在芯片层面支持推测解码。
- 持久化 KV 缓存内存(Memory for KV Caches):内存架构需支持跨整个执行图(Execution Graph)持久化的 KV 缓存。
编译器才是真正的护城河
Groq 的真正洞见不在于芯片本身,而在于让芯片发挥作用的编译器(Compiler)。作者认为,下一个胜出者同样如此——芯片与编译器的协同设计才是关键。
罕见的双重经验交汇
如果你同时理解芯片架构(Chip Architecture)和智能体的实际执行方式,这是一个两种经验都极为关键的罕见时刻。如果你正在为智能体 AI(Agentic AI)构建推理芯片(Inference Silicon),Y Combinator 希望听到你的声音。