Agent 工作流的推理芯片：为智能体循环设计专用硅

cover

摘要

当前大多数 AI 芯片是为"提示输入-响应输出"（Prompt In, Response Out）的推理范式设计的，但 Agent（智能体）的工作方式截然不同。智能体在执行中不断循环：调用工具（Tool Calling）、分支（Branching）、回溯（Backtracking），并在数十个步骤间维护上下文（Context）。这构成了一个完全不同的硬件问题。当前 GPU 在这些工作负载上仅能达到 30%–40% 的峰值利用率（Peak Utilization），因为工作呈现突发性（Bursty）特征——在内存密集型的模型调用、IO 密集型的工具使用和 CPU 密集型的编排（Orchestration）之间反复跳转。这一利用率差距正是专用硅（Purpose-Built Silicon）的取胜之地。Nvidia 以 200 亿美元收购 Groq 正是预见了这一趋势，Google 也专门为推理构建了 TPU v7，但目前没有人专门为 Agent 循环本身做设计——包括模型间快速上下文切换（Context Switching）、原生推测解码（Speculative Decoding），以及为持久化 KV 缓存（KV Cache）而设计的内存架构。Groq 的真正洞见不在于芯片本身，而在于让芯片发挥作用的编译器（Compiler）。作者认为，下一个胜出者同样如此——如果你同时理解芯片架构（Chip Architecture）和智能体的实际执行方式，这正是两种经验都极为关键的罕见时刻。

正文

推理范式的根本差异

大多数 AI 芯片的设计假设是：推理意味着"提示输入，响应输出"（Prompt In, Response Out）。然而，智能体（Agent）并非如此工作。它们在执行过程中不断循环：调用工具（Calling Tools）、分支（Branching）、回溯（Backtracking），并在数十个步骤间持续维护上下文（Context）。这是一个完全不同的硬件问题。

GPU 利用率困境

当前 GPU 在智能体工作负载上仅能达到 30%–40% 的峰值利用率（Peak Utilization）。根本原因在于工作的突发性（Bursty）特征——任务在三种不同性质的计算之间反复跳转：

内存密集型（Memory Bound）：模型调用
IO 密集型（IO Bound）：工具使用
CPU 密集型（CPU Bound）：编排调度（Orchestration）

这种利用率差距，正是专用硅（Purpose-Built Silicon）的取胜之地。

行业动向：巨头已经出手

巨头已经感知到这一趋势：

Nvidia 以 200 亿美元收购 Groq：正是因为预见到了推理范式的转变。
Google 构建 TPU v7：专门为推理（Inference）设计。

然而，目前尚无人专门为 Agent 循环本身设计芯片。

为 Agent 循环设计的核心需求

真正面向智能体工作流的推理芯片需要解决以下关键问题：

快速上下文切换（Fast Context Switching）：在不同模型间快速切换。
原生推测解码（Native Speculative Decoding）：在芯片层面支持推测解码。
持久化 KV 缓存内存（Memory for KV Caches）：内存架构需支持跨整个执行图（Execution Graph）持久化的 KV 缓存。

编译器才是真正的护城河

Groq 的真正洞见不在于芯片本身，而在于让芯片发挥作用的编译器（Compiler）。作者认为，下一个胜出者同样如此——芯片与编译器的协同设计才是关键。

罕见的双重经验交汇

如果你同时理解芯片架构（Chip Architecture）和智能体的实际执行方式，这是一个两种经验都极为关键的罕见时刻。如果你正在为智能体 AI（Agentic AI）构建推理芯片（Inference Silicon），Y Combinator 希望听到你的声音。