AI编码代理：面向硬件优化代码的未来

cover

摘要

AI硬件领域长期以来被英伟达（Nvidia）所主导，其核心优势并非芯片本身的绝对性能，而是建立在CUDA（Compute Unified Device Architecture）生态中大量手工优化的代码之上。AMD等竞争硬件或定制芯片（Custom Silicon）往往并非因芯片性能不足而表现欠佳，而是因为编写系统级代码（如内核驱动程序，Kernel Drivers）极其困难，且从事此类工作的软件工程师严重不足。然而，随着深度求索R1（DeepSeek R1）和OpenAI o1/o3等推理模型（Reasoning Models）的出现，AI已具备生成可媲美甚至超越人类手写CUDA代码的硬件优化代码的潜力。YC呼吁更多创始人投身于AI生成内核（AI-Generated Kernels）方向，使更多硬件替代方案能够为AI所用——这不仅是性能问题，更是打破生态依赖的关键，有望悄然重塑整个硬件生态系统。

正文

CUDA生态垄断与硬件竞争困境

AI硬件市场目前仍被软件层面的瓶颈所制约。英伟达之所以占据主导地位，很大程度上归功于CUDA平台上积累的大量手工优化代码，这些代码被广泛应用于各类AI模型的训练与推理中。竞争性硬件——例如AMD的芯片或各类定制硅——往往并非因为芯片本身性能落后，而是因为缺乏同等水平的软件支持。编写内核驱动等系统级代码是一项高度专业且难度极大的工作，目前投入这一领域的软件工程师远远不够，导致替代硬件方案难以充分发挥其硬件潜力。

推理模型：生成硬件优化代码的新可能

然而，局面正在发生变化。以深度求索R1（DeepSeek R1）和OpenAI o1/o3为代表的推理模型展现出了全新的能力：它们能够生成经过硬件优化的代码，其质量有望匹敌甚至超越人类工程师手写的CUDA代码。这意味着，过去需要大量资深系统工程师数月手工调优的工作，未来可能由AI在更短时间内完成，从而大幅降低非英伟达硬件进入AI生态的软件门槛。

打破依赖，重塑硬件生态

YC明确表示，希望看到更多创始人专注于AI生成内核（AI-Generated Kernels）这一方向，让更多的硬件替代方案能够有效支撑AI工作负载。这不仅仅是一个性能优化的问题——它的深层意义在于打破整个行业对英伟达CUDA生态的依赖。在这一方向上深耕的创始人，有望悄然重塑AI硬件生态系统的格局。如果你正在这一领域构建工具，YC鼓励你积极申请。