AI编码代理:面向硬件优化代码的未来

摘要
AI硬件领域长期以来被英伟达(Nvidia)所主导,其核心优势并非芯片本身的绝对性能,而是建立在CUDA(Compute Unified Device Architecture)生态中大量手工优化的代码之上。AMD等竞争硬件或定制芯片(Custom Silicon)往往并非因芯片性能不足而表现欠佳,而是因为编写系统级代码(如内核驱动程序,Kernel Drivers)极其困难,且从事此类工作的软件工程师严重不足。然而,随着深度求索R1(DeepSeek R1)和OpenAI o1/o3等推理模型(Reasoning Models)的出现,AI已具备生成可媲美甚至超越人类手写CUDA代码的硬件优化代码的潜力。YC呼吁更多创始人投身于AI生成内核(AI-Generated Kernels)方向,使更多硬件替代方案能够为AI所用——这不仅是性能问题,更是打破生态依赖的关键,有望悄然重塑整个硬件生态系统。
正文
CUDA生态垄断与硬件竞争困境
AI硬件市场目前仍被软件层面的瓶颈所制约。英伟达之所以占据主导地位,很大程度上归功于CUDA平台上积累的大量手工优化代码,这些代码被广泛应用于各类AI模型的训练与推理中。竞争性硬件——例如AMD的芯片或各类定制硅——往往并非因为芯片本身性能落后,而是因为缺乏同等水平的软件支持。编写内核驱动等系统级代码是一项高度专业且难度极大的工作,目前投入这一领域的软件工程师远远不够,导致替代硬件方案难以充分发挥其硬件潜力。
推理模型:生成硬件优化代码的新可能
然而,局面正在发生变化。以深度求索R1(DeepSeek R1)和OpenAI o1/o3为代表的推理模型展现出了全新的能力:它们能够生成经过硬件优化的代码,其质量有望匹敌甚至超越人类工程师手写的CUDA代码。这意味着,过去需要大量资深系统工程师数月手工调优的工作,未来可能由AI在更短时间内完成,从而大幅降低非英伟达硬件进入AI生态的软件门槛。
打破依赖,重塑硬件生态
YC明确表示,希望看到更多创始人专注于AI生成内核(AI-Generated Kernels)这一方向,让更多的硬件替代方案能够有效支撑AI工作负载。这不仅仅是一个性能优化的问题——它的深层意义在于打破整个行业对英伟达CUDA生态的依赖。在这一方向上深耕的创始人,有望悄然重塑AI硬件生态系统的格局。如果你正在这一领域构建工具,YC鼓励你积极申请。