DeepSeek 背后的工程突破 | YC 解码

摘要
中国 AI 公司 DeepSeek 近期发布的 R1 推理模型 (Reasoning Model) 引发了社交媒体的恐慌和股市的剧烈震荡,英伟达 (Nvidia) 单日市值蒸发近 6000 亿美元。然而,对于一直关注 AI 发展的人来说,DeepSeek 的 R1 并非凭空出现——该公司数月来一直在持续发表研究论文并开放模型权重 (Model Weights),其路径与 Meta 的 LLaMA 模型类似,与 OpenAI、Google DeepMind 和 Anthropic 等采用封闭权重 (Closed Weights) 的实验室形成鲜明对比。本文深入解析了 DeepSeek V3 和 R1 背后的核心工程创新:FP8 低精度训练、模型浮点运算利用率 (MFU) 优化、混合专家架构 (MoE)、多头潜在注意力机制 (MLA)、多 Token 预测 (MTP)、以及纯强化学习 (Pure RL) 训练推理能力的突破。这些创新共同证明了 AI 前沿领域仍有新玩家的空间,尤其是通过重建技术栈、优化 GPU 工作负载和开发 AI 生成内核来降低智能成本——这对消费者和企业级 AI 应用而言是最好的消息。
正文
DeepSeek 的两个关键模型:V3 与 R1
首先需要区分 DeepSeek 的两个重要模型:DeepSeek V3 和 DeepSeek R1。DeepSeek V3 于 2024 年 12 月发布,是一个通用基础模型 (Base Model),其性能可与 OpenAI 的 GPT-4o、Anthropic 的 Claude 3.5 Sonnet 和 Google 的 Gemini 1.5 等顶级基础模型相媲美。DeepSeek R1 则于 2025 年 1 月底发布,是在 V3 基础上构建的推理模型 (Reasoning Model)。换言之,DeepSeek 在 V3 之上应用了多种算法改进来优化其推理能力,最终产出了 R1——一个在特定复杂推理基准测试 (Benchmarks) 上与 OpenAI o1 和 Google Flash 2.0 性能相当的模型。
创新的根基:论文积淀
然而,R1 令人瞩目的性能背后,许多算法创新实际上早已在 2024 年 12 月的 V3 论文甚至更早的文献中有所讨论:包括 2024 年 5 月发表的 DeepSeek V2 论文,以及 2024 年 2 月发布的 DeepSeek Math 论文。V3 将这些创新进行了系统整合,而这些创新的核心设计目标是计算与训练效率 (Compute and Training Efficiency)。
FP8 精度训练与累积修正
DeepSeek 优化效率的一个关键手段是通过 FP8 浮点格式 (8-bit Floating Point Format) 进行原生训练,而非通常的 16 位或 32 位格式。这一思路并非首创——许多实验室也在进行类似尝试——但对于在不牺牲性能的前提下实现大规模内存节省 (Memory Savings) 至关重要。一个关键的增强是他们的 FP8 累积修正 (FP8 Accumulation Fix):定期将计算结果合并回更高精度的 FP32 累加器 (FP32 Accumulator),以防止微小的数值误差 (Numerical Errors) 不断累积。这一方法的结果是:在数千个 GPU 上实现了远更高效的训练,在降低成本的同时保持了模型质量。
效率为何重要:硬件约束与出口管制
这些效率优化为何如此关键?受限于硬件条件以及美国对中国的 GPU 出口管制 (US Export Controls),DeepSeek 必须找到一种方式,从现有的 GPU 集群中获取更多的训练能力和带宽。在 AI 实验室中,这些负责数值计算和矩阵乘法 (Matrix Multiplication) 来训练模型的 GPU,实际上大部分时间都处于空闲状态。在 FP8 精度下,模型浮点运算利用率 (Model Flops Utilization, MFU) 通常只有约 35%,意味着 GPU 仅在峰值潜力的约三分之一时间内被实际利用,其余时间都在等待数据在缓存 (Caches) 或其他 GPU 之间传输。
英伟达的整合优势
这也解释了英伟达的核心优势——它不仅仅关乎 GPU 本身,更在于一个构建了十余年的整合解决方案 (Integrated Solution),涵盖了 InfiniBand 网络互连、CUDA 软件生态和开发者体验 (Developer Experience)。本质上,英伟达提供了一个深度整合的系统,使 AI 研究人员能够将 GPU 集群作为一个分布式系统 (Distributed System) 来编程——这也正是 Jensen(黄仁勋)所描述的"一个巨型 GPU"。
混合专家架构 (MoE)
DeepSeek 充分利用硬件的另一个巧妙方式是其对混合专家架构 (Mixture of Experts, MoE) 的独特实现。DeepSeek V3 拥有 6710 亿个模型参数 (Parameters),但在每次 Token 预测时仅激活 370 亿个参数。作为对比,最大最强的 LLaMA 3 模型不使用 MoE 架构,因此每次 Token 预测都需要激活全部 4050 亿个参数。换言之,V3 在每次前向传播 (Forward Pass) 中激活的参数量是 LLaMA 3 的约 1/11,节省了海量计算资源。混合专家架构并非新概念,但高效训练该架构的模型一直具有挑战性。DeepSeek 引入了稳定性能并提高 GPU 利用率的新技术。
多头潜在注意力机制 (MLA)
此外,为克服关键性能瓶颈,V3 采用了多头潜在注意力机制 (Multi-head Latent Attention, MLA),这是 DeepSeek 在 2024 年 5 月的 V2 论文中首次提出的。MLA 旨在解决 KV 缓存 (KV Cache) 存储限制这一大型模型中带宽开销 (Bandwidth Overhead) 的最大来源之一。MLA 不存储完整的键 (Key) 和值 (Value) 矩阵,而是将它们压缩为一个潜在表示 (Latent Representation),仅在需要时才进行重建。这一技术帮助 V2 模型将 KV 缓存大小减少了 93.3%,并将最大生成吞吐量 (Generation Throughput) 提升至 5.76 倍。
多 Token 预测 (MTP)
最后,与仅预测下一个 Token 的传统模型不同,V3 采用了多 Token 预测 (Multi-Token Prediction, MTP) 技术。MTP 使 V3 能够在每一步预测多个未来的 Token,从而密集化训练信号 (Training Signals),为每一步提供更多反馈,实现更好的数据效率 (Data Efficiency) 和更快的学习速度。它还改善了表示规划 (Representation Planning),使模型能够提前规划序列,在推理 (Inference) 时产生更平滑、更连贯的输出。MTP 模块还可以被重新用于推测性解码 (Speculative Decoding),减少顺序处理步骤并显著加速生成过程。
V3:市场顶级基础模型
综合以上所有创新,V3 成为市场上最令人瞩目的基础模型之一,而且它已经发布了一段时间。然而,真正掀起波澜的是 DeepSeek R1 推理模型的发布。
推理模型的崛起
大多数大语言模型 (LLM) 可以通过提示"逐步思考"来提升表现,但推理模型 (Reasoning Models) 的独特之处在于:它们经过专门训练,能够分解复杂问题并以段落为单位进行深入思考。2024 年 9 月,OpenAI 通过 o1 展示了这一新方法的威力,在数学、编程和科学基准测试中取得了最先进 (State-of-the-Art) 的成果。DeepSeek 的 R1 采用了类似的方法,并且公开了其"秘密配方"。
强化学习驱动的推理能力
OpenAI 和 DeepSeek 都通过强化学习 (Reinforcement Learning, RL) 取得了令人瞩目的成果——这是一种基于反馈和奖励信号 (Reward Signals) 来塑造 LLM 行为的技术。现代 LLM 通常使用人类反馈强化学习 (RLHF, Reinforcement Learning from Human Feedback) 或 AI 反馈强化学习 (RLAIF, Reinforcement Learning from AI Feedback) 的某种变体来改进模型的有用性和对齐 (Alignment)。但推理模型将强化学习专门应用于逐步思考复杂问题的任务。
DeepSeek 的 RL 训练方法
那么 DeepSeek 是如何应用 RL 来获得推理模型的呢?从高层次来看,他们收集了一批具有可验证输出的问题(尤其是数学和编程领域),然后设计了一个训练流水线 (Training Pipeline):让模型先思考一段时间,然后输出正确答案。但他们不给模型提供任何关于"如何思考"的外部示例——无论是来自人类还是 AI。评分过程极其简单:DeepSeek 使用简单规则来评估模型的最终输出,关注准确性和格式,而非使用复杂的 AI 提供细粒度反馈 (Fine-grained Feedback)。他们通过 2024 年 2 月发表的一种新技术——群组相对策略优化 (Group Relative Policy Optimization, GRPO)——用这些输出分数来更新模型。
涌现的推理能力与"顿悟时刻"
令人瞩目的是,仅凭这一过程,DeepSeek 在数千个 RL 步骤中观察到推理能力的涌现 (Emergence)。模型自行学会了扩展思维链 (Chain of Thought) 等技能,甚至经历了一个"顿悟时刻" (Aha Moment)——它识别出自己的错误并回溯 (Backtrack) 修正推理过程。这个模型就是 R1-Zero,最早实现顶级成果的纯强化学习大型模型之一。
纯 RL 的历史传承
纯强化学习一直是西方研究实验室的长期研究课题。DeepMind 的 AlphaGo 在 2016 年通过模拟数千局自我对弈 (Self-play) 击败了世界顶级围棋选手李世石 (Lee Sedol)。2019 年,OpenAI 也取得了显著成就:使用强化学习训练机械手解决魔方,并在竞技 Dota 2 中击败了顶级人类团队。
R1-Zero 的可读性问题与 R1 的冷启动
然而,由于不受人类示例约束,R1-Zero 的思考步骤可读性很差,会在英语和中文之间随机切换。为此,DeepSeek 引入了一个冷启动阶段 (Cold Start Phase):在 RL 之前先对结构化推理示例进行微调 (Fine-tuning),最终得到了 R1。这消除了语言混合问题,使输出更加清晰易懂。
成果与竞争格局
R1 的成果令人印象深刻——在某些数学和编程基准测试上与 o1 性能相当。但创新步伐正在加速:R1 发布仅两周后,OpenAI 就发布了 o3-mini,在关键基准测试上超越了 R1 和 o1。
炒作周期的成因
如果 R1 并非凭空出现,那如何解释其引发的热议?一个解释是 DeepSeek 模型的极高可及性 (Accessibility):其模型通过网站和应用免费开放访问,可以免费下载、本地运行和定制;同时,由于所有效率改进,它能以远低于其他推理模型的价格提供接近最先进的性能。
550 万美元训练成本的误解
另一个解释是,大量炒作实际上并非源于上文描述的算法改进,而是对 V3 所谓"550 万美元训练成本"的误解。这里有一些重要的细节:550 万美元这一数字仅指 V3 最终训练运行 (Final Training Run) 的成本,不包括 R1 的任何训练成本,也不包括相关的研发 (R&D) 或硬件运营费用——后者据推测可能高达数亿美元。考虑到此处所展示的极端算法优化,550 万美元的训练运行成本实际上是完全合理的,而且值得注意的是,这项工作是可复现的 (Reproducible):加州大学伯克利分校的一个实验室近期将 R1-Zero 的关键技术应用于一个更小的模型,仅花费 30 美元就产生了复杂的推理能力。
核心启示
DeepSeek 真正证明的是:AI 前沿领域仍有新玩家的空间,特别是通过重建技术栈 (Rebuilding the Stack)、优化 GPU 工作负载 (GPU Workloads)、改进推理层软件 (Inference Layer Software) 和开发工具 (Tooling),以及开发 AI 生成的内核 (AI-Generated Kernels)。归根结底,这对消费者和企业级 (B2B) AI 应用来说是极好的消息——因为它意味着智能的成本 (Cost of Intelligence) 持续下降。
现在是创建创业公司的最佳时机
这是创建创业公司的最佳时机。智能成本的持续下降意味着 AI 应用的前景更加广阔——对于创业者而言,这正是入场布局未来的黄金窗口。