DeepSeek 背后的工程突破 | YC 解码

cover

摘要

中国人工智能公司 DeepSeek 凭借其开源推理模型（Reasoning Model）R1 震惊全球，声称以极低成本实现了与 OpenAI o1 相当的性能，引发社交媒体恐慌和股市震荡——英伟达（Nvidia）单日市值蒸发近 6000 亿美元。然而，对于持续关注 AI 发展的人而言，DeepSeek R1 并非横空出世。该公司数月来一直在发布研究成果和模型权重，遵循与 Meta 的 Llama 类似的开源路径，区别于 OpenAI、Google DeepMind 和 Anthropic 等关闭权重、仅发布有限技术报告的实验室。本视频深度解码了 DeepSeek 的真正技术突破：从 V3 基座模型的 FP8 训练、混合专家架构（Mixture of Experts）、多头潜在注意力（MLA）、多令牌预测（MTP），到 R1 推理模型所采用的纯强化学习（Pure RL）训练方法——包括群组相对策略优化（GRPO）和推理能力的涌现现象，以及从 R1-Zero 到 R1 的冷启动改进。最终，DeepSeek 所证明的核心洞见是：前沿领域仍有新玩家的空间，尤其是重建技术栈、优化 GPU 工作负载、改进推理层软件和开发 AI 生成内核（AI-Generated Kernel）方面。对 AI 应用而言，这意味着智能成本持续下降——现在是创办创业公司的最佳时机。

正文

DeepSeek R1 的轰动效应与公众误读

中国 AI 公司 DeepSeek 近期发布 R1——一个开源推理模型，声称以极低成本实现与 OpenAI o1 相当的性能。这一公告引发了社交媒体恐慌和股市震荡，英伟达单日市值蒸发近 6000 亿美元。但对于持续关注 AI 进展的人而言，DeepSeek R1 并非凭空出现。该公司已经发布研究成果和模型权重数月之久，遵循与 Meta 的 Llama 模型类似的路径，区别于 OpenAI、Google DeepMind 和 Anthropic 等关闭权重、仅发布有限技术报告的 AI 实验室。真正变化的只是：现在更广泛的公众开始关注了。

区分两个模型：DeepSeek V3 与 DeepSeek R1

首先需要区分两个相关模型：DeepSeek R1 和 DeepSeek V3。

DeepSeek V3 于 2024 年 12 月发布，是一个通用基座模型（Base Model），性能与 OpenAI 的 GPT-4o、Anthropic 的 Claude 3.5 Sonnet 和 Google 的 Gemini 1.5 相当。
DeepSeek R1 于 2025 年 1 月底发布，是一个推理模型，构建在 V3 之上。DeepSeek 在 V3 基础上应用了多种算法改进以优化其推理能力，从而得到 R1——在特定复杂推理基准测试上，达到了与 OpenAI o1 和 Google Flash 2.0 相当的性能。

许多支撑 R1 卓越性能的算法创新，实际上在 2024 年 12 月的 V3 论文中已有论述，甚至更早——2024 年 5 月的 V2 论文、2024 年 2 月的 DeepSeek Math 论文中均有涉及。V3 将这些以计算和训练效率为核心设计的创新整合在了一起。

FP8 训练：从硬件约束中榨取更多算力

DeepSeek 优化效率的一种方式是从 GPU 中获取更多浮点运算每秒（FLOPS，Floating Point Operations Per Second）。V3 原生以 8 位浮点格式（FP8）进行训练，而非传统的 16 位或 32 位格式。这并非新概念，许多实验室也在采用，但对实现大规模内存节省而不牺牲性能至关重要。

一个关键增强是他们的 FP8 累积修正（FP8 Accumulation Fix）：定期将计算结果合并回更高精度的 FP32 累加器（FP32 Accumulator），防止微小数值误差累积。结果是在数千个 GPU 上实现远更高效的训练，降低成本的同时保持模型质量。

为什么效率如此关键：硬件约束与 GPU 利用率

鉴于硬件约束和美国对华 GPU 出口管制，DeepSeek 必须找到从现有 GPU 集群中获取更多训练能力和带宽的方法。在 AI 实验室中，用于训练模型的 GPU（执行数值计算和矩阵乘法）实际上大部分时间处于空闲状态。在 FP8 下，通常只能看到约 35% 的模型 FLOPS 利用率（MFU，Model FLOPS Utilization），意味着 GPU 仅在峰值潜力的约三分之一时间内被有效利用。其余时间，这些 GPU 在等待数据在缓存之间或其他 GPU 之间传输。

这揭示了英伟达的核心优势：不仅仅是 GPU 本身，而是一个集成了超过十年建设的整体解决方案，包括 InfiniBand 网络、CUDA 软件和开发者体验。英伟达本质上提供了一个深度集成的系统，让 AI 研究人员能够将 GPU 集群编程为一个分布式系统——正如黄仁勋（Jensen Huang）所描述的"一个巨大的 GPU"。

混合专家架构：以 1/11 的参数量完成推理

DeepSeek 充分利用硬件的另一个巧妙方式是其对混合专家架构（MoE，Mixture of Experts）的特定实现。DeepSeek V3 拥有 6710 亿模型参数，但对于给定的令牌预测（Token Prediction），仅激活 370 亿参数。相比之下，最大最强的 Llama 3 模型不使用混合专家架构，因此每次令牌预测都激活全部 4050 亿参数。换言之，V3 每次前向传播（Forward Pass）激活的参数量减少了 11 倍，节省了大量计算。

混合专家并非新概念，但高效训练此架构的模型一直具有挑战性。DeepSeek 引入了稳定性能和提高 GPU 利用率的新技术。

多头潜在注意力：将 KV 缓存压缩 93.3%

为克服关键性能瓶颈，V3 采用了多头潜在注意力（MLA，Multi-head Latent Attention），这是 DeepSeek 在 2024 年 5 月的 V2 论文中首次提出的。MLA 旨在解决 KV 缓存（KV Cache）存储限制——大型模型中带宽开销的最大来源之一。MLA 不存储完整的键（Key）和值（Value）矩阵，而是将其压缩为潜在表示（Latent Representation），仅在需要时才重建。这使得 V2 模型的 KV 缓存大小减少了 93.3%，并将最大生成吞吐量提升至 5.76 倍。

多令牌预测：更密集的训练信号与更快的推理

与传统模型仅预测下一个令牌不同，V3 采用多令牌预测（MTP，Multi-Token Prediction）。MTP 使 V3 在每一步预测多个未来令牌，从而：

密集化训练信号：每步提供更多反馈，提升数据效率和加速学习
改善表示规划：使模型能够预先规划序列，产生更平滑、更连贯的输出
推理加速：MTP 模块可被重新用于推测解码（Speculative Decoding），减少顺序处理步骤，显著加速生成

综合以上创新，V3 成为市场上最令人印象深刻的基座模型之一，而且已经发布了一段时间。然而，真正掀起波澜的是 DeepSeek R1 推理模型的近期发布。

推理模型：训练模型"思考"

大多数大语言模型（LLM）可以通过被提示"逐步思考"来改善表现，但推理模型的独特之处在于：它们被专门训练来分解困难问题，并就其思考段落级篇幅的内容。2024 年 9 月，OpenAI 用 o1 展示了这一新方法的威力，在数学、编程和科学基准测试上取得了最先进的结果。

通过 R1，DeepSeek 采取了类似路径，并公开了核心秘诀。

强化学习：从反馈中塑造推理行为

OpenAI 和 DeepSeek 的卓越成果都通过强化学习（RL，Reinforcement Learning）实现——一种基于反馈和奖励信号来塑造大语言模型行为的技术。现代大语言模型使用 RLHF（基于人类反馈的强化学习，Reinforcement Learning from Human Feedback）或 RLAIF（基于 AI 反馈的强化学习，Reinforcement Learning from AI Feedback）的某种变体来提升模型的有用性和对齐度。但推理模型将 RL 专门应用于逐步思考复杂问题的任务。

DeepSeek 的 RL 训练流程

在高层次上，DeepSeek 的做法是：

收集一批具有可验证输出的问题，特别是数学和编程领域的问题
设计训练流水线（Training Pipeline），让模型先思考一段时间，然后输出正确答案
不给模型任何关于如何思考的外部示例——无论来自人类还是 AI
评分过程极其简单：不用复杂 AI 提供细粒度反馈，而是用简单规则评估模型最终输出的准确性和格式
使用这些输出分数，通过 2024 年 2 月发布的新技术——群组相对策略优化（GRPO，Group Relative Policy Optimization）来更新模型

推理能力的涌现与"顿悟时刻"

仅凭上述过程，DeepSeek 在数千个 RL 步骤中观察到了推理能力的涌现（Emergence）：

模型学会了扩展思维链（Extended Chain of Thought）
甚至经历了"顿悟时刻"（Aha Moment）：模型识别到自己的错误并回溯修正推理

此模型即为 R1-Zero——首批纯粹通过强化学习取得顶级结果的大型模型之一。纯强化学习一直是西方研究实验室的研究课题，例如 DeepMind 的 AlphaGo 在 2016 年通过数千次自我对弈的随机游戏击败了世界顶级围棋选手李世石（Lee Sedol）；2019 年 OpenAI 使用强化学习训练机械手解决魔方，并在竞技 Dota 2 中击败顶级人类团队。

从 R1-Zero 到 R1：冷启动修正

然而，不受人类示例约束的 R1-Zero，其思考步骤存在可读性差的问题——会随机在中英文之间切换。因此 DeepSeek 引入了冷启动阶段（Cold Start Phase）：在 RL 之前先在结构化推理示例上进行微调，从而得到 R1。这消除了语言混合问题，使输出更加可理解。

结果令人印象深刻：R1 在特定数学和编程基准测试上实现了与 o1 相当的性能。但创新步伐正在加速——R1 发布仅两周后，OpenAI 就发布了 o3-mini，在关键基准测试上超越了 R1 和 o1。

炒作周期的成因：可及性与成本误解

如果 R1 并非凭空出现，那如何解释这波炒作周期？

第一个解释是极高的可及性：DeepSeek 的模型可通过其网站和应用免费访问，也可免费下载、本地运行和自定义。而且得益于所有效率改进，它以远低于其他推理模型的价格提供了接近最先进的性能。

第二个解释是关于训练成本的误解：大量炒作实际上与 V3 声称的 550 万美元训练成本有关，而非我们描述的具体算法改进。这里有重要的细则：550 万美元仅指 V3 最终训练运行（Final Training Run）的成本，不包括 R1 的任何训练成本，也不包括相关的研发费用或硬件运营支出——考虑到极端的算法优化，这些费用推测在数亿美元级别。

然而，鉴于这些算法优化，550 万美元的训练运行数字实际上看起来完全可信，且这项工作是可复现的——一个加州大学伯克利分校（UC Berkeley）的实验室最近应用了 R1-Zero 的关键技术，仅花费 30 美元就在更小的模型中产生了复杂推理。

核心洞见：前沿领域仍有新玩家的空间

DeepSeek 真正证明的是：前沿领域仍有新玩家的空间。特别是，以下领域存在巨大机会：

重建技术栈（Rebuilding the Stack）
优化 GPU 工作负载（Optimizing GPU Workloads）
改进推理层软件（Improving Software at Inference Layer）
开发 AI 生成内核（Developing AI-Generated Kernels）

对消费级或 B2B 的 AI 应用而言，这是绝佳消息——因为这意味着智能成本持续下降。现在是创办创业公司的最好时机。