DeepSeek 背后的工程突破 | YC 解码

摘要
中国人工智能公司 DeepSeek 凭借其开源推理模型(Reasoning Model)R1 震惊全球,声称以极低成本实现了与 OpenAI o1 相当的性能,引发社交媒体恐慌和股市震荡——英伟达(Nvidia)单日市值蒸发近 6000 亿美元。然而,对于持续关注 AI 发展的人而言,DeepSeek R1 并非横空出世。该公司数月来一直在发布研究成果和模型权重,遵循与 Meta 的 Llama 类似的开源路径,区别于 OpenAI、Google DeepMind 和 Anthropic 等关闭权重、仅发布有限技术报告的实验室。本视频深度解码了 DeepSeek 的真正技术突破:从 V3 基座模型的 FP8 训练、混合专家架构(Mixture of Experts)、多头潜在注意力(MLA)、多令牌预测(MTP),到 R1 推理模型所采用的纯强化学习(Pure RL)训练方法——包括群组相对策略优化(GRPO)和推理能力的涌现现象,以及从 R1-Zero 到 R1 的冷启动改进。最终,DeepSeek 所证明的核心洞见是:前沿领域仍有新玩家的空间,尤其是重建技术栈、优化 GPU 工作负载、改进推理层软件和开发 AI 生成内核(AI-Generated Kernel)方面。对 AI 应用而言,这意味着智能成本持续下降——现在是创办创业公司的最佳时机。
正文
DeepSeek R1 的轰动效应与公众误读
中国 AI 公司 DeepSeek 近期发布 R1——一个开源推理模型,声称以极低成本实现与 OpenAI o1 相当的性能。这一公告引发了社交媒体恐慌和股市震荡,英伟达单日市值蒸发近 6000 亿美元。但对于持续关注 AI 进展的人而言,DeepSeek R1 并非凭空出现。该公司已经发布研究成果和模型权重数月之久,遵循与 Meta 的 Llama 模型类似的路径,区别于 OpenAI、Google DeepMind 和 Anthropic 等关闭权重、仅发布有限技术报告的 AI 实验室。真正变化的只是:现在更广泛的公众开始关注了。
区分两个模型:DeepSeek V3 与 DeepSeek R1
首先需要区分两个相关模型:DeepSeek R1 和 DeepSeek V3。
- DeepSeek V3 于 2024 年 12 月发布,是一个通用基座模型(Base Model),性能与 OpenAI 的 GPT-4o、Anthropic 的 Claude 3.5 Sonnet 和 Google 的 Gemini 1.5 相当。
- DeepSeek R1 于 2025 年 1 月底发布,是一个推理模型,构建在 V3 之上。DeepSeek 在 V3 基础上应用了多种算法改进以优化其推理能力,从而得到 R1——在特定复杂推理基准测试上,达到了与 OpenAI o1 和 Google Flash 2.0 相当的性能。
许多支撑 R1 卓越性能的算法创新,实际上在 2024 年 12 月的 V3 论文中已有论述,甚至更早——2024 年 5 月的 V2 论文、2024 年 2 月的 DeepSeek Math 论文中均有涉及。V3 将这些以计算和训练效率为核心设计的创新整合在了一起。
FP8 训练:从硬件约束中榨取更多算力
DeepSeek 优化效率的一种方式是从 GPU 中获取更多浮点运算每秒(FLOPS,Floating Point Operations Per Second)。V3 原生以 8 位浮点格式(FP8)进行训练,而非传统的 16 位或 32 位格式。这并非新概念,许多实验室也在采用,但对实现大规模内存节省而不牺牲性能至关重要。
一个关键增强是他们的 FP8 累积修正(FP8 Accumulation Fix):定期将计算结果合并回更高精度的 FP32 累加器(FP32 Accumulator),防止微小数值误差累积。结果是在数千个 GPU 上实现远更高效的训练,降低成本的同时保持模型质量。
为什么效率如此关键:硬件约束与 GPU 利用率
鉴于硬件约束和美国对华 GPU 出口管制,DeepSeek 必须找到从现有 GPU 集群中获取更多训练能力和带宽的方法。在 AI 实验室中,用于训练模型的 GPU(执行数值计算和矩阵乘法)实际上大部分时间处于空闲状态。在 FP8 下,通常只能看到约 35% 的模型 FLOPS 利用率(MFU,Model FLOPS Utilization),意味着 GPU 仅在峰值潜力的约三分之一时间内被有效利用。其余时间,这些 GPU 在等待数据在缓存之间或其他 GPU 之间传输。
这揭示了英伟达的核心优势:不仅仅是 GPU 本身,而是一个集成了超过十年建设的整体解决方案,包括 InfiniBand 网络、CUDA 软件和开发者体验。英伟达本质上提供了一个深度集成的系统,让 AI 研究人员能够将 GPU 集群编程为一个分布式系统——正如黄仁勋(Jensen Huang)所描述的"一个巨大的 GPU"。
混合专家架构:以 1/11 的参数量完成推理
DeepSeek 充分利用硬件的另一个巧妙方式是其对混合专家架构(MoE,Mixture of Experts)的特定实现。DeepSeek V3 拥有 6710 亿模型参数,但对于给定的令牌预测(Token Prediction),仅激活 370 亿参数。相比之下,最大最强的 Llama 3 模型不使用混合专家架构,因此每次令牌预测都激活全部 4050 亿参数。换言之,V3 每次前向传播(Forward Pass)激活的参数量减少了 11 倍,节省了大量计算。
混合专家并非新概念,但高效训练此架构的模型一直具有挑战性。DeepSeek 引入了稳定性能和提高 GPU 利用率的新技术。
多头潜在注意力:将 KV 缓存压缩 93.3%
为克服关键性能瓶颈,V3 采用了多头潜在注意力(MLA,Multi-head Latent Attention),这是 DeepSeek 在 2024 年 5 月的 V2 论文中首次提出的。MLA 旨在解决 KV 缓存(KV Cache)存储限制——大型模型中带宽开销的最大来源之一。MLA 不存储完整的键(Key)和值(Value)矩阵,而是将其压缩为潜在表示(Latent Representation),仅在需要时才重建。这使得 V2 模型的 KV 缓存大小减少了 93.3%,并将最大生成吞吐量提升至 5.76 倍。
多令牌预测:更密集的训练信号与更快的推理
与传统模型仅预测下一个令牌不同,V3 采用多令牌预测(MTP,Multi-Token Prediction)。MTP 使 V3 在每一步预测多个未来令牌,从而:
- 密集化训练信号:每步提供更多反馈,提升数据效率和加速学习
- 改善表示规划:使模型能够预先规划序列,产生更平滑、更连贯的输出
- 推理加速:MTP 模块可被重新用于推测解码(Speculative Decoding),减少顺序处理步骤,显著加速生成
综合以上创新,V3 成为市场上最令人印象深刻的基座模型之一,而且已经发布了一段时间。然而,真正掀起波澜的是 DeepSeek R1 推理模型的近期发布。
推理模型:训练模型"思考"
大多数大语言模型(LLM)可以通过被提示"逐步思考"来改善表现,但推理模型的独特之处在于:它们被专门训练来分解困难问题,并就其思考段落级篇幅的内容。2024 年 9 月,OpenAI 用 o1 展示了这一新方法的威力,在数学、编程和科学基准测试上取得了最先进的结果。
通过 R1,DeepSeek 采取了类似路径,并公开了核心秘诀。
强化学习:从反馈中塑造推理行为
OpenAI 和 DeepSeek 的卓越成果都通过强化学习(RL,Reinforcement Learning)实现——一种基于反馈和奖励信号来塑造大语言模型行为的技术。现代大语言模型使用 RLHF(基于人类反馈的强化学习,Reinforcement Learning from Human Feedback)或 RLAIF(基于 AI 反馈的强化学习,Reinforcement Learning from AI Feedback)的某种变体来提升模型的有用性和对齐度。但推理模型将 RL 专门应用于逐步思考复杂问题的任务。
DeepSeek 的 RL 训练流程
在高层次上,DeepSeek 的做法是:
- 收集一批具有可验证输出的问题,特别是数学和编程领域的问题
- 设计训练流水线(Training Pipeline),让模型先思考一段时间,然后输出正确答案
- 不给模型任何关于如何思考的外部示例——无论来自人类还是 AI
- 评分过程极其简单:不用复杂 AI 提供细粒度反馈,而是用简单规则评估模型最终输出的准确性和格式
- 使用这些输出分数,通过 2024 年 2 月发布的新技术——群组相对策略优化(GRPO,Group Relative Policy Optimization)来更新模型
推理能力的涌现与"顿悟时刻"
仅凭上述过程,DeepSeek 在数千个 RL 步骤中观察到了推理能力的涌现(Emergence):
- 模型学会了扩展思维链(Extended Chain of Thought)
- 甚至经历了"顿悟时刻"(Aha Moment):模型识别到自己的错误并回溯修正推理
此模型即为 R1-Zero——首批纯粹通过强化学习取得顶级结果的大型模型之一。纯强化学习一直是西方研究实验室的研究课题,例如 DeepMind 的 AlphaGo 在 2016 年通过数千次自我对弈的随机游戏击败了世界顶级围棋选手李世石(Lee Sedol);2019 年 OpenAI 使用强化学习训练机械手解决魔方,并在竞技 Dota 2 中击败顶级人类团队。
从 R1-Zero 到 R1:冷启动修正
然而,不受人类示例约束的 R1-Zero,其思考步骤存在可读性差的问题——会随机在中英文之间切换。因此 DeepSeek 引入了冷启动阶段(Cold Start Phase):在 RL 之前先在结构化推理示例上进行微调,从而得到 R1。这消除了语言混合问题,使输出更加可理解。
结果令人印象深刻:R1 在特定数学和编程基准测试上实现了与 o1 相当的性能。但创新步伐正在加速——R1 发布仅两周后,OpenAI 就发布了 o3-mini,在关键基准测试上超越了 R1 和 o1。
炒作周期的成因:可及性与成本误解
如果 R1 并非凭空出现,那如何解释这波炒作周期?
第一个解释是极高的可及性:DeepSeek 的模型可通过其网站和应用免费访问,也可免费下载、本地运行和自定义。而且得益于所有效率改进,它以远低于其他推理模型的价格提供了接近最先进的性能。
第二个解释是关于训练成本的误解:大量炒作实际上与 V3 声称的 550 万美元训练成本有关,而非我们描述的具体算法改进。这里有重要的细则:550 万美元仅指 V3 最终训练运行(Final Training Run)的成本,不包括 R1 的任何训练成本,也不包括相关的研发费用或硬件运营支出——考虑到极端的算法优化,这些费用推测在数亿美元级别。
然而,鉴于这些算法优化,550 万美元的训练运行数字实际上看起来完全可信,且这项工作是可复现的——一个加州大学伯克利分校(UC Berkeley)的实验室最近应用了 R1-Zero 的关键技术,仅花费 30 美元就在更小的模型中产生了复杂推理。
核心洞见:前沿领域仍有新玩家的空间
DeepSeek 真正证明的是:前沿领域仍有新玩家的空间。特别是,以下领域存在巨大机会:
- 重建技术栈(Rebuilding the Stack)
- 优化 GPU 工作负载(Optimizing GPU Workloads)
- 改进推理层软件(Improving Software at Inference Layer)
- 开发 AI 生成内核(Developing AI-Generated Kernels)
对消费级或 B2B 的 AI 应用而言,这是绝佳消息——因为这意味着智能成本持续下降。现在是创办创业公司的最好时机。