OpenAI vs. DeepSeek vs. Qwen：开源大语言模型架构对比

cover

摘要

OpenAI近期发布了GPT OSS——自2019年GPT-2以来首个开放权重 (Open Weights) 模型，这是继DeepSeek R1在一月引发轰动之后最受瞩目的开源模型发布之一。本文从架构层面深入对比GPT OSS、通义千问3 (Qwen 3) 和DeepSeek V3三款顶级开源大语言模型 (LLM)。GPT OSS是混合专家模型 (Mixture of Experts, MoE)，提供1200亿和200亿参数两种规模，采用分组查询注意力 (Grouped Query Attention, GQA)、SwiGLU激活函数、旋转位置编码 (RoPE) 和RMS归一化等现代技术，并在预训练阶段即引入YaRN扩展实现131K上下文窗口。Qwen 3同时提供稠密模型 (Dense Model) 和MoE模型，训练数据达36万亿Token，创新性地引入思维模式融合 (Thinking Mode Fusion) 实现推理与非推理模式切换。DeepSeek V3则以6710亿参数的MoE架构独树一帜，采用多头潜在注意力 (Multi-head Latent Attention, MLA) 压缩KV缓存，并以原生8位训练大幅降低成本。三大模型在上下文扩展策略、注意力机制、后训练流程等方面各展所长，折射出深度学习领域以经验发现为主、缺乏第一性原理解释的独特现状。

正文

GPT OSS：OpenAI的开放权重之作

GPT OSS是OpenAI近期最受期待的发布之一——一个来自美国顶级AI实验室的大型全开放权重模型。GPT OSS是一个混合专家模型 (Mixture of Experts, MoE)，提供两种规模：1200亿参数 (120B) 和200亿参数 (20B)。每个Token激活排名前四的专家 (Top-4 Expert)，这意味着在任意给定时刻仅有部分参数被使用，从而在不牺牲大型模型优势的前提下实现高效推理 (Inference)。

GPT OSS以仅解码器Transformer (Decoder-only Transformer) 架构训练，集成了现代LLM的诸多典型特性：

分组查询注意力 (Grouped Query Attention, GQA)：一种改进的注意力机制，允许多个查询头 (Query Head) 共享相同的键值对 (Key-Value Pair)，从而减少内存使用并加速推理。
SwiGLU激活函数：用于前馈网络 (Feed-Forward Network, FFN) 层，相比ReLU等简单激活函数，能够实现更细腻的变换。
旋转位置编码 (Rotary Positional Embeddings, RoPE)：将Token位置信息直接编码到注意力机制中，以支持更长的上下文。
RMS归一化 (RMS Norm) 与预归一化 (Pre-normalization)：一种通过均方根 (Root Mean Square) 缩放输入的归一化方法，使训练更稳定。

该模型的一大突出能力是其131,000 Token的上下文窗口 (Context Window)，这是通过在预训练阶段应用YaRN缩放 (YaRN Scaling) 而非推理时调整来实现的。YaRN全称为"Yet Another RoPE extensioN"，是一种拉伸旋转位置编码以使模型能处理远超原始训练长度的序列的技术。

GPT OSS使用了OpenAI的开源O200K Harmony分词器 (Tokenizer)，该字节对编码 (Byte Pair Encoding, BPE) 分词器拥有超过200,000个Token，建立在GPT-4o等模型使用的O200K分词器基础之上。

关于训练数据集，OpenAI仅公开了大致信息：模型在万亿级Token的纯文本语料库上训练，侧重于STEM、编程和通用知识。有害内容已被过滤以确保安全性，但除此之外公众所知甚少。训练完成后，模型默认以量化 (Quantized) 格式发布，使其轻量到足以部署在消费级GPU (Consumer-grade GPU)、笔记本电脑或其他资源受限的硬件上。然而，目前没有非量化版本可用。

GPT OSS还经历了大量的后训练 (Post-training) 工作，用于安全性和对齐 (Alignment)，塑造其默认行为以产生更受控的输出。值得注意的是，开源社区中已有人在尝试减少或移除这些对齐层，以探索原始模型的能力。

通义千问3 (Qwen 3)：阿里云的全系列模型

在开源AI的更广阔图景中，GPT OSS作为一个全功能的长上下文模型即时可用。然而，它只是迅速扩张的开源LLM领域中众多模型之一。

通义千问3 (Qwen 3) 是阿里云开发的最新模型家族，于2025年4月发布，基准测试 (Benchmark) 分数可与DeepSeek V3、Llama 4等顶级开源模型媲美。Qwen 3家族同时包含稠密模型 (Dense Model) 和混合专家模型 (MoE)：

稠密模型：对每个查询激活全部参数，提供七种不同规模，包括一个60亿参数 (6B) 模型——当前最小的新一代开放权重模型之一。
MoE模型：仅对每个查询激活一小部分参数，提供两种规模。

在架构上，Qwen 3稠密模型与上一代Qwen 2.5非常相似。与Qwen 2.5和GPT OSS一样，Qwen 3集成了分组查询注意力 (GQA)、SwiGLU、RoPE和RMS归一化等特性。

Qwen 3的稀疏模型 (Sparse Model) 与其稠密模型共享相同的基础架构，但增加了混合专家层，拥有128个专家 (128 Experts)，每个Token激活8个。所有Qwen 3模型都使用与此前Qwen模型相同的分词器，该分词器实现字节级字节对编码 (Byte-level BPE)，能够处理任何文本或符号而无需特殊预处理，与基于词或字符的分词器不同。

Qwen 3区别于此前Qwen模型的一个关键创新，是它控制键 (Key)、查询 (Query) 和值 (Value) 投影的缩放方式，以保持注意力分数在大规模下的稳定性。它用QK归一化 (QK Norm) 替代了此前模型中的QKV偏置 (QKV Bias)——QKV偏置是一种静态偏移量，而QK Norm是一个动态归一化步骤，通过重新缩放查询和键向量来保持恒定的幅度。

在训练数据方面，Qwen 3在36万亿预训练Token上训练，是Qwen 2.5模型的两倍。除了从多语言文本、STEM和编程来源以及推理任务中获取数据外，Qwen 3还使用Qwen 2.5模型以教科书、指令和代码片段等不同格式生成了数万亿Token的合成数据 (Synthetic Data)。

Qwen 3的预训练分为三个阶段：

通用阶段 (General Stage)：模型在超过30万亿Token上训练，覆盖119种语言，序列长度为4,096 Token。
推理阶段 (Reasoning Stage)：模型在额外的5万亿高质量Token上训练，包含更多STEM推理和编程问题。
长上下文阶段 (Long Context Stage)：上下文长度扩展至超过32,000 Token，使用了一系列巧妙的算法优化，包括ABF（一种调整RoPE使位置信号在更长序列上保持准确的技术）、YaRN（进一步缩放以支持更长输入）和双块注意力 (Dual Chunk Attention，高效处理序列)。

Qwen 3的后训练 (Post-training) 流程包含四个步骤，目标是让用户更好地控制推理程度，以及将大模型能力高效蒸馏 (Distill) 到小模型：

长思维链冷启动 (Long Chain-of-Thought Cold Start)：向模型提供精选的数学、逻辑和STEM推理难题数据集，带有可验证的参考答案，过滤输出以确保质量。
推理强化学习 (Reasoning RL)：使用GRPO算法（一种最初由DeepSeek研究人员开发的强化学习算法），在约4,000个查询-验证器对上训练以增强复杂问题求解能力。令人惊叹的是，仅4,000个数据对就能获得出色结果。
思维模式融合 (Thinking Mode Fusion)：这是Qwen 3的关键创新，将推理模式和非推理模式整合到同一模型中，用户无需切换模型即可在模式间切换。具体做法是将模型在思维数据（包含中间推理步骤）和非思维数据（省略中间步骤）的混合数据上微调，然后在聊天界面中提供模式切换开关。虽然这一功能在Qwen首发时独一无二，但GPT-5现已具备类似的切换功能。
通用强化学习 (General RL)：在指令遵循、格式化、偏好对齐、工具使用和特定场景方面拓宽能力。

最后，Qwen团队使用强到弱蒸馏 (Strong-to-Weak Distillation)，将大模型能力迁移到小模型。总体而言，Qwen 3的性能非常出色，尤其是考虑到其相对较小的规模。

DeepSeek V3：中国实验室的雄心之作

就在Qwen 3发布数月之前，另一个模型已经提高了开源领域的门槛。DeepSeek V3于2024年12月发布，是近年来来自顶级实验室的最雄心勃勃的开源LLM之一。

DeepSeek V3拥有6710亿参数 (671B)，是一个面向效率与能力兼顾的通用基础模型 (General-purpose Base Model)，为后续专注于推理的R1模型奠定了基础。V3是一个混合专家模型 (MoE)，采用了多项硬件和算法优化，包括原生8位训练 (8-bit Training)——而非16位或32位——这是削减训练成本的巨大突破。

近期，DeepSeek进一步推出了V3.1版本。新发布的V3.1直接基于原始V3检查点 (Checkpoint) 构建，通过两阶段长上下文训练方法进行扩展，并添加了混合思维模式 (Hybrid Thinking Mode)，允许同一模型在重度推理和轻量推理之间切换。它还通过更先进的后训练改进了工具使用和智能体 (Agent) 性能。实际上，V3.1保留了与V3相同的核心架构，但提供了更强的推理能力、更智能的工具使用和更高的性能。

V3区别于GPT OSS和Qwen 3的一个关键点，在于它使用了不同的注意力机制。在现代LLM中，大量计算和内存消耗在KV缓存 (KV Cache) 上。V3采用多头潜在注意力 (Multi-head Latent Attention, MLA)，在缓存前将键和值压缩到更小的潜在空间 (Latent Space)，然后在推理时解压缩。虽然MLA实现更复杂，但此前DeepSeek V2论文发现，它比GQA带来更大的内存节省和更好的建模性能，尤其是在像V3这样的超大规模长上下文模型中。

三大模型对比：规模差异

在规模上，Qwen 3是三者中唯一同时提供稠密模型和MoE变体的：

Qwen 3：稠密模型从60亿到320亿参数不等，MoE阵容包括300亿参数和2,350亿参数模型。值得注意的是，Qwen 3的MoE基础模型仅以五分之一的活跃参数就匹配了稠密模型的性能。
DeepSeek V3：仅提供MoE架构，6710亿参数中每个Token预测激活370亿参数，规模远超Qwen 3的最大模型。
GPT OSS：居于中间，提供两个MoE模型——1,170亿参数中每个Token激活51亿参数，以及210亿参数中每个Token激活36亿参数。

三大模型对比：上下文扩展策略

三大模型在上下文长度扩展方面采用了截然不同的策略，这尤为引人关注：

GPT OSS：从预训练阶段即应用YaRN，因此其权重已原生适配131,000 Token上下文——"天生"具备长上下文能力。
DeepSeek V3：采用分阶段方法，在预训练后微调先达到32,000 Token，再通过额外训练达到128,000 Token——"逐步训练"获得长上下文能力。
Qwen 3：微调至32,000 Token后不再进行额外的长上下文训练，而是在推理时应用YaRN缩放，将RoPE基础频率提高4倍以达到128,000 Token——"推至极限"地利用32K训练模型的潜力。

深层反思：经验发现与第一性原理

阅读这些论文和深度学习领域最新进展时，最令人深思的一点是：大量发现本质上都是经验性的 (Empirical)。每个实验室描述的是对其有效的工具组合，但几乎没有人给出第一性原理 (First Principles) 层面的解释来说明为什么某个工具比另一个更好。例如，为什么MLA比GQA更好？这完全不同于数学或理论物理等领域，后者的核心正是从公理或定律出发推导结果的第一性原理解释。

另一个有趣的现象是：尽管大多数模型的顶层基准测试 (Top-line Benchmark) 统计数据相近，使用的工具类别也大致相同（注意力机制、激活函数、位置编码等），但它们实现相似结果的具体技术往往差异很大。这相当令人意外——通常认为不同的训练方法会导致不同的结果。此外，所有主要模型都在后训练和推理部分的训练中大量使用强化学习 (Reinforcement Learning, RL)，而某些RL工作所需数据量极其稀少——Qwen仅用了4,000个数据对。

最后，各实验室之间数据集的差异极其不透明。从论文中可以明显看出，数据集工程 (Dataset Engineering) 背后有大量工作，这可能是这些公司愿意开源模型的重要原因之一——其护城河 (Moat) 在于数据与工程，而非模型本身。因此，阅读这些论文的关键收获是：不应仅关注基准测试性能或上下文大小等顶层统计，而应审视各实验室实现这些结果的具体方法。

结语

虽然本文未涉及Kimi K2、Google Gemma 3等许多其他高性能开源模型，但当你深入审视它们的内部细节时，同样会发现许多有趣的差异。希望本文为您提供了理解最新开源模型发布的框架，以及开始亲自探索这些模型的工具包。