OpenAI 近期开源的 GPT-OSS 模型,以其简洁而精妙的架构设计引发了行业广泛关注。这两款分别名为 gpt-oss-20b 和 gpt-oss-120b 的模型,不仅在参数规模与运行效率上展现出独特优势,更在技术细节中暗藏着大模型架构演进的新思路。结合对模型实测体验与行业技术争议的观察,我们或许能从中窥见未来大模型发展的若干方向。

图片

一、模型概览

此次 OpenAI 开源的模型包括gpt-oss-20b和gpt-oss-120b两款。其中,120b 模型有 36 层,总参数约 1170 亿,每个令牌的活跃参数为 51 亿,配备 128 个专家且每次激活 4 个,上下文长度达 128k;20b 模型则为 24 层,总参数 210 亿,活跃参数 36 亿,专家数 32 个,同样每次激活 4 个,上下文长度也是 128k。

图片

实测显示,20B 模型在 Mac M4 Pro 上基于 LM Studio 可达到 38 token/s 的输出速度,且专业问题回答的逻辑性与格式规范性均表现亮眼 —— 这意味着它在小规模部署场景(如简单 Agent 任务开发)中具备极高实用性。相较于国内部分开源模型,其最显著的特点是层数极少(120B 仅 36 层),这一设计直接提升了令牌处理效率(TPS),为高并发场景提供了可能。

二、Attention 机制:混合设计与长上下文优化

GPT-OSS 在 Attention 机制上采用了 GQA 与 Sliding-window GQA 交替的 “混合模式”,这一思路虽在 Llama 4 中曾出现,但 OpenAI 通过 “交错使用” 的方式进一步优化了计算效率:不仅减少了长上下文场景下的计算量与 KVCache 占用,还通过 Attention Sink 机制缓解了长文本中注意力过度集中于开头令牌的问题(即 “信息压缩过度”)。

具体而言,模型引入了可学习的 sink 参数,通过拼接至注意力计算中再丢弃权重的方式,让中段与尾段文本获得更均衡的关注。这种设计与 DeepMind 关于 “注意力分散” 的研究思路不谋而合,但更强调工程落地 —— 例如,其注意力头维度仅为 64,虽看似偏小,却与 Sliding-window GQA 的计算需求形成巧妙平衡,印证了 “为效率牺牲部分维度” 的设计取舍。

值得注意的是,这种混合机制也引发了对未来模型的思考:若 GPT-5 等超大规模模型(如 1T 参数)沿用此结构,是否需要进一步加宽加深?分布式推理中,如何协调 GQA 与 Sliding-window GQA 的并行计算?或许如 DeepSeek 的 NSA 机制所示,通过块选择与门控输出让不同上下文长度的计算耗时趋于均衡,将是重要方向。

三、MoE 架构:精简设计与潜在空间

在混合专家(MoE)设计上,GPT-OSS 的两个模型分别采用 “4 激活 / 32 路由”(20B)与 “4 激活 / 128 路由”(120B)的配置,且均未设置共享专家。更特殊的是,其 “中间层尺寸 = 隐藏层尺寸 = 2880” 的设定打破了传统模型 “中间层维度高于隐藏层” 的惯例。

这一设计的合理性或许在于硬件适配:新显卡(如 B200)的大显存支持 4 个专家直接拼接为 “4 倍隐藏层尺寸” 的矩阵,既简化了计算流程,又避免了维度提升带来的冗余。此外,MLP 层带偏置、激活函数采用带 clamp 的 SwiGLU,这些细节看似微小,却可能通过残差连接增强模型的特征表达能力 —— 至于其 EP 并行的具体实现方式,仍有待进一步拆解。

从行业视角看,这种 “精简优先” 的设计与国内模型追求参数规模的思路形成对比。未来,随着模型参数向 1T 级突破,中间层与隐藏层的比例是否会回归 1:4?或是继续沿用 “拼接专家” 的轻量化思路?这为模型架构设计留下了广阔的探索空间。

四、总结:技术开源背后的演进信号

GPT-OSS 的开源不仅提供了可直接部署的高效模型,更揭示了大模型发展的几个关键趋势:Attention 机制向 “混合化”“动态化” 演进,以平衡长上下文效率与推理能力;MoE 架构更注重硬件适配与计算精简,而非单纯堆砌专家数量;模型设计逐渐从 “深而窄” 转向 “宽而浅”,通过减少层数提升运行效率。

这些变化既为算法研究提供了新课题(如混合 Attention 的并行优化、动态调度策略),也为 Infra 层带来了挑战 —— 如何在分布式推理中协调不同机制的计算资源?如何适配国产 NPU 等硬件特性?可以预见,模型、系统与硬件的协同优化,将成为未来大模型技术突破的核心方向。

Logo

技术共进,成长同行——讯飞AI开发者社区

更多推荐