刘泽华 ,吴晗 ,佘瑞峰 ,符晓金 ,韩雄伟 ,钟涛 ,袁明轩 华为诺亚方舟实验室liuzehua@connect.hku.hk,, she.ruifeng, zhongtao5 }@http://huawei.com

摘要

专家混合(MoE)已成为有效扩展大型语言模型(LLMs)的关键架构范式,通过为每个输入标记选择性激活参数子集来运行。然而,传统的MoE架构在训练和推理过程中遇到了大量的挑战,包括过高的内存使用和通信开销,这主要归因于专家模块的激增。在本文中,我们介绍了潜在专家混合(MoLE),这是一种新颖的参数化方法,能够将特定专家映射到共享的潜在空间。具体而言,所有专家操作被系统地分解为两个主要组件:首先是对较低维度潜在空间的共享投影,然后是具有显著减少参数复杂度的专家特定转换。这种分解方法大大减少了参数数量和计算需求。除了MoLE架构的预训练实现外,我们还建立了一个严格的数学框架,将预训练的MoE模型转换为MoLE架构,描述了最优分解的充分条件,并开发了一种系统的两阶段算法来进行这一转换过程。我们的全面理论分析表明,MoLE显著提高了多方面的计算效率,同时保留了模型的表现能力。实证评估证实了我们的理论发现,确认MoLE在显著减少资源需求的同时,实现了与标准MoE实现相当的性能。

1 引言

大型语言模型(LLMs)在各种自然语言处理任务中表现出显著的能力(Bommasani等人,2021;Zhuang等人,2020),从文本生成(Achiam等人,2023;Dubey等人,2024)到复杂的推理(Guo等人,2025)。随着这些模型扩展到越来越大的参数空间,专家混合(MoE)架构(Jacobs等人,1991;Jordan和Jacobs,1994)已成为一种有前途的范式,可以在不按比例增加计算成本的情况下有效地扩展模型容量。通过只为每个输入标记选择性激活部分参数,MoE模型在保持可控推理延迟的同时实现参数效率。 尽管它们在理论上和实证上具有优势,但标准MoE架构(Dai等人,2024)面临着显著的实际限制,阻碍了更广泛的部署。这些模型需要大量内存资源来存储前馈网络(FFN)层中的众多专家模块的参数,并在分布式训练期间由于全对全数据传输而创建通信瓶颈。随着模型扩展到数百个专家,这些挑战变得越来越明显,可能限制其在资源受限环境中的适用性。 通过对MoE架构中参数使用的系统研究,我们发现了当前MoE模型中FFN层内存在的大量冗余。通过分析Qwen1.5-MoE-A2.7B(Team,2024),我们揭示了其FFN层中的大量参数可以通过低维表示有效近似而不影响模型性能。

图1:MoE和MoLE在前馈网络(FFN)层之间的架构比较。在这两个图表中, 表示专家的数量。MoLE通过引入潜在映射 和 来扩展传统的MoE架构,这些映射捕获了跨专家的共享信息。每个专家 的特定信息封装在映射 和 中。这种潜在空间分解使MoLE能够在保持模型表达力的同时显著减少FFN层中的内存需求和计算复杂度。

这一经验观察促使我们重新思考神经架构中专家参数化的基础。

我们介绍潜在专家混合(MoLE),这是一种新颖的参数化范式,解决了传统MoE架构的核心低效问题。我们的关键见解是,标准MoE模型中的专家模块包含显著的冗余,并在不必要的高维空间中运行。MoLE通过数学原理的两阶段变换重新公式化每个专家操作:(1) 共享投影到压缩的潜在空间,随后 (2) 在这个低维流形内的专家特定变换。

正式地说,MoLE通过将每个专家的权重矩阵 分解为 的乘积来实现这一见解,其中 表示专家特定变换, 表示到潜在空间的共享投影。这种分解导致了显著的参数减少,特别是在当代LLM架构中,隐藏维度 显著超过MoE中间维度 。

我们的贡献如下:

  • 我们提出了潜在专家混合(MoLE),这是一种参数高效的架构,在需要显著较少参数和减少计算开销的情况下,达到了与标准MoE模型相当的性能。
  • 我们开发了一个理论依据的框架,将预训练的MoE模型转换为MoLE架构,包括对最佳分解条件的数学表征和结合低秩逼近技术的高效两阶段算法。
  • 通过对多个基准数据集进行综合实证评估,我们证明了MoLE在多种语言任务中保留或增强了模型能力,同时大幅提高了参数效率,从而使得大规模语言模型的经济扩展成为可能。

2 相关工作

更细粒度的专家混合。专家混合(MoE)最初由Jacobs等人(1991)和Jordan和Jacobs(1994)提出,近年来引起了广泛关注(Aljundi等人,2017;Collobert等人,2001;Deisenroth和Ng,2015;Eigen等人,2013;Rasmussen和Ghahramani,2001;Shahbaba和Neal,2009;Theis和Bethge,2015)。Lepikhin等人(2020)开创性地将MoE技术集成到变压器架构中,使参数规模显著扩大,同时保持计算效率。随后,许多研究推进了MoE算法,特别是专注于用MoE层替换基于变压器的大规模语言模型(LLMs)中的前馈网络(FFN)层(Dai等人,2024;Du等人,2022;Fedus等人,2022;Xue等人,2024;Zoph等人,2022)。

然而,传统的GShard模型由于其相对较少的专家数量,在捕捉领域特定专业知识方面存在局限性。为了应对这一约束并增强专家专业化,Dai等人(2024)提出了更细粒度的MoE架构,并在几个最先进的模型中得以实施(Guo等人,2025;Liu等人,2024;Team,2024)。与传统的GShard MoE设计相比,更细粒度的变体包含显著更多的专家,每个专家的参数数量减少,从而在领域特定知识表示和处理方面实现更大的专业化。这种方法不仅细化了跨专家的知识分解,促进更精确的学习,还增强了专家激活组合的灵活性,允许更专业和有针对性的知识捕获。

MoE的算法设计。在大语言模型(LLMs)中引入专家模块在训练和推理阶段都带来了必须解决的若干算法挑战。MoE设计的一个关键方面是门控函数,它协调专家计算的参与以及各自输出的组合。门控机制可以大致分为三种类型:稀疏型,激活专家的子集;密集型,激活所有专家;软型,涵盖完全可微的方法,包括输入标记合并和专家合并(Pan等人,2024;Zadouri等人,2023;Puigcerver等人,2022)。

稀疏令牌选择门控是最普遍的方法,其中门控函数为每个输入令牌选择顶级专家(Fedus等人,2022;Lepikhin等人,2020;Zoph等人,2022)。此方法通常通过辅助损失函数加以增强,以促进平衡的专家利用(Lepikhin等人,2020;Fedus等人,2022;Du等人,2022)。其他方法包括专家选择门控,其中每个专家选择他们将处理的顶级令牌(Zhou等人,2022;2023),以及使用预先确定路由策略的非可训练门控机制(Roller等人,2021;Costa等人,2022;Gururangan等人,2021)。

MoE研究中的一个令人鼓舞的最新发展是与参数高效微调(PEFT)技术的整合,创建混合参数高效专家(MoPEs)(Zhang等人,2021;Wu等人,2022;Ye等人,2023)。这些方法将MoE的任务多样性与PEFT的资源效率相结合,定位为高效多任务学习的重要进展。

3 MoLE:一种新型的基于专家的模型架构方法

在本文中,我们介绍了潜在专家混合(MoLE),这是一个新颖的框架,将专家映射到潜在空间,以解决传统专家混合(MoE)架构的几个局限性。为清晰起见,我们在整个分析中排除了共享专家。

3.1 背景:更细粒度的MoE架构

更细粒度的MoE架构用于前馈网络(FFNs),采用 个不同的专家(Dai等人,2024)。对于每个专家 其中 ,计算定义为:

其中 Act 表示激活函数, 和 是线性算子。在此上下文中, 表示隐藏维度, 表示MoE中间维度,通常 。对于输入 ,FFN层的输出计算为:

其中 是路由器函数,决定每个专家的贡献。 虽然实验证据表明增加专家数量可以提高各种应用的性能,但这种方法也带来了重大挑战。参数的激增导致存储要求和全对全网络通信开销显著增加,限制了可扩展性和效率。 # 3.2 潜在专家混合:概念与设计

为了解决这些限制,我们提出了潜在专家混合(MoLE)框架,该框架从根本上重新设计了基于专家系统的FFN层结构。

我们的方法基于对等式3.1中专家计算的仔细分析,该计算包含三个不同的操作:

  1. 投影进入:输入 通过线性算子 和 从高维空间 映射到低维空间 。
  2. 非线性变换:一层神经网络通过Hadamard乘积和激活函数进行非线性变换。
  3. 投影出来:中间输出从低维空间映射回原来的高维空间。

从这个分析中得出的关键见解是,专家的核心功能主要来自于第二步中的非线性变换。第一步和第三步中的投影操作主要是为了降低计算复杂度,可能会以限制专家的专业知识容量为代价。 受到多头潜在注意力(MLA)(Liu等人,2024)的启发,该方法在注意力层中引入“潜在空间”用于KV缓存,以及分组查询注意力(GQA)(Ainslie等人,2023),该方法利用基于分组的处理,我们提出了潜在专家混合(MoLE)。该架构从根本上重新考虑如何将输入映射到专家计算更有效的低维潜在空间。

3.3 潜在专家混合的公式化

为了形式化潜在专家的概念,我们通过矩阵分解检查专家特定算子的分解。以专家 的“上算子” 为例,我们提出了一种结构化的分解,其中:

在这个公式中, 作为跨专家共享的统一投影算子,将输入从高维空间 映射到低维潜在空间 ,通常 。相反, 表示该潜在空间内的专家特定线性变换,封装了专家 的专门功能。按照多头潜在注意(MLA)中建立的术语,我们将 指定为“上算子”的潜在映射。

这种分解原则系统地扩展到“门算子”。另一方面,对于从低维到高维空间映射的“下算子” ,分解必然采取逆形式:,其中 和 。

为了优化模型表达能力和参数效率之间的权衡,我们引入了一种结构化的分组机制,其中每组 个专家共享相同的潜在映射矩阵 和 。这种设计建立了可配置的架构可能性谱:当 时,每个专家保持独立的潜在空间,MoLE 功能上等同于标准的 MoE 架构。相反,随着 增加,模型在与专家专业化相称的权衡下实现更高的参数效率。这种参数化允许系统探索专家混合架构中的效率-性能前沿。

3.4 MoLE的正式定义

我们现在提供MoLE架构的正式定义。设 表示取整函数,并且 表示专家特定潜在变换的集合。第 个专家定义为:

因此,采用MoLE架构的FFN层的输出计算为:

这种公式有效地将专家特定计算从共享降维操作中分离出来,从而在保持模型表达能力的同时实现显著的参数效率。MoE和MoLE架构之间的视觉比较如图1所示。

3.5 MoLE的效率优势

MoLE架构在从内存使用到通信开销等多个计算维度上比标准细粒度MoE模型提供了显著的效率优势。为了量化这些优势,我们对MoE和MoLE在单个FFN层上的进行了对比分析,假设隐藏维度 、MoE中间维度 和专家数量 的配置相同。

架构 参数计数 每次前向传递的FLOPs
标准MoE 3 Nmn
MoLE(我们的)

表1:单个FFN层的标准MoE和我们提出的MoLE架构之间的效率比较。参数计数代表专家模块中可训练参数的总数,而FLOPs测量在top-1路由情况下的前向传递的计算成本。在这里, 表示隐藏维度, 表示MoE中间维度, 表示专家数量, 表示每组潜在专家的数量。

参数效率 如表1所示,MoLE相对于标准MoE大幅减少了参数计数,特别是在现代LLM中典型的 的情况下。例如,在DeepSeek-V3中, 而 。参数减少源于我们的潜在参数化,其中专家特定变换在较低维度的潜在空间 内操作,而不是直接作用于高维度的隐藏空间 。 计算效率 除了节省参数外,MoLE还通过FLOPs衡量减少了计算成本。当专家数量 较大且 较小(意味着使用较少的潜在投影矩阵)时,效率提升尤为明显。这种计算优势转化为更快的推理和训练时间,尤其是在内存带宽是瓶颈的硬件上。 通信开销减少 MoLE的一个重要但常常被忽视的好处是在分布式训练和推理过程中减少了全对全通信成本。在标准MoE模型中,必须在设备之间同步完整的专家参数(总共 3 Nmn)。相比之下,MoLE只需要同步显著较少的参数,减少网络带宽需求并提高分布式部署的可扩展性。 内存访问模式 MoLE在计算过程中还提供了更好的缓存效率。潜在变换中使用的较小矩阵 比标准MoE中较大的矩阵()表现出更好的引用局部性,可能导致更高利用率的快速缓存内存和减少主内存带宽需求。

4 MoE到MoLE转换的理论分析

在本节中,我们建立了将标准专家混合(MoE)模型转换为其相应的潜在专家混合(MoLE)对应物的理论基础。我们以“上算子”为例进行说明。为了分析清晰,我们做了两个简化假设:(1)在本次分析中省略 的下标以简化符号,(2)考虑 的情况,这意味着所有专家共用一个单一的潜在空间算子。 保留“下算子”。注意对于“下算子” ,它将中间项从低维映射到高维,捕捉给定专家的内在属性。此外,附录C中的实验证明,保持“下算子”的结构比不保持表现得更好。因此,我们在转换后的MoLE架构中保持“下算子”,仅将“上算子”和“门算子”从MoE结构转换为MoLE结构。

4.1 通过矩阵分解进行转换

对于与专家 相关的给定权重矩阵 ,我们旨在找到对应的矩阵 和 ,使得对于任何输入 ,都有 。这种转换代表了训练后视角,我们试图将预训练的MoE参数转换为MoLE架构。 一种直接的方法是确定矩阵 和 ,使得对于所有 ,都有 。这自然导致以下优化问题:

其中 表示Frobenius范数。根据SVD分解技术,问题方程4.1承认理论上的最优解。

通过奇异值分解得到闭式解。显然,问题方程4.1有无限多个解,因为可以通过选择常数 将一个最优解 转换为另一个 。因此,这里我们只提供“一个”最优解。

为了推导问题方程4.1的闭式解,我们将矩阵合并为以下块状结构:

通过这种符号表示,问题方程4.1可以重新表述为:

其中 和 。 虽然问题方程4.3由于其欠定性质有无限多个解,但Eckart-Young-Mirsky定理(Schmidt,1989)提供了一个关于Frobenius范数的最优解。具体来说,令 为 的奇异值分解(SVD),其中:

  • 是一个正交矩阵,其列是 的左奇异向量
  • 是一个矩形对角矩阵,其对角线上有奇异值
  • 是一个正交矩阵,其列是 的右奇异向量
    令 为截断版本的 ,仅保留最大的 个奇异值: 。根据Eckart-Young-Mirsky定理,问题方程4.3的最优解为:
    其中 包含 的前 列, 是一个包含最大 个奇异值平方根的对角矩阵, 包含 的前 列。这种分解给出了所有秩- 近似中最小的Frobenius范数误差,误差近似为:
    # 4.2 最小化分解残差
    在前一节中,我们从理论上建立了将MoE模型转换为MoLE对应物的方法。在这里,我们讨论这种转换的一个关键方面:最小化因分解专家权重而不可避免产生的残差误差。我们首先建立精确分解可能的精确条件。 定理1. 给定矩阵 ,其中 ,存在矩阵 和共同矩阵 ,使得对于所有 ,有 ,当且仅当存在一个 -维子空间 ,满足:
    证明。必要性:假设存在 和 ,使得对于所有 ,有 。由于 并且我们需要精确分解,所以 必须是行满秩的(即 )。因此,它的右零空间 的维度为 。对于任何向量 ,我们有:
    这意味着对于所有 ,。设置 ,我们获得一个包含在所有 交集中的 -维子空间。 充分性:假设存在一个 -维子空间 ,使得对于所有 ,有 。我们可以构造 ,使得 。由于 ,根据秩-零化度定理,矩阵 的秩为 。对于每个 ,包含 意味着任何由 映射为零的向量也被 映射为零。根据线性代数基本定理,这意味着 ,其中 表示行空间。因此,存在 ,使得对于每个 ,有 。
    定理1提供了因子分解问题的几何解释:只有当所有专家矩阵的零空间共享足够大的公共子空间时,才能进行精确分解。然而,在实际的大语言模型(LLM)实现中,如我们的实证分析所确认的那样,MoE模型的FFN层很少满足这一条件。
    鉴于精确分解通常是无法实现的,我们现在考虑如何通过战略性降秩来最小化近似误差。秩-零化度定理(Lang,1987)指出,对于任何线性映射 :
    在我们的上下文中, 表示隐藏空间 , 表示MoE中间空间 。因此,对于所有 ,有 。 这种关系建议了一种战略性方法:通过降低每个 的秩,我们可以增加其零空间的维度。具体来说,如果我们约束每个 的秩为 ,那么 。这增加了在交集 中找到一个实质性的公共子空间的概率,从而提高了我们分解的质量。
    我们通过计算每个 的低秩近似来实现这一方法,然后再尝试分解。重要的是,我们在附录A中的实证实验表明,这种降秩对模型性能的影响很小,这表明MoE模型中的这些FFN运算符本质上具有可以利用的低秩结构,以实现更有效的参数化。
    4.3 转换MoE到MoLE:一个统一的框架
    基于我们在第4.1节和第4.2节中的理论分析,我们现在提出了一个统一的系统框架,将专家混合(MoE)模型转换为更具参数效率的潜在专家混合(MoLE)对应物。我们的框架包括两个主要步骤,经过精心设计以保持模型能力,同时实现潜在参数化。
    步骤1:降秩。对于每个专家运算符 ,我们计算一个低秩近似 ,以保持原始运算符的基本功能,同时增加其 零空间的维度。这一步骤的动机来源于我们的理论分析,显示更大的零空间交集有助于更好的分解。我们根据经验验证确定最佳秩,以确保性能退化最小。
    步骤2:矩阵分解。使用降秩后的运算符 ,我们应用矩阵分解技术来识别共享投影矩阵 和专家特定的潜在变换 。在这一步骤中,我们采用第4.1节详细描述的基于SVD的方法,该方法针对Frobenius范数提供最优分解。
    我们在算法1中正式化了我们的方法,该算法提供了将MoE参数转换为MoLE架构的完整计算程序。
    算法1 MoE到MoLE的转换
    输入:专家权重矩阵 \(\left\{W^{i}\right\}_{i=1}^{N}\),目标秩 \(r\),潜在维度 \(m\)
    输出:潜在专家矩阵 \(\left\{A^{i}\right\}_{i=1}^{N}\),共享投影矩阵 \(B\)
    // 第一步:降秩
    for \(i=1\) to \(N\) do
    计算SVD: \(W^{i}=U^{i} \Sigma^{i}\left(V^{i}\right)^{\top}\)
    截断至秩 \(r: \tilde{W}^{i}=U^{i}[:,: r] \cdot \Sigma^{i}[: r,: r] \cdot\left(V^{i}[:,: r]\right)^{\top}\)
    end for
    // 第二步:矩阵分解
    构造连接矩阵: \(\tilde{W}=\left[\tilde{W}^{1} ; \tilde{W}^{2} ; \ldots ; \tilde{W}^{N}\right]\)
    计算SVD: \(\tilde{W}=U \Sigma V^{\top}\)
    提取前 \(m\) 个奇异值和向量
    \(A=U[:,: m] \cdot \Sigma[: m,: m]^{1 / 2}\)
    \(B=\Sigma[: m,: m]^{1 / 2} \cdot V[:,: m]^{\top}\)
    将 \(A\) 分割成 \(N\) 块以获取 \(\left\{A^{i}\right\}_{i=1}^{N}\)
    返回 \(\left\{A^{i}\right\}_{i=1}^{N}, B\)
    该算法提供了一个计算效率高的程序,将标准MoE层转换为MoLE架构。降秩参数 和潜在维度 作为超参数,可以根据性能保存和参数效率之间的平衡进行调整。通常,我们设置 ,其中 是输入维度。 我们的框架适用于MoE层中的所有线性运算符,包括上、下和门运算符。通过独立应用于每个运算符,我们在保持模型质量的同时将整个MoE模型转换为MoLE,正如我们在实验评估中所展示的那样。
    5 实验
    本节展示了在预训练GPT-2(Radford等人,2019)模型及其在下游任务中的后续性能评估背景下,潜在专家混合(MoLE)和专家混合(MoE)架构之间的全面比较分析。
    5.1 实验设置
    MoE和MoLE模型配置了相同的架构参数,除了它们的前馈网络(FFN)层结构,详见表6。两种架构在其各自的FFN层中实现 位专家。对于MoLE模型,我们设定 ,表示每组8位专家共享一个共同的潜在表示空间。所有模型都在Wikipedia English(Foundation)上进行训练,序列截断到最大长度为512个标记。训练使用AdamW优化器,所有实验条件下保持一致的超参数。模型架构和训练配置的详细规格见表6。


图2:MoE和MoLE模型在英语维基百科数据集上的训练损失曲线比较。收敛模式显示出相当的性能,MoLE在使用显著较少参数的情况下表现出稍高的损失值。
5.2 参数效率
如表6所示,引入共享潜在空间的MoLE架构与标准MoE架构相比显著减少了模型参数数量。具体来说,MoLE在非嵌入参数上实现了40%的减少,同时保持了相当的表示能力。这种参数效率代表了模型可扩展性的重要进展,不会牺牲性能。
5.3 训练动态
图2展示了MoE和MoLE模型的预训练收敛特性。训练损失轨迹显示,尽管MoLE的参数数量显著减少,但它仍保持竞争性的优化动态。尽管MoE模型收敛到略低的损失值,但在考虑MoLE获得的显著参数效率时,这种差异是可以忽略的。这些结果表明,MoLE中的共享潜在表示有效地保留了必要的建模能力,同时消除了传统MoE架构中固有的冗余参数化。
6 结论
在本文中,我们提出了潜在专家混合(MoLE),这是一种新颖的参数高效架构,解决了传统MoE模型的根本局限性。通过将专家权重矩阵分解为共享投影和在低维潜在空间内的专家特定变换,MoLE显著减少了参数数量和计算开销,而不会牺牲模型性能。我们的综合实证评估表明,MoLE不仅在各种语言任务中保留了标准MoE模型的能力,还实现了更大规模语言模型的经济扩展。
我们为将预训练的MoE模型转换为MoLE架构开发的理论框架提供了一种有原则的方法来进行专家参数化,提供了对神经网络冗余性质的见解。随着模型规模和复杂性的不断增长,在保持性能的同时优先考虑参数效率的架构(如MoLE)将在实际部署场景中变得越来越有价值。未来的工作可以探索将这些分解技术扩展到变压器架构的其他组件,并研究基于输入复杂度的潜在空间维度动态适应。
参考文献
Rishi Bommasani, Drew A Hudson, Ehsan Adeli, Russ Altman, Simran Arora, Sydney von Arx, Michael S Bernstein, Jeannette Bohg, Antoine Bosselut, Emma Brunskill, 等人. 基础模型的机会与风险. arXiv预印本arXiv:2108.07258, 2021.
Fuzhen Zhuang, Zhiyuan Qi, Keyu Duan, Dongbo Xi, Yongchun Zhu, Hengshu Zhu, Hui Xiong, 和 Qing He. 转移学习的全面调查. IEEE会刊, 109(1):43-76, 2020.
Josh Achiam, Steven Adler, Sandhini Agarwal, Lama Ahmad, Ilge Akkaya, Florencia Leoni Aleman, Diogo Almeida, Janko Altenschmidt, Sam Altman, Shyamal Anadkat, 等人. Gpt-4 技术报告. arXiv预印本arXiv:2303.08774, 2023.
Abhimanyu Dubey, Abhinav Jauhri, Abhinav Pandey, Abhishek Kadian, Ahmad Al-Dahle, Aiesha Letman, Akhil Mathur, Alan Schelten, Amy Yang, Angela Fan, 等人. Llama 3 模型群. arXiv预印本arXiv:2407.21783, 2024.
Daya Guo, Dejian Yang, Haowei Zhang, Junxiao Song, Ruoyu Zhang, Runxin Xu, Qihao Zhu, Shirong Ma, Peiyi Wang, Xiao Bi, 等人. Deepseek-r1: 通过强化学习激励大语言模型中的推理能力. arXiv预印本arXiv:2501.12948, 2025.
Robert A Jacobs, Michael I Jordan, Steven J Nowlan, 和 Geoffrey E Hinton. 自适应局部专家混合. 神经计算, 3(1):79-87, 1991.
Michael I Jordan 和 Robert A Jacobs. 层次专家混合物与EM算法. 神经计算, 6(2):181-214, 1994.
Damai Dai, Chengqi Deng, Chenggang Zhao, RX Xu, Huazuo Gao, Deli Chen, Jiashi Li, Wangding Zeng, Xingkai Yu, Yu Wu, 等人. Deepseekmoe: 朝着专家混合语言模型的终极专业化迈进. arXiv预印本arXiv:2401.06066, 2024.
Qwen Team. Qwen1.5-moe: 使用激活参数的三分之一匹配7B模型性能, 2024年2月. URL https://qwenlm.github.io/blog/qwen-moe/.
Rahaf Aljundi, Punarjay Chakravarty, 和 Tinne Tuytelaars. 专家门:使用专家网络进行终身学习. 在IEEE计算机视觉和模式识别会议论文集上, 第3366-3375页, 2017.
Ronan Collobert, Samy Bengio, 和 Yoshua Bengio. 并行支持向量机混合用于非常大规模问题. Advances in Neural Information Processing Systems, 14, 2001.
Marc Deisenroth 和 Jun Wei Ng. 分布式高斯过程. 在国际机器学习会议上, 第1481-1490页. PMLR, 2015.
David Eigen, Marc’Aurelio Ranzato, 和 Ilya Sutskever. 学习深度专家混合中的因式表示. arXiv预印本arXiv:1312.4314, 2013.
Carl Rasmussen 和 Zoubin Ghahramani. 高斯过程专家的无限混合. Advances in neural information processing systems, 14, 2001.
Babak Shahbaba 和 Radford Neal. 使用Dirichlet过程混合的非线性模型. Journal of Machine Learning Research, 10(8), 2009.
Lucas Theis 和 Matthias Bethge. 使用空间LSTMs生成图像建模. Advances in neural information processing systems, 28, 2015.
Dmitry Lepikhin, HyoukJoong Lee, Yuanzhong Xu, Dehao Chen, Orhan Firat, Yanping Huang, Maxim Krikun, Noam Shazeer, 和 Zhifeng Chen. Gshard: 通过条件计算和自动分片扩展巨型模型. arXiv预印本arXiv:2006.16668, 2020.
Nan Du, Yanping Huang, Andrew M Dai, Simon Tong, Dmitry Lepikhin, Yuanzhong Xu, Maxim Krikun, Yanqi Zhou, Adams Wei Yu, Orhan Firat, 等人. Glam: 通过专家混合高效扩展语言模型. 在国际机器学习会议上, 第5547-5569页. PMLR, 2022. William Fedus, Barret Zoph, 和 Noam Shazeer. Switch transformers: 使用简单高效的稀疏性扩展到万亿参数模型. 机器学习研究杂志, 23(120):1-39, 2022.
Fuzhao Xue, Zian Zheng, Yao Fu, Jinjie Ni, Zangwei Zheng, Wangchunshu Zhou, 和 Yang You. Openmoe: 开放专家混合语言模型的早期尝试. arXiv预印本arXiv:2402.01739, 2024.
Barret Zoph, Irwan Bello, Sameer Kumar, Nan Du, Yanping Huang, Jeff Dean, Noam Shazeer, 和 William Fedus. St-moe: 设计稳定且可转移的稀疏专家模型. arXiv预印本arXiv:2202.08906, 2022.
Aixin Liu, Bei Feng, Bing Xue, Bingxuan Wang, Bochao Wu, Chengda Lu, Chenggang Zhao, Chengqi Deng, Chenyu Zhang, Chong Ruan, 等人. Deepseek-v3技术报告. arXiv预印本arXiv:2412.19437, 2024.
Bo Pan, Xianghong Wu, Jianquan Xie, Chen Chen, Zhongxiang Wang, Yanru Liu, Fangyu Niu, Chuang Gan, 和 Xuming He. DS-MoE: 具有密集初始化和稀疏训练的参数和计算高效稀疏激活模型. arXiv预印本arXiv:2401.14079, 2024.
Yoni Zadouri, Mor Geva, 和 Jonathan Berant. MOV: 通过专家软合并实现参数和计算高效的专家混合架构. arXiv预印本arXiv:2308.01589, 2023.
Joan Puigcerver, Carlos Riquelme, Basil Mustafa, 和 Eygeny Piatski. Soft MoE: 使用部分激活的软专家混合变压器交易延迟以获取计算效率. 在第39届国际机器学习会议论文集中, 第18013-18030页. PMLR, 2022.
Zhenyu Zhou, Li Dong, Xiaodong Liu, Hanxu Zhao, Jianfeng Gu, 和 Furu Wei. 专家选择:基于标记上下文路由到正确专家的高效大规模语言模型. arXiv预印本arXiv:2208.02871, 2022.
Aidan Zhou, David Dohan, Adam Tauman Kalai, Chuan Li, Paul Mishkin, Weijie Peng, Rune Yang Wang, 和 Andrew Y Ng. Brainformers: 用效率换取简单性. arXiv预印本arXiv:2306.00008, 2023.
Stephen Roller, Sainbayar Suleman, Arthur Szlam, Jason Weston, 和 Antoine Bordes. Hash Layers for Large Sparse Models. In Advances in Neural Information Processing Systems, volume 34, pages 15723–15735, 2021.
Victor JP Costa, Nadia Gargrani, Ariel Feldman, Pedro Pinheiro, et al. Thor: Tailoring Expert Routing in Mixture of Experts. arXiv preprint arXiv:2210.05012, 2022.
Suchin Gururangan, Ana Marasović, Swabha Swayamdipta, Kyle Lo, Iz Beltagy, Doug Downey, 和 Noah A Smith. Demix Layers: Disentangling Domains for Modular Language Modeling. In Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pages 5557–5576, 2021.
Yaqing Zhang, Kajuan Liu, 和 Xiaoyong Dong. Adamix: 参数高效模型调优的混合自适应方法. arXiv预印本arXiv:2107.08996, 2021.
Yao Wu, Haotian Gao, Ninghao Wang, Qing Zhang, Hao Dong, Jitao Sang, 和 Changsheng Xu. Lora-MoE: 大型语言模型中Lora专家混合改进持续训练. arXiv预印本arXiv:2212.10670, 2022.
Hua Ye, Zhe Wang, Chen Zhang, 和 Houfeng Wang. Mola: 使用适配器混合增强语言适配. arXiv预印本arXiv:2305.16635, 2023.
Joshua Ainslie, James Lee-Thorp, Michiel De Jong, Yury Zemlyanskiy, Federico Lebrón, 和 Sumit Sanghai. GQA: 从多头检查点训练通用多查询变压器模型. arXiv预印本arXiv:2305.13245, 2023.
Erhard Schmidt. 关于线性和非线性积分方程的理论. In Integralgleichungen und Gleichungen mit unendlich vielen Unbekannten, pages 188–233. Springer, 1989. Serge Lang. 线性代数. Springer Science & Business Media, 1987. Alec Radford, Jeff Wu, Rewon Child, David Luan, Dario Amodei, 和 Ilya Sutskever. 语言模型是无监督的多任务学习者. 2019. URL https://api.semanticscholar.org/CorpusID:160025533.
Wikimedia Foundation. Wikimedia 下载. URL https://dumps.wikimedia.org. Dan Hendrycks, Collin Burns, Steven Basart, Andy Zou, Mantas Mazeika, Dawn Song, 和 Jacob Steinhardt. 测量大规模多任务语言理解. 国际学习表示会议 (ICLR) 论文集, 2021.
Karl Cobbe, Vineet Kosaraju, Mohammad Bavarian, Mark Chen, Heewoo Jun, Lukasz Kaiser, Matthias Plappert, Jerry Tworek, Jacob Hilton, Reiichiro Nakano, Christopher Hesse, 和 John Schulman. 训练验证器解决数学文字问题. arXiv预印本arXiv:2110.14168, 2021.
Stephen Merity, Caiming Xiong, James Bradbury, 和 Richard Socher. Pointer Sentinel 混合模型, 2016.
Leo Gao, Jonathan Tow, Baber Abbasi, Stella Biderman, Sid Black, Anthony DiPofi, Charles Foster, Laurence Golding, Jeffrey Hsu, Alain Le Noac’h, Haonan Li, Kyle McDonell, Niklas Muennighoff, Chris Ociepa, Jason Phang, Laria Reynolds, Hailey Schoelkopf, Aviya Skowron, Lintang Sutawika, Eric Tang, Anish Thite, Ben Wang, Kevin Wang, 和 Andy Zou. 少样本语言模型评估框架, 2024年7月. URL https://zenodo.org/records/12608602.


图3:Qwen1.5-MoE-A2.7B模型中专家模块的奇异值分布。相对均匀的分布表明权重矩阵表现出高秩特征,没有信息集中在少数几个奇异值上的显著现象。
A 神经网络中的参数冗余
本节提供了前馈网络(FFN)层中存在显著参数冗余的实证证据,从而证实了第4节中提出的理论框架。我们使用Qwen1.5-MoE-A2.7B(Team,2024),这是一个最先进的专家混合架构,包含143亿总参数,但在推理过程中仅激活27亿参数。该架构中的每个FFN层都具有中间维度 ,隐藏维度 ,以及 个不同的专家模块。 如图3所示,专家模块的奇异值分布表明不存在主导奇异值——这一发现反驳了关于神经网络权重矩阵固有低秩结构的传统假设。这一观察结果表明,天真地应用统一低秩近似的降维技术可能会消除对性能至关重要的参数。
尽管如此,我们证明了尽管权重矩阵 、 和 表现出明显的满秩特性,但这并不是最优模型性能的先决条件。通过系统实验,我们确定这些运算符可以用精心校准的低秩近似有效替代,同时保持相当的性能指标。
在我们的分析中,我们将任何矩阵 的比率- 低秩近似 定义为一个秩等于 的矩阵,其中 。根据Eckart-Young-Mirsky定理(Schmidt,1989),这些近似是通过奇异值分解(SVD)计算的,仅保留最大的 个奇异值及其对应的奇异向量。
为了严格评估在低秩约束下的模型能力,我们在三个基准任务上评估性能:MMLU(Hendrycks等人,2021)、GSM8K(Cobbe等人,2021)和Wikitext-2(Merity等人,2016)——这是原始Qwen报告中使用的相同评估套件。所有实验均使用lm-evaluation-harness评估框架(Gao等人,2024)。表2展示了比较结果。
表2说明了秩减少与模型性能之间的关系。基线情况 表示原始、未修改的模型,其权重矩阵为全秩。值得注意的是,当将FFN运算符的秩减少 时,我们观察到没有显著的性能下降。实际上,在GSM8K基准测试中,降秩模型表现优于原始模型,提高了1.1个百分点,同时在MMLU准确率和Wikitext-2 PPL上保持相当的性能。 | 低秩比 | GSM8K (%) | MMLU (%) | Wikitext PPL | | :–: | :–: | :–: | :–: | | 1.0 (Original) | 60.1 | | | | 0.8 | | 60.3 | 9.65 | | 0.6 | 60.1 | 59.4 | 9.85 |
表2:不同低秩近似比率下QwenMoE模型在多个基准测试中的性能比较。对于低秩比率 的情况,低秩估计模型在各种任务上与原始模型竞争。
这些实证结果提供了有力的证据,尽管FFN权重矩阵在数学上具有全秩属性,但大量参数包含可以通过低维表示有效近似的冗余信息。这种参数冗余现象构成了我们在第4节中理论分析的实证基础。
B 从MoE到MoLE的转换
本节介绍了我们将标准MoE架构转换为其相应的MoLE对应物的实证分析。我们具体研究了Qwen1.5-MoE-A2.7B模型,并系统地考察了改变潜在空间配置参数 对模型性能的影响。 如第3节所述,MoLE架构中的参数 是一个关键超参数,控制着参数效率和模型表达能力之间的权衡。我们评估了三种不同的 配置,其中:

  • 对应原始MoE架构(基线)
  • 表示具有多个潜在空间的平衡MoLE配置
  • 表示每层FFN只有一个共享潜在空间的极端情况

为了与附录A保持一致,我们在三个已建立的基准上评估模型性能:MMLU(推理)、GSM8K(数学推理)和Wikitext-2(语言建模困惑度)。 表3展示了不同MoLE配置下的比较性能。

每个潜在空间的专家数 GSM8K (%) MMLU (%) Wikitext-2 PPL
1 (原始MoE)
10 59.4 60.0 9.74
60 14.3 40.1 25.97

表3:不同MoLE配置下Qwen1.5-MoE-A2.7B的性能比较。平衡配置 在参数显著减少的情况下保持与原始模型接近的性能。单个潜在空间配置 显示出显著的性能退化。

结果清楚地表明了潜在空间配置与模型性能之间的关系。平衡的MoLE配置 实现了与原始MoE架构相当的性能,在所有基准测试中只有轻微的退化:GSM8K降低0.7个百分点,MMLU降低1.0个百分点,Wikitext-2困惑度增加2.6%。此配置成功减少了参数数量,同时保留了模型的大部分能力。 相比之下,具有单一共享潜在空间的极端配置 每层FFN显示出灾难性的性能退化:GSM8K降低45.8个百分点,MMLU降低20.9 百分点,困惑度增加173.7%。这种戏剧性的性能崩溃实证验证了我们的理论分析,即需要多个潜在空间来保留原始MoE架构的表达能力。

这些发现提供了令人信服的证据,即适当配置一定数量的潜在空间后,MoLE架构可以在保持竞争力性能的同时实现显著的参数效率。此外,它们明确了在基于专家的神经架构中应用潜在空间分解的实际界限。

C “下算子”的关键作用

本节提供了实证证据,表明“下算子”在专家混合(MoE)大规模语言模型(LLMs)中包含比其他组件更多的本质信息。通过系统的实验,我们确立了保持该运算符结构对维持模型性能的重要性。

与附录B中的方法一致,我们使用固定潜在参数 的Qwen1.5-MoE-A2.7B模型。为了隔离“下算子”的重要性,我们实施了两种不同的转换方法:

  1. 部分转换(“up+gate”) - 将“上算子”和“门算子”转换为其潜在专家混合(MoLE)等效项,同时保留原始“下算子”。
  2. 完全转换(“all”) - 将所有三个组件(“上”,“门”和“下”算子)转换为相应的潜在空间表示。

我们在多个下游任务上评估这些转换,结果总结在表4中。

转换类型 GSM8K MMLU Wikitext-2 PPL
原始MoE
部分(“up+gate”) 59.4 60.0 9.74
完整(“all”) 43.2 57.0 10.63

表4:不同转换配置下Qwen1.5-MoE-A2.7B的性能比较。结果表明保持“下算子”结构对维持模型性能至关重要。

表4中的结果显示了一个明确的性能层次结构。原始MoE模型在所有指标上实现了最佳性能。部分转换,保留了“下算子”,仅表现出轻微的性能退化(GSM8K降低0.7%,MMLU降低1.0%,困惑度增加0.25)。相比之下,完全转换,修改了包括“下算子”在内的所有运算符,导致显著的性能恶化(GSM8K降低16.9%,MMLU降低4.0%,困惑度增加1.14)。 这些发现提供了令人信服的证据,表明“下算子”包含对模型性能产生重大影响的关键信息。当该运算符被转换到潜在空间时,会发生显著的信息丢失,从而在推理和知识密集型任务上显著降低能力。这种运算符之间不对称的重要性表明,对MoE模型的架构修改应优先保留“下算子”的结构以维护性能完整性。

D 下游任务评估

为了严格评估所提出的MoLE架构的泛化能力,我们在一系列多样化的下游任务上进行了全面评估。比较性能指标见表5。 | 模型 | Wikitext-2 | | :–: | :–: | | 标准MoE | | | MoLE | 81.57 |

表5:标准MoE和MoLE模型在语言建模基准任务上的性能比较。粗体值表示更优性能。

表5中的实证结果表明,尽管所提出的MoLE模型使用的参数比标准MoE架构少约40%,但它在PPL任务上实现了相当的性能。这种参数效率且无显著性能退化的特点突显了我们所提出架构修改的有效性。

E 训练参数

超参数 MoE MoLE
FFN层大小 151 M 94 M
词汇量大小 50257 50257
层数 12 12
注意头数 8 8
隐藏维度 512 512
中间维度 1024 1024
MoE中间维度 256 256
专家数 32 32
每个潜在空间的专家数 1 8
负载平衡机制 辅助损失 辅助损失
优化器 AdamW AdamW
学习率
学习率调度 余弦衰减 余弦衰减

表6:MoE和MoLE模型的模型架构和训练超参数配置。

Logo

技术共进,成长同行——讯飞AI开发者社区

更多推荐