阿里提出MoE「专家分化」新策略:打破同质化,让专家各司其职|ICLR2026
创始人
2026-03-01 02:02:55
0

阿里未来生活实验室 投稿

量子位 | 公众号 QbitAI

MoE(混合专家模型)已经成为大模型时代的“版本答案”。

从GPT-5到DeepSeek-V3,几乎所有最强模型背后都有MoE的影子。

但你是否想过:你模型里那几十个“专家”,可能都在干同一件事?

在MoE预训练中,原本期望这些专家“各司其职”,最后发现他们竟然“同质化”了?学术界将这种现象称为“专家同质化”(Expert Homogenization)。这直接导致了MoE模型参数的浪费和Scaling能力的封顶。

来自阿里巴巴未来生活实验室的研究团队认为,这背后是MoE预训练过程中的信息缺失。

为了解决这一顽疾,来自阿里巴巴集团的研究团队提出了一种全新的专家分化学习(Expert Divergence Learning)策略。他们利用预训练数据中天然存在的“领域标签”,设计了一种新的辅助损失函数,鼓励不同领域的Token在路由统计信息上表现出差异,从而引导专家分化出真正的专业能力。

这一研究(Expert Divergence Learning for MoE-based Language Models)已中稿ICLR 2026

核心洞察:多样性≠有效分工

为什么传统的MoE训练会导致专家同质化?团队在论文中揭示了一个被长期忽视的数学盲区。

现有的负载均衡损失(Load-Balancing Loss)虽然能提高总的路由多样性(Total Divergence),但它是一种“盲目”的提升。它只在乎“所有专家都被用到了”,却不在乎“是被谁用到的”。

这就好比公司发奖金,只看大家是不是都忙起来了,却不管是不是所有人都在重复造轮子。

阿里团队提出,真正的专家化,应该建立在“领域差异”之上。需要将总的路由多样性,通过数学手段引导到“域间差异”(Inter-Domain Divergence)上。

基于此,他们提出了专家分化学习(Expert Divergence Learning)

硬核方法论:如何在预训练中强迫专家“分家”?

为了打破僵局,阿里团队提出了一种纯粹的、即插即用的训练目标函数——专家分化损失(Expert Divergence Loss, LED

它的设计灵感来源于一个优美的数学直觉:MoE的路由多样性是可以被“解构”的

数学原理:多样性分解定理(Divergence Decomposition)

论文在理论部分使用了一个关键公式:

总多样性(Dtotal) =域间多样性(Dinter) +域内多样性(Dintra)

传统做法的缺陷:以前的负载均衡Loss只是盲目地推高左边的Dtotal。但在缺乏引导的情况下,模型倾向于通过增加Dintra(让同一个领域的Token乱跑)来应付考试,而不是增加Dinter(让不同领域的Token分开跑)

新方法的Insight:LED的本质,就是精准锁定并最大化Dinter。它通过最大化不同领域之间的“排斥力”,分配总多样性的额度给“域间差异”,从而迫使专家发生功能分化。

几何直观:把专家“推”向边缘

这个Loss的计算过程可以拆解为三步:

第一步:从Token到领域(Aggregation)在训练过程中,模型通常会接收到不同来源的数据(如数学题、代码片段、新闻)。算法首先计算出当前Batch中,属于“数学域”的所有Token的平均路由分布,以及属于“代码域”的平均路由分布。

第二步:计算“排斥力”(Divergence Computation)有了不同领域的平均路由分布,如何衡量它们的差异?团队选择了JS散度(Jensen-Shannon Divergence)

JS散度是对称且有界的,非常适合用来衡量两个概率分布的“距离”。

  • 如果“数学专家组”和“代码专家组”的人员构成高度重叠,JS散度就会很低。

  • 如果它们使用的是两套完全不同的人马,JS散度就会很高。

第三步:最大化差异(Optimization)LED的最终目标,就是最大化所有领域对之间的JS散度。

这相当于给梯度下降过程施加了一个强大的“排斥力”:“数学题正在往1号专家那里跑,那么写代码的Token请尽量离1号专家远一点!”

通过这种显式的监督信号,模型不再是随机地分配专家,而是被迫学习出一种与语义高度对齐的路由策略。

粒度实验:49类标签>3类标签

这种分化学习,分得越细越好吗?

为了验证这一点,研究团队构建了两种不同粒度的领域标签体系:

1. 粗粒度(3-Class):简单分为英文、中文、数学。

2. 细粒度(49-Class):利用分类器将数据细分为49个具体主题(如物理、历史、计算机科学、法律、医学等)

后续实验结果呈现出明显的“粒度缩放定律”:使用49类细粒度标签训练的模型,性能显著优于使用3类标签的模型。

这说明,给专家的分工指令越具体(例如:“不仅要区分文理,还要区分物理和化学”),MoE模型涌现出的专业能力就越强。

实验实锤:SOTA性能与可视化证据

研究团队在3B、8B、15B三种规模上,进行了长达100B Tokens的从零预训练(Training from scratch)

在预训练阶段最重要的训练损失对比上,专家分化学习在语言建模损失上展现出来稳定且显著的训练收益。

全面超越基线在MMLU、C-Eval、CMMLU、ARC等7个主流基准测试中,搭载了专家分化学习的模型全面超越了标准MoE基线。特别是在15B模型上,细粒度策略带来的平均分提升超过1个百分点——在预训练领域,这通常意味着数百亿Token的训练差距。

可视化:一眼看穿“伪专家”与“真专家”

为了直观展示专家是否真的“分家”了,团队绘制了极具说服力的三角单纯形图(Ternary Simplex Plot)

下图中,三角形的三个顶点分别代表“数学”、“中文”、“英文”三个纯粹领域。

左图(Baseline):所有的点都挤在三角形中间。这说明无论输入什么领域,激活的专家都差不多,专家是混日子的“通用工”。

右图(Ours):点明显向三角形的三个顶点发散,紧贴边缘。这证明处理数学的专家、处理中文的专家,已经是两拨完全不同的人马,实现了真正的专精特新

不仅效果好,还省资 值得一提的是,LED计算非常轻量级,仅涉及Router输出的低维向量运算。实验数据显示,相比标准MoE,新方法的训练吞吐量几乎没有下降(TPS保持一致)且额外推理成本为零。

总结

阿里团队的这项工作(Expert Divergence Learning),并没有盲目地堆砌算力或修改模型架构,而是从损失函数的数学本质入手,重新思考了MoE的“专家”定义。

它证明了:利用数据中天然存在的“领域结构”作为监督信号,是挖掘MoE潜力的最高效途径。同时,这种充分挖掘语料立体结构信息 ”的训练范式,在高质量数据日趋枯竭的今天,或许能帮助预训练突破瓶颈,走向一个新的Scaling维度。

相关内容

热门资讯

一季度银行业罚金创近年新高!这... 一季度我国银行业被罚没6.22亿元,这一数据为2023年以来同期最高。南都湾财社记者根据企业预警通数...
4月13日新华SHS新兴消费(... 证券之星消息,4月13日,新华SHS新兴消费(989006)指数报收于182200.0点,跌84.0...
满坤科技:公司已有部分产品应用... 每经AI快讯,有投资者在投资者互动平台提问:公司的PCB产品有多大比例是用在数据中心或者说通信算力这...
上证夜读|朱勇:城市怎样打造资... 编者按 《上证夜读》是上海证券报微信公众号着力打造的一个品牌栏目,为进一步提升内容的原创性、思想性、...
从流量到资产,服饰品牌的下一场... 服饰行业正在经历一场残酷的“去伪存真”。 过去几年,受直播冲击,许多品牌陷入一种诡异的循环:直播间里...
加密货币市场集体走低 全球爆仓... 观点网讯:4月13日早间,比特币价格再度走低,日内一度跌至70500美元附近。 截至发稿,比特币价格...
黄金投资最容易踩的5个坑,90... 黄金,一直是中国人心中的“硬通货”,不管是长辈囤金保值,还是年轻人跟风投资,大家都觉得“买黄金稳赚不...
下调经济上调通胀,长线利好金价 国际货币基金组织和世界银行刚刚大幅下调全球经济增长预期,同时上调通货膨胀预期。但是在3月初的时候,两...
双象股份:子公司拟约25亿元投... 人民财讯4月13日电,双象股份(002395)4月13日公告,公司全资子公司重庆双象光学材料有限公司...
海底捞再通报“员工被强制买礼物... 4月13日,海底捞火锅发布《关于“伙伴自费买礼物事件”的核查跟进汇报》,具体如下—— 针对门店伙伴被...
河北盐山县法院被指拖欠加油站油... 4月11日,据澎湃新闻报道,河北沧州盐山某加油站的张帅(化名)称,2004年7月至2005年5月,盐...
国际资本悄然清仓,贡茶将驶向谁... 从3亿到20亿的估值阶梯。 《投资者网》江寂 一杯珍珠奶茶,正在酝酿一场20亿美元的资本局。 2...
外媒看宁德:中国小城如何做出全... 中新网宁德4月13日电 (吕巧琴 吴允杰)13日晚,坐落于福建省宁德市东侨经济技术开发区赤鉴湖畔的宁...
逾八成百亿级私募一季度收益为正... 来源:上海证券报 百亿级私募一季度成绩单揭晓。数据显示,一季度百亿级私募平均业绩为正,获得正收益的占...
从规模红利到价值红利,五粮液以... 4月10日,第十五届中国白酒T9圆桌会议在贵阳举行。五粮液等T9企业领导人齐聚一堂,围绕“新经典·新...
4月13日投资避雷针:美国4月... 导读:财联社4月13日投资避雷针,近日A股及海外市场潜在风险事件如下。国内经济信息方面包括:1)北交...
金融街证券首届“E站成名”ET... 在瞬息万变的资本市场中,投资者常面临诸多挑战:信息过载难以去伪存真,市场波动引发情绪焦虑,个股“黑天...
2026年智慧医疗设备选型推荐... 在医疗新基建和医院智慧化评级浪潮的推动下,智能药柜已从辅助工具演变为保障医疗安全、提升运营效率的核心...
国资拟入主“鸭王”华英农业:四... 图片来源:视觉中国 蓝鲸新闻4月13日讯(记者 代紫庭)“中国鸭业第一股”拟再度易主。 4月10日晚...
中科闻歌赴港IPO:2025年... 瑞财经 吴文婷4月12日,北京中科闻歌科技股份有限公司(以下简称“中科闻歌”)在港交所递交招股书,中...