Enhancing CTR Prediction with De-correlated Expert Networks
本文探索了专家网络的差异性对模型性能的影响,本质上是种bagging思想,从各个语义空间上提升模型的表达能力。
研究背景
- 核心问题:MoE(混合专家)模型在CTR预估中,专家网络(Expert)的多样性对效果的影响
- 关键发现:专家间差异性(不相关度)与模型AUC正相关
方法论(Hetero-MoE)
整体架构
- 异构专家:每个Expert使用独立Embedding + 不同网络结构(CrossNet/CIN/DNN等)
- 个性化Gate:基于对应Expert的Embedding生成权重
差异性增强手段
维度 | 实现方式 | 技术细节 |
---|---|---|
Embedding | 每个Expert独立Embedding表 | 避免参数共享导致的表征同质化 |
结构异构 | 混合CrossNet/CIN/DNN等不同结构 | 不同结构捕获多样特征交互模式 |
正则化 | 皮尔逊相关系数损失 | $L_corr = ∑(Pearson(E_i, E_j))$,$E_i$为Expert i的输出向量 |
实验效果
- 基准对比:Hetero-MoE vs 传统MoE
模型 | AUC提升 | 参数量 |
---|---|---|
Shared-MoE | +0.0% | 100% |
Hetero-MoE | +1.8% | 105% |
- 消融实验:
- 仅结构异构:+0.6% AUC
- 仅Embedding独立:+0.9% AUC
- 全方案:+1.8% AUC
关键公式
专家相关性损失(最小化皮尔逊系数):