方向·归正(MPI)

MoE 的 Router 每天激活专家,但从未有人规定它该如何代表专家矩阵——直到 MPI 出现。幂迭代把 Router 向量逼向 Expert 矩阵的主奇异方向,Power-then-Retract 范式在流形上完成对齐,1B 到 11B 参数全面验证。通勤两分钟,听懂今日最硬核「方向归正 乾坤定局」MoE 架构重构。

方向·归正(MPI)
0:002:23
MoE 的路由器没有设计原则——这首歌写给那个用幂迭代逼它就范的人

在 Mixture-of-Experts 架构里,Router 是决定「哪个 Token 去哪个专家」的门神。 每一行 Router 向量理论上应当是对应 Expert 矩阵的「代言人」—— 但这件事从未被数学正式保证过。
2026 年 6 月,来自中国人民大学的 Songhao Wu 等人在 arXiv 上挂出一篇预印本, 直接用**流形幂迭代(Manifold Power Iteration, MPI)**把这个漏洞钉死。
论文核心:Expert 矩阵的主奇异方向(principal singular direction)是对该矩阵最具表达力的数学描述, 因此 Router 行向量也应该向这个方向对齐。 MPI 的操作范式是「Power-then-Retract」:先做幂迭代逼近主方向,再缩回流形约束保稳定性。 理论上可以证明收敛,实验在 1B 到 11B 参数量的 MoE 预训练中都得到验证。
一句话概括:Router 跑偏是 MoE 效率损耗的隐形原因,MPI 让它回家。

来源:arXiv 2606.12397 · Songhao Wu, Ang Lv, Ruobing Xie, Yankai Lin · 中国人民大学

歌词

[Verse 1]
MoE 的路由是一道门
每个 Expert 坐在那边等
Router 向量拍着胸脯说
我能代表这个矩阵的魂
没有原则 凭什么代理
点积相似你信不信
随机梯度冲出来的方向
能压住主奇异值的征途

[Pre-Chorus]
看这矩阵 看这奇异值
最大特征向量最能说明真
你的 Router 偏得有多远
迭代一步 幂迭代再来一轮

[Chorus]
幂迭代 幂迭代
让 Router 向主方向靠拢
Power-then-Retract 推进
范数约束 打住不越界
幂迭代 幂迭代
流形上找到最优方向
MPI 驱动对齐
1B 到 11B 全线收紧

[Verse 2]
主奇异方向是 Expert 灵魂
点积才能真正说话
Router 偏得越远越傻
激活的专家根本走调查
Power step 迭代一次又一次
Retract 回到流形切别偷懒
理论证明收敛保证
不是玄学是线性代数的坚

[Bridge]
每一个专家是一个矩阵宇宙
主方向代表它最核心的路
Router 不对齐 token 瞎碰
MPI 出手 乾坤定局

[Chorus]
幂迭代 幂迭代
让 Router 向主方向靠拢
Power-then-Retract 推进
范数约束 打住不越界
幂迭代 幂迭代
流形上找到最优方向
MPI 驱动对齐
1B 到 11B 全线收紧

[Outro]
方向归正 Expert 找到家
Router 矩阵写满奇异代码
幂迭代落下 流形完成对齐
这是 MoE 时代 最硬核的意志

围绕这条内容继续补充观点或上下文。

  • 登录后可发表评论。