負荷分散 - yuuk1's Digital Garden

# 負荷分散 ## 定義 MoE における負荷分散(load balancing)とは、スパースゲーティング時に特定のエキスパートにトークンが集中する「エキスパート崩壊(expert collapse)」「ルーティング崩壊(routing collapse)」を防ぎ、全エキスパートが均等に利用されるよう促す技術群の総称である。問題の根源は [[Mixture-of-Experts]] のゲーティング関数にある。訓練初期に一部のエキスパートがわずかに優れた出力を返すと、ゲーティング関数がそのエキスパートをさらに選びやすくなり、選ばれ続けたエキスパートだけが強化されるという正のフィードバックが生じる。結果として少数エキスパートが全トークンを担い、残りは実質的に無効化される。 [[@2017__ICLR__Outrageously Large Neural Networks The Sparsely-Gated Mixture-of-Experts Layer]](Shazeer et al., 2017) がこの問題を最初に定式化し、次の 2 つの補助損失を導入した: - **重要度損失(importance loss)**: バッチ内での各エキスパートへのゲート出力の合計の変動係数(coefficient of variation)を最小化する。 - **負荷損失(load loss)**: ノイズゲーティング(ソフトマックスにノイズを加算)でスムージングされた各エキスパートの受け入れトークン数の変動係数を最小化する。この基盤定式化から、後続研究が解法を 4 つの方向に展開した: | アプローチ | 代表手法 | 特徴 | |---|---|---| | 補助損失(sequence 単位) | Switch Transformer, GShard | シーケンス内の分布を均等化 | | 補助損失(batch 単位) | DeepSeek-V3 の batch-level balance | バッチ単位でバイアスを動的更新 | | ゲーティング関数変更 | MiniMax-M2(sigmoid + bias) | ソフトマックスの正規化制約を除去 | | システム配置最適化 | FasterMoE, SmartMoE, FlexMoE | 人気エキスパートのシャドウイングや動的配置 | ## 横断的知見 - **「補助損失 vs ゲーティング設計変更 vs システム配置」という 3 層の解法が 2017–2026 年で出揃った**: Shazeer et al. 2017 の補助損失(モデル訓練層)は Switch Transformer・GShard に継承された。DeepSeek-V3([[@2024__arXiv__DeepSeek-V3 Technical Report]])は補助損失の粒度をシーケンス単位からバッチ単位に変えることで精度を改善(検証損失: シーケンス単位 2.258 vs バッチ単位 2.253)し、MiniMax-M2([[@2026__arXiv__The MiniMax-M2 Series - Mini Activations Unleashing Max Real-World Intelligence]])はシグモイドゲーティング + 学習可能バイアスで補助損失への依存自体を排除した。一方 FasterMoE/SmartMoE([[@2026__Vicinagearth__Efficient Training of Large Language Models on Distributed Infrastructures - A Survey]])はシャドウイング・動的配置というシステム層で人気エキスパートのキャパシティを増やす方向を取る。同一問題への 3 層の解法は独立に進化しており、統合設計はまだ標準化されていない。(Source: [[@2017__ICLR__Outrageously Large Neural Networks The Sparsely-Gated Mixture-of-Experts Layer]], [[@2024__arXiv__DeepSeek-V3 Technical Report]], [[@2026__arXiv__The MiniMax-M2 Series - Mini Activations Unleashing Max Real-World Intelligence]], [[@2026__Vicinagearth__Efficient Training of Large Language Models on Distributed Infrastructures - A Survey]]) - **負荷分散の粒度(sequence vs batch)が性能に影響することが 2024 年に定量化された**: DeepSeek-V3 のアブレーションは補助損失の粒度の違いで検証損失に 0.005 の差をもたらすことを示した([[@2024__arXiv__DeepSeek-V3 Technical Report]])。Shazeer et al. 2017 がバッチ単位の変動係数を最小化していたことと対比すると、2024 年の知見は「バッチ単位が優れる」という 2017 年の直感を異なる形で再発見した。ただしDeepSeek-V3 は補助損失を廃止して動的バイアス調整に移行しており、粒度の議論は補助損失の枠内でのみ有効。(Source: [[@2024__arXiv__DeepSeek-V3 Technical Report]], [[@2017__ICLR__Outrageously Large Neural Networks The Sparsely-Gated Mixture-of-Experts Layer]]) - **時系列基盤モデルでの MoE 負荷分散は訓練目的関数の補助損失で対処されており、LLM のシステム層解法は転用されていない**: Time-MOE([[@2025__arXiv__Foundation Models for Time Series - A Survey]])は expert 使用を均衡させる補助損失を最終損失に加えるという Shazeer et al. 2017 の原初的アプローチを踏襲する。時系列ドメイン向けの FasterMoE 的なシステム配置最適化は報告されていない。(Source: [[@2025__arXiv__Foundation Models for Time Series - A Survey]]) ## 未解決の問い - 補助損失によるモデル層の負荷分散とシステム配置最適化(FasterMoE・FlexMoE)を同時に適用した場合、効果は加算的か干渉するか。 - シグモイドゲーティング + 学習可能バイアス(MiniMax-M2)がソフトマックスより負荷分散に有利な理由は直感的には説明できるが(ゼロサム制約の除去)、理論的保証は未確立。訓練データや規模によっては崩壊しやすい条件があるか。 - VLM のように視覚トークンとテキストトークンが混在する入力では、モダリティ間で負荷分散の達成難易度が異なるか。DeepSeek-VL2([[@2024__arXiv__DeepSeek-VL2 - Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding]])はモデル規模によってソフトマックスとシグモイドを切り替えているが、この切り替えが負荷分散の観点でなされたのかは不明。 - DeepSeek-V3 のバイアス動的調整はヒューリスティックな符号反転で行われる。より原理的なオンライン最適化(例: 勾配ベースのバイアス更新)と比較した場合の安定性と性能は未検証。 ## 関連 - 上位概念: [[Mixture-of-Experts]] / [[条件付き計算]] - 関連概念: [[LLM分散学習]] / [[並列化戦略]] / [[ストラグラー]] - 関連ソース: [[@2017__ICLR__Outrageously Large Neural Networks The Sparsely-Gated Mixture-of-Experts Layer]] / [[@2024__arXiv__DeepSeek-V3 Technical Report]] / [[@2026__arXiv__The MiniMax-M2 Series - Mini Activations Unleashing Max Real-World Intelligence]] / [[@2026__Vicinagearth__Efficient Training of Large Language Models on Distributed Infrastructures - A Survey]] ## 出典 - [[@2017__ICLR__Outrageously Large Neural Networks The Sparsely-Gated Mixture-of-Experts Layer]](MoE 負荷分散問題の最初の定式化。重要度損失 + 負荷損失 + ノイズゲーティングによる補助損失。2048 エキスパート規模で有効性を実証) - [[@2024__arXiv__DeepSeek-V3 Technical Report]](§2.1.2 補助損失なし負荷分散。バッチ単位のゲーティングバイアス動的調整。アブレーション: sequence vs batch 単位の粒度が検証損失に 0.005 の差) - [[@2026__arXiv__The MiniMax-M2 Series - Mini Activations Unleashing Max Real-World Intelligence]](シグモイドゲーティング + 学習可能エキスパートバイアスで補助損失依存を排除。229.9B/9.8B 規模で実証) - [[@2024__TMLR__Efficient Large Language Models - A Survey]](§2.5.2 MoE ベース LLM タクソノミー。Expert Choice・StableMoE・Lifelong-MoE の系譜) - [[@2026__Vicinagearth__Efficient Training of Large Language Models on Distributed Infrastructures - A Survey]](FasterMoE(shadowing experts)・SmartMoE/FlexMoE(動的配置)によるシステム層の負荷分散) - [[@2025__arXiv__Foundation Models for Time Series - A Survey]](Time-MOE の補助損失による負荷分散。訓練目的関数層での対処)