2026__MLSys2026__Demystifying the Mixture of Experts Serving Tax

# Demystifying the Mixture of Experts Serving Tax > [!info] Talk metadata > - **会議:** [[MLSys2026]] Day 3 (May 20 / Wed)、Grand Ballroom 1、15:45 - 16:00 PDT > - **登壇者:** Pratyush Patel (University of Washington / Meta)、Dayeol Lee (Meta)、Shintaro Iwasaki (Meta)、Arvind Krishnamurthy (University of Washington) > - **URL:** https://mlsys.org/virtual/2026/oral/3764 > - **OpenReview:** https://openreview.net/forum?id=lELxqcgrsN > [!abstract] 概要（論文） > Mixture-of-Experts (MoE) はモデルサイズの大幅な拡大を可能にするが、同じトークンあたり計算量を持つ密なモデルと比較してサービング時のオーバーヘッドが高い。この「MoE タックス」はモデルアーキテクチャ、推論フェーズ、並列化戦略によって変動する。本論文は MoE タックスを体系的に特性評価し、FLOP 等価な密モデルと比べて 2〜3 倍の性能劣化を示すことを明らかにする。マイクロベンチマークを用いて基盤となるタックス要因を分析・分類し、異なる構成下での発現様態を示す。主要な知見として、プリフィルフェーズとデコードフェーズでは全く異なるタックスが課されること、プリフィルに有害な負荷不均衡がデコードでは有益になりうるという反直観的結果を提示する。最後に Balls-Bins-Buckets フレームワークを導入し、細粒度エキスパートや DP アテンションといった近年の MoE 設計を横断的に分析する。 ## テーゼ MoE モデルはパラメータ数あたりの計算量を抑えることで大規模化の効率的手段として注目されているが、実際のサービングにおいては FLOP 数だけでは捉えられないシステムレベルのオーバーヘッドが発生する。クラウドプロバイダのトークン単価を見ると、同じパラメータ活性化数の密モデルに対して MoE モデルは 2.5〜10 倍高い（Figure 1、DeepInfra 価格データ）。本論文はこの「MoE タックス」を単一の均質なペナルティではなく、計算・通信・トークン分布効果にまたがる複数の競合するオーバーヘッドの複合体として分解し、フェーズ別・並列化戦略別に定量化する初の体系的研究である。 ## MoE サービングタックスの定義と分類 ### 定義 MoE タックス τ は、バッチサイズ b における MoE モデルのレイテンシ T(MoE, b) を、FLOP 等価な密モデル DenseFA のレイテンシ T(DenseFA, b) で割った比として定義される（式 1）。τ = 1.0 は MoE が密モデルと同等の性能を意味し、値が大きいほどペナルティが大きい。比較基準として 2 種類の密モデルを用いる。 - **DenseFA（FLOP 整合）**: MoE レイヤを top-K 値でスケーリングした FFN に置換し、トークンあたりの計算量を MoE と揃える。スパース性オーバーヘッドがすべて除去された場合の理想性能を表す。 - **DensePA（パラメータ整合）**: MoE と同じ総パラメータ数を持つ密モデル。全エキスパートのウェイトを毎トークン使用するため計算量は大幅に増えるが、メモリ帯域幅の下限を与える。 ### タックス要因の分類（Table 1）タックス要因はベースラインオーバーヘッド（均一トークン分布下で発生）とトークン分布効果の 2 層に分類される。 **ベースラインオーバーヘッド:** | 要因 | メカニズム | 影響 | |------|-----------|------| | 演算密度の低下 | GroupGEMM はエキスパートごとのバッチ分割により DenseFA より低い演算密度を持つ | 両フェーズ（有害） | | AllToAll 通信 | DP+EP 下でのトークン分配・集約転送 | 両フェーズ（有害） | | 補助カーネル | ルーティング、アラインメント、集約処理 | 両フェーズ（軽微） | **トークン分布効果:** | 要因 | メカニズム | 影響 | |------|-----------|------| | エキスパート活性化 | 非均一ルーティングが活性化エキスパート数を減少させ、エキスパートあたりのウェイト再利用を向上 | デコード（有益） | | ワークロード不均衡 | ストラグラー GPU がイテレーションレイテンシを決定（EP のみ） | プリフィル（有害） | | パディング | トークン-エキスパート割り当てがカーネルの入力形状やブロックサイズと不整合 | 両フェーズ（可変） | | 通信量 | 非均一な GPU あたり AllToAll 転送サイズ（EP のみ） | プリフィル（有害） | ## フェーズ別分析（プリフィル vs デコード） ### 評価対象モデル（Table 2） 3 つのオープンソース MoE モデルを評価する。 | | Mixtral-8x7B | Qwen2-MoE | DeepSeek-V3 | |---|---|---|---| | 総パラメータ | 47B | 57B | 671B | | 活性化パラメータ | 13B | 14B | 37B | | レイヤ数 | 32 | 28 | 61 | | 隠れ層サイズ | 4096 | 3584 | 7168 | | MoE 中間層サイズ | 14336 | 2560 | 2048 | | ルーティング対象エキスパート数 | 8 | 64 | 256 | | トークンあたり活性化エキスパート数 | 2 | 8 | 8 | | 共有エキスパート数 | 0 | 8 | 1 | Mixtral と Qwen は NVIDIA A100 8 基、DeepSeek-V3 は NVIDIA B200 8 基で測定する。フレームワークは vLLM を使用し、MoE と密モデルを同じ並列度・同じハードウェアリソースで比較する。 ### プリフィルフェーズのタックス - バッチサイズに大きく依存する。小バッチではタックスが高く、バッチサイズの増加とともに減少する。これはオーバーヘッドの分散と計算律速領域へのシフトによる。 - Mixtral と Qwen はバッチサイズ 1024〜2048 で最小タックスの約 1.28 倍に収束する。DeepSeek はバッチサイズ 1024 トークンで最小タックス約 1.7 倍に達する。 - スパース性が高く細粒度エキスパートを持つモデル（Qwen、DeepSeek）は、エキスパート数が少ないモデル（Mixtral）より高いプリフィルタックスを示す。 - TP は一般に Mixtral・Qwen で EP より優れるが、DeepSeek では両者の性能は同等である。 **知見:** プリフィルタックスは小バッチで高く、大バッチで低い。スパース性の高いモデルほどプリフィルタックスが高い傾向がある。 ### デコードフェーズのタックス - タックスはプリフィルよりも全般的に高く、より持続的である。バッチサイズ 32 で Mixtral は 2.08 倍、Qwen は 2.57 倍に達する。DeepSeek はバッチサイズ 128 トークンでピークタックスが約 3 倍に達する。 - デコードタックスはベル型曲線を描く。単一リクエスト時は最小（Mixtral で 1.05 倍まで低下）、中バッチサイズでピークに達し、大バッチでは徐々に減少する。 - メモリ律速であるデコードフェーズは「ウェイト増幅（weight amplification）」に支配される。中〜大バッチではほぼ全エキスパートが活性化され、大量のエキスパートウェイトを HBM からロードする必要があるため、DensePA に匹敵するレイテンシとなる。 - ルーティング、アラインメント、パディングなどの条件付き計算オーバーヘッドがさらにレイテンシを押し上げる。DeepSeek では AllToAll 通信帯域が追加のボトルネックとなる。 **知見:** デコードタックスはベル型曲線で中バッチサイズでピークとなる。実運用で頻出するバッチサイズ帯に重なるため全体性能への影響が大きい。 ## Balls-Bins-Buckets フレームワーク ### 動機古典的な balls-and-bins 理論はトークン（ボール）のエキスパート（ビン）への割り当てをモデル化するが、MoE ルーティングの 2 つの特徴を捉えられない。(1) エキスパートは GPU（バケット）に格納されており、エキスパートレベルと GPU レベルの 2 層の不均衡源が存在する。(2) バッチは効率的なカーネル実行のためにパディングされ、非線形な性能影響をもたらす。 ### BBB モデルの構成 - **ボール（balls）:** トークン（m 個のトークンが各 K エキスパートにルーティングされ、合計 mK 個の割り当て） - **ビン（bins）:** E 個のエキスパート - **バケット（buckets）:** GPU（TP 下では n_tp 個、EP 下では n_ep 個）各トークンのエキスパート割り当ては分布 N̄ = [N₁, ..., N_E] を形成する。均一ランダムルーティング下での活性化エキスパート数の期待値は E[E_active] = E · (1 − (1 − K/E)^m) であり、バッチサイズ m とともに急速に E に近づく。エキスパート数が少ないモデル（Mixtral, E=8）では実測値がこの理論予測に密接に追従するが、細粒度エキスパートモデル（DeepSeek-V3, E=256）では学習済みルーターがトークンをサブセットに集中させるため、均一仮定は E_active を過大評価する。 ### パディングモデル（Section 5.1）パディングオーバーヘッド η はカーネルの不規則トークン数処理方法に依存する。2 種類のパディングスキームを定式化する。 - **ブロック単位パディング:** 各エキスパートのトークン数を独立にブロックサイズ B に切り上げる。有効計算量は P_g = Σ⌈N_i/B⌉ × B。分散した分布（多数のエキスパートが少数トークン）で最悪。FusedMoE と DeepGEMM のプリフィルがこの方式を使用する。 - **最大値パディング:** 全エキスパートを最大トークン数エキスパートの次元に揃える。有効計算量は P_g = E_g × ⌈max(N_i)/B⌉ × B。集中分布（1 エキスパートが多数トークン）で最悪。DeepGEMM のデコードがこの方式を使用する。ブロック単位パディングモデルはマイクロベンチマークに対して R² > 0.99 でカーネルレイテンシを予測する。 ### 分析モデルの検証（Section 5.3） TP+TP 構成での Mixtral・Qwen に対して A100-40GB で検証する。ハードウェアパラメータは BW_HBM=1500 GB/s、FLOPS_peak=312 TFLOPS (BF16)、パディングオーバーヘッドは η_decode=1.05、η_prefill=1.25 の定数を使用する。モデル予測は実測値の 10〜30% 以内に収まる。デコードのベル型曲線（E_active/K による）およびプリフィルタックスの演算密度改善による減少という定性的傾向を正しく再現する。 ## 主要な知見 ### 1. プリフィルとデコードは根本的に異なるタックスを被るプリフィルはバッチ分割（batch subdivision）による演算密度低下が支配的であり、大バッチほど DenseFA の効率に近づく。デコードはウェイト増幅（weight amplification）が支配的であり、中バッチでほぼ全エキスパートが活性化されると DensePA レベルのメモリ帯域消費に至る。 ### 2. 負荷不均衡はフェーズによって有害にも有益にもなる非均一ルーティングはプリフィル時に EP 下でストラグラー GPU を生じ、レイテンシを 40〜80% 増大させる（Figure 8b）。一方デコード時には、活性化エキスパート数の減少がウェイトロード量を削減し、支配的なウェイト増幅タックスの軽減が不均衡のわずかなコストを上回る。 ### 3. 通信タックスはマルチノードで急増する AllToAll/AllReduce のレイテンシ比は単一ノード内でデコード時に約 2 倍、プリフィル大バッチ時に 3〜4 倍であるが、2 ノード間では RDMA レイテンシとノード間帯域のボトルネックにより 7〜15 倍に達する（Figure 6）。 ### 4. 細粒度エキスパートはトレードオフを増幅する 8E,4G（Mixtral 相当）と 64E,4G（Qwen 相当）を比較すると、エキスパートあたりのスキューは増大するが GPU レベルのスキューは bins-and-buckets の平均化効果で同程度にとどまる。しかし DP アテンション付き構成（64E,32G）ではパディングがさらに悪化し、EPLB 等の負荷分散戦略が必要となる（Figure 10）。 ### 5. 補助カーネルの寄与は限定的だが活性化エキスパート数に比例するルーター、top-K 選択、アラインメント、局所和の合計オーバーヘッドは MoE ブロック計算時間の 5%（Mixtral）〜8%（Qwen）未満である（Figure 5）。ただし局所和カーネルは活性化エキスパート数とともにスケールするため、K=8 の Qwen では K=2 の Mixtral より集約オーバーヘッドが大きい。 ## 削減手法とトレードオフ ### プリフィル最適化（Table 4） | タックス要因 | 削減戦略 | トレードオフ | |---|---|---| | バッチ分割 | DP アテンション; カスタムカーネル | アテンション用メモリフットプリント増大; 負荷分散の追加課題 | | ワークロード不均衡 | エキスパート複製（EPLB）; 負荷認識ルーティング | メモリフットプリント増大; ルーティング複雑化 | | パディング | スマートバッチング; 偏向ルーティング; カスタムカーネル | EP 下でのストラグラータックス; ルーティング複雑化 | DeepSeek-V3 の EPLB はプリフィルレイテンシを改善するがデコードレイテンシを悪化させうる。EPLB は生のトークン数 R_g を均衡させるが、パディング後の有効計算量 P_g = η_g · R_g を均衡させる活性化認識型 EPLB のほうがストラグラー計算時間をより効果的に最小化する。 ### デコード最適化 - **偏向ルーティング:** 活性化エキスパート数を減らすことで HBM からのウェイトロード量を直接削減する（Figure 12a）。ルーターの学習で活性化エキスパート数を抑制するか、同一エキスパートセットを使うリクエストをスケジューラでコロケーションする手法が考えられる。 - **広域並列化:** 並列度を上げてデバイスあたりのメモリ帯域要求を削減する（Figure 12b）。ただし通信タックスの増大と GPU 遊休のリスクを伴う。 - **量子化:** ウェイト量子化は密モデル以上に MoE で効果的である。HBM からのロード量を直接削減しウェイト増幅タックスを緩和する。より少ない並列度での運用を可能にし、通信コストも削減する。 ### フェーズ横断最適化 - **DP アテンション:** バッチ分割を緩和し、MoE レイヤに大バッチを供給する。デコードでも広い並列性を活用可能にする。 - **バッチサイズ相互作用:** 投機的デコーディングはデコードバッチサイズを増大させプリフィル的レジームへシフトさせる。デュアルバッチオーバーラップはマイクロバッチあたりのサイズを半減させ、ウェイト増幅を増大させるリスクがある。 - **分離型 MoE サービング:** デコード時に MoE が DensePA に近い性能となることを踏まえ、プリフィルには MoE アーキテクチャ、デコードには密モデルアーキテクチャを使い分ける分離型システムが提案される。フェーズごとのモデルアーキテクチャ特化が必要となる。 ## 結論・オープン課題 MoE モデルのサービングには FLOP 等価な密モデルに対して 2〜3 倍の性能劣化が伴い、その内訳は計算・通信・トークン分布効果にまたがる相互連関したオーバーヘッドの複合体である。プリフィルとデコードでは支配的なタックス要因が根本的に異なり、単一のシステム構成では最適化しきれない。分析的タックスモデルはメモリ律速・計算律速・遷移の 3 レジームを同定し、実測値の 10〜30% 以内で予測する。 **オープン課題:** - MoE タックスはハードウェア利用率を隠蔽しうる相対指標であり、小バッチでのタックス低値は推論自体がメモリ律速であることを反映しているに過ぎない場合がある。 - 定常状態レイテンシに限定しており、JIT コンパイルによる動的オーバーヘッドは対象外である。 - エンドツーエンド評価は比較的短いシーケンスを使用しており、長文脈ではアテンションが支配的となり MoE タックスの相対的寄与は小さくなる。 - 単一ノード NVLink 接続 GPU での評価であり、マルチノード環境での本格的なエンドツーエンド特性評価は今後の課題である。 - MoE モデルと密モデルの精度比較は範囲外であり、品質-効率のトレードオフの包括的評価が残されている。 - エキスパート粒度の最適値はモデリング上の判断だけでなく、対象並列化戦略との共同設計が必要なシステム依存パラメータである。