MegaMoE - yuuk1's Digital Garden

# MegaMoE [[DeepSeek-AI]] が DeepSeek-V4 の開発に伴い公開した、MoE モジュール向けの細粒度エキスパート並列化融合カーネル。[[DeepGEMM]] の一部として CUDA ベースで公開されている。 ## 概要 MoE 層の 4 段階（Dispatch / Linear-1 / Activation / Linear-2 / Combine）を単一のパイプラインカーネルに融合し、エキスパートをウェーブに分割してスケジューリングする。定常状態では現在のウェーブの計算、次のウェーブのトークン転送、完了したエキスパートの結果送信が同時並行で進む。 ## 性能 - 非融合ベースライン比で一般的推論ワークロードに 1.50〜1.73 倍の高速化 - レイテンシ敏感なシナリオ（RL ロールアウト・高速エージェントサービング）で最大 1.96 倍 - NVIDIA GPU と HUAWEI Ascend NPU の両プラットフォームで検証済み ## 出典 - [[@2025__DeepSeek__DeepSeek-V4 - Towards Highly Efficient Million-Token Context Intelligence]]（§3.1 Fine-Grained Communication-Computation Overlap in Expert Parallelism）