# LatentMoE
[[NVIDIA]] が [[Nemotron 3]] で提案したハードウェア認識型の [[Mixture-of-Experts|MoE]] エキスパート設計。トークン埋め込みを隠れ次元 d から潜在次元 ℓ(典型的に d/ℓ ≈ 4)へ射影し、潜在空間でエキスパートにルーティング・計算したのち d 次元に戻す。これにより以下を同時に実現する。
- エキスパートごとの重み読み込み(メモリ帯域)と All-to-All 通信量を d/ℓ 倍削減
- 浮いた計算予算でエキスパート総数(128→512)と活性化エキスパート数(6→22)を d/ℓ 倍に増加
- 推論コスト・通信コストを一定に保ちつつ、精度向上(MMLU-Pro +4.57pp、Code +3.19pp、Math +1.87pp)
レイテンシ指向デプロイメント(メモリ帯域律速)ではエキスパートの重み読み込みを削減し、スループット指向デプロイメント(All-to-All 通信律速)ではエキスパート間通信量を削減する。ゲーティングネットワーク・共有エキスパート・非エキスパート層は d 次元のまま保持してボトルネックへの寄与が小さい計算の品質劣化を防ぐ。