条件付き計算 - yuuk1's Digital Garden

# 条件付き計算 ## 定義条件付き計算(conditional computation)とは、ニューラルネットワークの計算グラフの一部を入力に応じて動的にアクティブ/非アクティブに切り替えることで、モデル容量(パラメータ数)を計算コストの増加を抑えながらスケールさせるパラダイムである。静的なアーキテクチャでは「パラメータ数 ∝ 計算量」が成り立つが、条件付き計算はこの比例関係を切り離す。代表的な実現形式は [[Mixture-of-Experts]](MoE) であり、[[@2017__ICLR__Outrageously Large Neural Networks The Sparsely-Gated Mixture-of-Experts Layer]](Shazeer et al., 2017) が現代的なスパースゲート MoE をこのパラダイムの主流実装として確立した。同論文は LSTM スタック間に MoE 層を挿入し、入力ごとに top-k 個のエキスパートのみをアクティブにすることで、計算量を固定したままパラメータを最大 1000 倍にスケールした。より一般的な条件付き計算の形式には以下がある: - **スパース MoE**: 入力ごとに k 個(k ≪ 総エキスパート数)のエキスパートのみ計算する(MoE の主流形式)。 - **適応的深さ**: 入力ごとに実行する層数を変える(Adaptive Computation Time など)。 - **適応的幅**: 活性化されるニューロン・チャネルを入力依存で絞る。 - **早期終了(early exit)**: 中間層で出力を確定できる場合に後段の計算をスキップする。 MoE 以外の形式はまだ大規模言語モデルへの導入は限定的であり、スパース MoE が条件付き計算の事実上の標準実装である。 ## 横断的知見 - **「パラメータ数と計算量を分離する」という原理が MoE 以外の実装を生んでいるが、2017–2026 年の主流は一貫して MoE**: Shazeer et al. 2017 が確立した「ゲーティング関数が条件付き計算のボトルネックになる」という観察は、後続の Switch Transformer(top-1 に絞りゲーティング単純化)・DeepSeek-V3(細粒度エキスパートで専門化を促進)・LatentMoE(潜在次元でゲーティング計算量を削減)に直接継承されている。条件付き計算の実現形式として MoE が支配的になった理由は、ゲーティング関数の設計と [[負荷分散]] の問題が同時に研究できる枠組みとして扱いやすいためと考えられる。(Source: [[@2017__ICLR__Outrageously Large Neural Networks The Sparsely-Gated Mixture-of-Experts Layer]], [[@2024__TMLR__Efficient Large Language Models - A Survey]]) - **条件付き計算の「計算効率」は単一デバイスで成立するが、分散設定ではディスパッチ通信が新たなコストとして出現する**: Shazeer et al. 2017 は 8 GPU 実験でネットワーク帯域ボトルネックを予言した。この予言は FAST([[@2026__NSDI__FAST - An Efficient Scheduler for All-to-All GPU Communication]])が AllToAllv の訓練時間占有率 30–56% として実測で追認している。条件付き計算が「計算を減らす」という約束を分散環境で達成するためには、通信コストを隠蔽する技術(DualPipe・MegaMoE カーネル融合)が別途必要になる。(Source: [[@2017__ICLR__Outrageously Large Neural Networks The Sparsely-Gated Mixture-of-Experts Layer]], [[@2026__NSDI__FAST - An Efficient Scheduler for All-to-All GPU Communication]], [[@2024__arXiv__DeepSeek-V3 Technical Report]]) - **条件付き計算のスパーシティ自体をスケーリング変数とする設計が 2025 年に登場した**: Kimi K2([[@2025__arXiv__Kimi K2 - Open Agentic Intelligence]])はエキスパート数を 8 から 384 まで変化させ、スパーシティを上げるだけで性能が向上するスパーシティスケーリング則を定量化した。これは「モデル容量とスパーシティを同時に上げる」という従来の設計から「スパーシティのみを系統的に上げる」設計への移行を示す。(Source: [[@2025__arXiv__Kimi K2 - Open Agentic Intelligence]]) ## 未解決の問い - 条件付き計算を MoE 以外の形式(適応的深さ・早期終了)で大規模言語モデルに適用する試みはなぜ MoE より遅れているのか。技術的障壁(バックプロパゲーション設計・ゲーティング学習の難しさ)か、それとも単なる研究コミュニティの優先順位の問題か。 - スパーシティスケーリング則は MoE 以外の条件付き計算形式にも成り立つか。適応的深さでも「スパーシティ(スキップ率)を上げると性能が向上する」かつ「計算量が一定に保たれる」かは未検証。 - 条件付き計算の「条件」(ゲーティング関数)は訓練データ・タスク分布に依存して特化するが、この特化がドメイン外汎化を妨げるかについての系統的分析は乏しい。 ## 関連 - 上位概念: [[Mixture-of-Experts]](最も成功した実現形式) - 副概念: [[負荷分散]](条件付き計算の運用課題) - 関連概念: [[LLM分散学習]] / [[並列化戦略]] / [[モデル圧縮]] - 関連ソース: [[@2017__ICLR__Outrageously Large Neural Networks The Sparsely-Gated Mixture-of-Experts Layer]] / [[@2024__TMLR__Efficient Large Language Models - A Survey]] / [[@2026__Vicinagearth__Efficient Training of Large Language Models on Distributed Infrastructures - A Survey]] ## 出典 - [[@2017__ICLR__Outrageously Large Neural Networks The Sparsely-Gated Mixture-of-Experts Layer]](条件付き計算パラダイムの大規模実証。スパースゲート MoE として実現。8 GPU 実験でネットワーク帯域ボトルネックを予言) - [[@2024__TMLR__Efficient Large Language Models - A Survey]](MoE ベース LLM のタクソノミー。GShard/Switch Transformer/Mixtral 8x7B を系譜として整理) - [[@2026__Vicinagearth__Efficient Training of Large Language Models on Distributed Infrastructures - A Survey]](条件付き計算を「パラメータを増やしても計算コストを抑える」分散訓練技術として分類) - [[@2026__NSDI__FAST - An Efficient Scheduler for All-to-All GPU Communication]](条件付き計算の分散コストである AllToAllv の 30–56% 占有率を実測)