ネットワークシミュレーション

# ネットワークシミュレーション ## 定義ネットワークシミュレーションは、実際のネットワークインフラを構築・変更することなく、トポロジ・プロトコル・ワークロード設計の性能評価を行う手法の総体。LLM 訓練文脈では特に**パケット単位の離散イベントシミュレーション**(PLDES: Packet-level Discrete-Event Simulation)が支配的で、ns-3・OMNeT++・OPNET といったシミュレータが各パケットの挙動を忠実に再現する。PLDES はキューイング・パケット損失・計算通信オーバーラップといった性能クリティカルなイベントを正確に捉えるため高い忠実度を持つが、LLM 訓練規模では O(10¹²) の離散イベントが発生し、数週間の計算時間を要するという根本的な計算コスト問題を抱える。([[@2026__NSDI__Supercharging Packet-level Network Simulation of Large Model Training via Memoization and Fast-Forwarding]] §1–2) 主要な手法分類: | 手法 | 例 | 高速化 | 誤差 | |---|---|---|---| | PLDES(フル) | ns-3、OMNeT++ | 1×(基準) | ほぼゼロ | | 並列 PLDES | Unison、DONS | 最大〜10× | ほぼゼロ | | フローレベル | max-min/水充填 | 2〜3 桁 | 10〜25% | | AI ベース | M3、RouteNet | 数桁 | 10〜25% | | Wormhole(PLDES+メモ化+早送り) | ns-3+Wormhole | 744×〜1012× | <1% | ## 横断的知見 - **PLDES の計算コストは LLM 訓練スケール拡大に対して指数的に増加する**: GPT3-175B の 1 イテレーションシミュレーションに ns-3 で数週間かかる。クラスタ規模が 10³〜10⁶ GPU へ拡大する中、既存の高速化手法はいずれも精度と速度のトレードオフを抱え、Wormhole の登場まで「精度を保ちながら 3 桁の高速化」は未達成だった。(Source: [[@2026__NSDI__Supercharging Packet-level Network Simulation of Large Model Training via Memoization and Fast-Forwarding]]) - **LLM 訓練固有の規則性(繰り返しパターン・ステディステート)が PLDES 高速化の穴になっている**: Wormhole は LLM 訓練のネットワーク通信が 97.5〜99% 以上ステディステートで占められ、かつ競合パターンが繰り返されるという構造的特性を、メモ化(memoization)と早送りに変換する。この特性は LLM 訓練に固有であり、ランダム性の高いパブリッククラウド・マルチテナントワークロードには転用できない。(Source: [[@2026__NSDI__Supercharging Packet-level Network Simulation of Large Model Training via Memoization and Fast-Forwarding]]) - **計算削減と並列化は直交するため乗算合成できる**: 並列 PLDES(Unison 等)の最大 10× と Wormhole の 744× が独立に作用し、組み合わせで 1012× を実現する。これは「PLDES 高速化には並列化か近似か」という従来の二項対立を打破するものであり、計算コスト削減・並列化・近似の 3 経路が互いに独立に組み合わせ可能であることを示す。(Source: [[@2026__NSDI__Supercharging Packet-level Network Simulation of Large Model Training via Memoization and Fast-Forwarding]]) ## 未解決の問い - Wormhole の効果はランダムなクラウド・マルチテナントワークロードでは diminish するが、どの程度の「繰り返し率」から効果が出始めるのか。ハイブリッド環境(LLM 訓練 + サービングの混在)での適用可能性は。 - FCG のグラフ同型探索は実用上軽量だが、LLM 訓練の局所性・対称性が崩れる構成(例: 不均質 GPU クラスタ・動的トポロジ変更)では計算コストはどう変化するか。 - 訓練以外(LLM 推論・ファインチューニング・パラメータサーバ型の分散学習)でも同様の繰り返しパターン・ステディステートが成立するか。 - PLDES の出力結果の忠実度がどの設計判断(輻輳制御 / ロードバランシング / トポロジ選択)に最も大きく影響するか。フローレベルと PLDES で設計判断が逆転するケースはあるか。 ## 関連 - ソース: [[@2026__NSDI__Supercharging Packet-level Network Simulation of Large Model Training via Memoization and Fast-Forwarding]] - 概念: [[LLM分散学習]] / [[集合通信]] / [[並列化戦略]] / [[RDMAネットワーク監視]] - エンティティ: [[Tsinghua University]] / [[Zhongguancun Laboratory]] / [[Huawei Technologies]] / [[Dan Li]] - 関連 MOC: [[LLM4SRE - MOC]] ## 出典 - [[@2026__NSDI__Supercharging Packet-level Network Simulation of Large Model Training via Memoization and Fast-Forwarding]](§1 Introduction, §2 Background, §7 Evaluation)