Seer - yuuk1's Digital Garden

# Seer [[Astral]] インフラの予測コンポーネント(SIGCOMM 2025、[[@2025__SIGCOMM__Astral - A Datacenter Infrastructure for Large Language Model Training at Scale]])。LLM の計算・通信・メモリアクセスをオペレータ粒度で分解し、許容可能な精度のオペレータ実行タイムラインを数秒以内に生成する。目的は (i) 配置前のモデル/ネットワークパラメータ調整、(ii) 本番実行時間の検証による障害診断支援、(iii) 新オペレータ・ネットワークアーキテクチャの探索。(Source: [[@2025__SIGCOMM__Astral - A Datacenter Infrastructure for Large Language Model Training at Scale]] §4) フレームワークは 2 部構成。 - **オペレータ依存生成**: PyTorch profiler の GPU トレースを Chakra で実行グラフ化する経路と、JSON テンプレートで新オペレータを手作業追加する経路。 - **自己補正オペレータ実行**: 基本モデリングは実行時間をテンソルサイズ÷理論帯域で定式化する。理論帯域は実スループットを正確に反映しないため、Astral 実測値に多項式カーブフィッティングを行い、演算量と実測 GPU FLOPS、メモリアクセスと実測 HBM スループット、メッセージサイズと実測ネットワークスループットの相関で補正する。離散事象シミュレーションでエンドツーエンドのタイムラインを構成する。完全一致を狙う packet-granular シミュレータ(ASTRA-sim・SimAI)は超大規模で非効率(1K GPU 1 反復に ASTRA-sim は 48 コアで 1 日)で、operator-granular シミュレータ(FlexFlow・Daydream・dPRO ほか)はパケットレベル挙動を織り込めない。Seer はこの効率と精度の二者択一を自己補正で解く。Hunyuan など密モデルで 0.3% 偏差、MoE(DeepSeek R1)はエキスパート選択の予測不能性と未補正オペレータで偏差が相対的に大きい。Astral の階層相関では、Seer の高速予測で得た job 別しきい値を異常判定に用いる。 ## 関連 - ソース: [[@2025__SIGCOMM__Astral - A Datacenter Infrastructure for Large Language Model Training at Scale]] - 概念: [[LLM分散学習]] / [[GPUクラスタ運用]] / [[Fault Localization]] - エンティティ: [[Astral]]