# LLM学習モニタリング
## 定義
LLM 学習モニタリングは、長時間・大規模な LLM 訓練の進行中に異常(fail-stop / fail-slow、起因は計算側か通信側か)を**実行時に検知し、責のあるマシンへ局所化する**取り組みと、それを支える計装・計測の総体。訓練の同期的な性質(集団通信による全 rank 同期)ゆえに 1 ノードの異常が連鎖的に伝播し、健全なノードまで巻き込んで観測値を均す——この「連鎖効果(cascading effect)」が箇所特定を難しくする中心問題。([[2026__ASPLOS__Pulse - Fine-grained and Non-intrusive LLM Training Monitoring via Microsecond-level Traffic Measurement]] §1-2, [[2025__NSDI__Minder - Faulty Machine Detection for Large-scale Distributed Model Training]] §2) [[Fault Localization]] の AIOps 4 段階分類における Level 2 を、本番マイクロサービスでなく**訓練クラスタ**で解く下位領域に当たり、根本原因分析(なぜ)は別途オフラインで行う前提が広く共有される。
監視は 3 つの設計軸で整理できる:
- **検知信号(何を見るか)**: ハートビート / 自己診断(MegaScale)、ホスト監視メトリクスの異常パターン(Minder)、ネットワークトラフィックのレート(Pulse)、CCL operator の実行情報(Aegis/Holmes/GreyHound)。
- **監視粒度**: OP-level(operator の start/end timestamp と平均スループット)か、sub-OP-level(operator 内部のマイクロ秒級のレート)か。
- **介入度(intrusiveness)**: 訓練コード/CCL を改変する計装依存か、改変不要の非侵入かのいずれか。クラウド事業者は利用者コードに触れないため非侵入が要件。
## 横断的知見
- **検知信号が「死/劣化/内部の gap」の 3 層に分化し、互いを補完する**: 同じ訓練クラスタ信頼性でも、(1)[[MegaScale]] の頑健な訓練フレームワークは driver–executor の **ハートビート + 自己診断**で「死んだ/無応答」のノードを排除(reactive)、(2)[[Minder]] は停止前の **ホスト監視メトリクスの異常パターン**(per-metric LSTM-VAE + マシン単位の類似度)で「劣化し始めた」slow fault(PCIe downgrading 等)を秒単位で捉え、(3)[[Pulse]] は **ネットワークトラフィックのレート**をマイクロ秒粒度で見て、operator 内部の transmission gap(ストラグラー)まで可視化する。ハートビートは「死んだか」、Minder は「(ホストメトリクスが)劣化したか」、Pulse は「(通信が)内部で詰まったか」を見る——監視は単一機構でなく検知信号の異なる層の積層であり、3 者は同じ信頼性軸を別の解像度で覆う。(Source: [[2026__ASPLOS__Pulse - Fine-grained and Non-intrusive LLM Training Monitoring via Microsecond-level Traffic Measurement]], [[2025__NSDI__Minder - Faulty Machine Detection for Large-scale Distributed Model Training]], [[2024__NSDI__MegaScale - Scaling Large Language Model Training to More Than 10,000 GPUs]])
- **「マイクロ秒監視が要るがオーバーヘッドで未展開」という Minder の宿題に Pulse が別の層で答える**: [[Minder]] は秒単位のホストメトリクス監視ゆえ、高速に伝播する障害(GPU exec error・PCIe downgrading)や複数同時障害(switch reboot で 600 台中 32 台がオフライン)を取りこぼし、ms 単位監視を足せば検出可能だがオーバーヘッドゆえ未展開と述べる(§6.6)。[[Pulse]] はこの要求に **ホストメトリクスでなくネットワークトラフィック**で応える——計測を NIC のマイクロプロセッサに載せパケット処理のクリティカルパスから外す 3 層設計で、2000 flow/NIC・マイクロ秒粒度を訓練性能オーバーヘッドほぼ 0(iter time 不変、latency 1.52us vs 1.53us)で実現する。「細粒度の監視はオーバーヘッドを生む」という Minder の前提を、計測の置き場所(ホストから NIC 上の off-path へ)を変えることで覆した点が要。ただし対象はノード間 RDMA 通信に限られホストメトリクス(ECC/温度等)は見ないため、Minder と置換でなく補完関係にある。(Source: [[2026__ASPLOS__Pulse - Fine-grained and Non-intrusive LLM Training Monitoring via Microsecond-level Traffic Measurement]], [[2025__NSDI__Minder - Faulty Machine Detection for Large-scale Distributed Model Training]])
- **粒度と介入度は独立した軸で、4 系統に展開する**: OP-level × 侵入的(Aegis/Holmes、CCL 改変)、OP-level × 非侵入([[GreyHound]]、function hooking + CUDA event)、sub-OP-level × 非侵入([[Pulse]]、NIC でのトラフィック計測)が実在する。GreyHound が「非侵入だが OP-level」でストラグラーのマシン単位の箇所特定に届かないことは、非侵入化だけでは粒度問題が解けないことを示す。Pulse は 2 軸を同時に満たす点を新規性に据える。OP-level の本質的な限界は「operator 内部の進行が見えずストラグラーと正常な rank が同一の duration を示す」「計算側のオーバーヘッドが通信の duration に織り込まれ両者を弁別できない」の 2 点で、これは粒度の問題ゆえ介入度をいくら下げても解けない。(Source: [[2026__ASPLOS__Pulse - Fine-grained and Non-intrusive LLM Training Monitoring via Microsecond-level Traffic Measurement]])
## 未解決の問い
- ハートビート系(MegaScale)・メトリクスパターン系([[Minder]])・トラフィック系([[Pulse]])・先回り型ベンチマーク系(SuperBench)を統合した監視スタックは、各層の検知遅延・捉える障害・オーバーヘッドをどう分担すべきか。Pulse のネットワーク視点と Minder のホストメトリクス視点を融合すると箇所特定の精度・速度は上がるか([[GPUクラスタ運用]]/[[LLM分散学習]] の信頼性に関する知見と接続)。
- [[Pulse]] がマシン単位の類似度を使わない方針(似たマシンからの逸脱でなく、実通信時間/通信量の絶対指標で局所化する)と [[Minder]] の均質性に基づく類似度は、どちらが頑健か。MoE の expert parallelism で負荷が不均質になる構成では、Minder の類似度が崩れる一方で Pulse の operator 単位のメトリクスは耐えるのか(Pulse は Mixtral 8×7B の all-to-all で rank 単位の指標によりストラグラーを識別済み)。
- Pulse はノード間 RDMA 通信のみ可視で、NVLink 等のスケールアップネットワークやノード内の計算ストラグラーは監視外(TP group がノード内に閉じるため計算側の箇所特定はマシン単位止まり)。eBPF 的な GPU カーネルのプロファイリングとの統合(§9 future work)でノード内まで延ばせるか。
- OP-level のベースライン(Aegis/Holmes/GreyHound)はストラグラーに追加のベンチマークを要するが、ベンチマークは時間がかかり異常を再現できないこともある(オフラインツールの限界)。オンラインのトラフィック監視(Pulse)がオフラインベンチマークを本当に不要にするのは、どの障害クラスまでか。
- 診断遅延は Pulse が SOTA より約 0.7 秒高い(1 秒間隔のアップロードが律速)。アップロード間隔の短縮・NIC 上での事前集約で遅延を詰めるとオーバーヘッドとどうトレードオフするか。
## 関連
- ソース: [[2026__ASPLOS__Pulse - Fine-grained and Non-intrusive LLM Training Monitoring via Microsecond-level Traffic Measurement]] / [[2025__NSDI__Minder - Faulty Machine Detection for Large-scale Distributed Model Training]] / [[2024__NSDI__MegaScale - Scaling Large Language Model Training to More Than 10,000 GPUs]]
- 概念: [[Fault Localization]](訓練クラスタの Level 2 局所化) / [[GPUクラスタ運用]] / [[LLM分散学習]](Reliability 軸) / [[変化点検知]]
- エンティティ: [[Pulse]] / [[Minder]] / [[MegaScale]] / [[Aegis]] / [[Holmes]] / [[GreyHound]] / [[BlueField-3]] / [[NCCL]]
- 関連 MOC: [[分散深層学習 - MOC]] / [[HPC - MOC]] / [[異常検知 - MOC]]
## 出典
- [[2026__ASPLOS__Pulse - Fine-grained and Non-intrusive LLM Training Monitoring via Microsecond-level Traffic Measurement]](§1 Introduction, §2 Anomaly Localization in LLM Training, §6.1 Monitoring Granularity Analysis, §8 Evaluation)
- [[2025__NSDI__Minder - Faulty Machine Detection for Large-scale Distributed Model Training]](§2 Motivation, §6.6 評価, §7 Discussion)
- [[2024__NSDI__MegaScale - Scaling Large Language Model Training to More Than 10,000 GPUs]](§4 Fault Tolerance, §5 Troubleshooting)