# Aegis
Alibaba の本番 AI モデル訓練クラウド向けの障害診断システム(NSDI 25, "Evolution of Aegis", Dong+)。当初は訓練ログとハードウェアカウンタに依拠し、後に CCL を改変して各オペレータの実行情報(start/end timestamp・スループット・work request/completion 数)を収集するよう進化した。([[Pulse]] が引く [13]、Source: [[2026__ASPLOS__Pulse - Fine-grained and Non-intrusive LLM Training Monitoring via Microsecond-level Traffic Measurement]] §2.2)
[[Pulse]] の比較対象(SOTA)の 1 つ。[[Holmes]]・[[GreyHound]] とともに **OP-level 監視**に分類され、オペレータの内部進行が見えずストラグラーをマシン単位に箇所特定できない、計算と通信の異常を弁別できない、という限界を Pulse に指摘される。コード計装(CCL 改変)を要する点もクラウド事業者には不向きとされる。
## 関連
- ソース: [[2026__ASPLOS__Pulse - Fine-grained and Non-intrusive LLM Training Monitoring via Microsecond-level Traffic Measurement]]
- 概念: [[LLM学習モニタリング]] / [[Fault Localization]]
- エンティティ: [[Pulse]] / [[Holmes]] / [[GreyHound]] / [[Minder]]