# Aegis Alibaba の本番 AI モデル訓練クラウド向けの障害診断システム(NSDI 25, "Evolution of Aegis", Dong+)。当初は訓練ログとハードウェアカウンタに依拠し、後に CCL を改変して各オペレータの実行情報(start/end timestamp・スループット・work request/completion 数)を収集するよう進化した。([[Pulse]] が引く [13]、Source: [[2026__ASPLOS__Pulse - Fine-grained and Non-intrusive LLM Training Monitoring via Microsecond-level Traffic Measurement]] §2.2) [[Pulse]] の比較対象(SOTA)の 1 つ。[[Holmes]]・[[GreyHound]] とともに **OP-level 監視**に分類され、オペレータの内部進行が見えずストラグラーをマシン単位に箇所特定できない、計算と通信の異常を弁別できない、という限界を Pulse に指摘される。コード計装(CCL 改変)を要する点もクラウド事業者には不向きとされる。 ## 関連 - ソース: [[2026__ASPLOS__Pulse - Fine-grained and Non-intrusive LLM Training Monitoring via Microsecond-level Traffic Measurement]] - 概念: [[LLM学習モニタリング]] / [[Fault Localization]] - エンティティ: [[Pulse]] / [[Holmes]] / [[GreyHound]] / [[Minder]]