# TSGuard
[[Yitao Yang]] らが [[The Chinese University of Hong Kong]]・[[Microsoft Research]]・[[University of Toronto]] で開発した user-centric の多エージェントインシデント診断システム。AI ワークロード(GPU クラスタ訓練・推論)で発生するインシデントを、ユーザ側で即時に診断し、未解決時には予備診断レポート付きでプロバイダにエスカレートする。[[@2026__FSE__TSGuard - Automated User-Centric Incident Diagnosis for AI Workloads in the Cloud]] の本体。
## 構成
- **オフラインフェーズ**: 過去インシデント DB(BGE-large 埋め込み + ANN)・階層タクソノミー(LLM 自動構築+専門家アノテーション、6 main / 28 sub / 97 detailed)・ドメイン特化ルールベース。
- **オンラインフェーズ**: quick path(履歴データ駆動)→ slow path(タクソノミー誘導 DFS)→ deep path(探索)の 3 段パイプライン。Summarization・Planning・Execution・Reflection・Conclusion の 5 エージェントが協調。
- **実装**: Python ~5,200 LoC、Llama-index・anytree・SGLang。
## 評価結果(Microsoft Azure 本番 208 ケース)
- Micro F1=0.854 / Macro F1=0.816。RCACopilot 比 Micro +19.8%・Macro +43.6%。
- 検証時間 304.0 秒(CVD 比 -63.4%)。
- Qwen2.5-72B などローカル open-source LLM でも GPT-4o と同等運用可能。
## 関連
- ソース: [[@2026__FSE__TSGuard - Automated User-Centric Incident Diagnosis for AI Workloads in the Cloud]]
- 開発機関: [[The Chinese University of Hong Kong]] / [[Microsoft Research]] / [[University of Toronto]]
- 評価対象クラウド: [[Microsoft Azure]]
- 比較対象: [[RCACopilot]](DID-o1・CVD・TGD はバリアントのため独立エンティティ化しない)
- 関連概念: [[根本原因分析]] / [[インシデント管理]] / [[Fault Localization]] / [[マルチモーダル障害診断]] / [[エージェント運用安全性]] / [[LLM分散学習]]