TSGuard - yuuk1's Digital Garden

# TSGuard [[Yitao Yang]] らが [[The Chinese University of Hong Kong]]・[[Microsoft Research]]・[[University of Toronto]] で開発した user-centric の多エージェントインシデント診断システム。AI ワークロード(GPU クラスタ訓練・推論)で発生するインシデントを、ユーザ側で即時に診断し、未解決時には予備診断レポート付きでプロバイダにエスカレートする。[[@2026__FSE__TSGuard - Automated User-Centric Incident Diagnosis for AI Workloads in the Cloud]] の本体。 ## 構成 - **オフラインフェーズ**: 過去インシデント DB(BGE-large 埋め込み + ANN)・階層タクソノミー(LLM 自動構築+専門家アノテーション、6 main / 28 sub / 97 detailed)・ドメイン特化ルールベース。 - **オンラインフェーズ**: quick path(履歴データ駆動)→ slow path(タクソノミー誘導 DFS)→ deep path(探索)の 3 段パイプライン。Summarization・Planning・Execution・Reflection・Conclusion の 5 エージェントが協調。 - **実装**: Python ~5,200 LoC、Llama-index・anytree・SGLang。 ## 評価結果(Microsoft Azure 本番 208 ケース) - Micro F1=0.854 / Macro F1=0.816。RCACopilot 比 Micro +19.8%・Macro +43.6%。 - 検証時間 304.0 秒(CVD 比 -63.4%)。 - Qwen2.5-72B などローカル open-source LLM でも GPT-4o と同等運用可能。 ## 関連 - ソース: [[@2026__FSE__TSGuard - Automated User-Centric Incident Diagnosis for AI Workloads in the Cloud]] - 開発機関: [[The Chinese University of Hong Kong]] / [[Microsoft Research]] / [[University of Toronto]] - 評価対象クラウド: [[Microsoft Azure]] - 比較対象: [[RCACopilot]](DID-o1・CVD・TGD はバリアントのため独立エンティティ化しない) - 関連概念: [[根本原因分析]] / [[インシデント管理]] / [[Fault Localization]] / [[マルチモーダル障害診断]] / [[エージェント運用安全性]] / [[LLM分散学習]]