MonitorAssistant - yuuk1's Digital Garden

# MonitorAssistant [[Microsoft]] のクラウドサービスに投入された LLM ベース（GPT-4 Turbo）のエンドツーエンドの実用的異常検知システム。LLM を検知器そのものとしてではなく、モデル設定推奨・異常レポート生成・エンジニアとのフィードバック仲介というメタ層として活用する。 3 フェーズ構成: (1) **設定推奨**——Monitor Metric Configuration Database（シェープレット + インシデント）と統一類似度（時系列 + LLM 記述類似度）で最適なモデル設定を推奨、(2) **異常アラート**——歴史的メトリクス-インシデントペアから知識を抽出し、異常種別・根本原因候補・トラブルシューティングガイドを含むレポートを生成、(3) **フィードバックループ**——LLM-Engineer-In-The-Loop でサービスエンジニアが低閾値でモデルを改善。核心の設計判断は「実用的異常」（統計的逸脱 + インシデント裏付け）の定義と、LLM をメタ層に限定する配置。検知そのものは LSTM・閾値・統計手法に任せ、「常時稼働には LLM が重い」制約を回避する。 ## 関連 - ソース: [[@2024__ESEC-FSE__MonitorAssistant - Simplifying Cloud Service Monitoring via Large Language Models]] - 所属: [[Microsoft]] - 関連研究者: [[Zhaoyang Yu]]（第一著者）/ [[Minghua Ma]]（責任著者）/ [[Dan Pei]]（シニア著者） - 概念: [[異常検知]] / [[AIOps]] - 関連 MOC: [[AIOps - Failure Detection - MOC]]