インシデントTTM予測 - yuuk1's Digital Garden

# インシデントTTM予測 ## 定義インシデント TTM 予測（Incident TTM Prediction）は、オンラインサービスシステムで発生したインシデントについて、緩和完了までの所要時間（TTM: Time To Mitigation）を予測する機械学習タスクである。インシデントのライフサイクルにおける複数の時点（報告時・初期トリアージ時・最終トリアージ時）でそれぞれ予測を行う「連続的トリアージシナリオ」での予測が現実的な設定として重要視される。回帰タスク（具体的な時間値の予測）と分類タスク（速い緩和/遅い緩和の 2 値分類）の両方の定式化が存在する。[[Microsoft]] の 20 大規模オンラインサービスシステムの分析([[@2021__ISSRE__How Long Will it Take to Mitigate this Incident for Online Service Systems]])により、TTM はライフサイクルの第 3 フェーズ T3(最終担当チーム特定後の緩和フェーズ)に平均 70.20% が集中することが初めて示された。 ## 横断的知見 - **同じ Microsoft Chen+ チームが「緩和の事前に効く優先順位付け」と「緩和時間予測」を別々のタスクとして攻めている**: [[@2020__ASE__How Incidental are the Incidents - Characterizing and Prioritizing Incidents for Large-Scale Online Service Systems]]([[DeepIP]])と [[@2021__ISSRE__How Long Will it Take to Mitigate this Incident for Online Service Systems]]([[@2021__ISSRE__How Long Will it Take to Mitigate this Incident for Online Service Systems|TTMPred]])は同じ Microsoft Research + Tianjin University の研究系譜(共著者 [[Junjie Chen]]・[[Qingwei Lin]]・[[Hongyu Zhang]]・[[Yu Kang]]・[[Dongmei Zhang]])で、対象も Microsoft の大規模オンラインサービスで重なる(DeepIP=18 サービス、TTMPred=20 サービス、4 サービスで詳細評価)。DeepIP は「対処不要な incidental incidents を後回しに ranking する」事前介入、TTMPred は「個別 essential incident の緩和時間を予測してリソース配分する」事後介入で、両者は OCE 工数最適化という同一目的に対して**処理パイプライン上の異なる時点**で介入する。「incidental か否か」「essential なら何分かかるか」を組み合わせて運用フローに翻訳する設計は両論文の射程外で残っている。(Source: [[@2020__ASE__How Incidental are the Incidents - Characterizing and Prioritizing Incidents for Large-Scale Online Service Systems]], [[@2021__ISSRE__How Long Will it Take to Mitigate this Incident for Online Service Systems]]) - **attention + textual + 関連 incident 取り込みという設計指針の継承**: DeepIP は attention 付き CNN で target incident と直前 10 件の relevant incidents を統合し、TTMPred は 2 段アテンション付き双方向 GRU で textual + 漸進的議論時系列を統合する。1 年差の Chen+/Wang+ 両論文は「incident は孤立報告でなく時系列/関連で文脈を持つ」という共通の構造仮定を、attention を中核に異なる出力タスク(分類 vs 回帰)で実装している。NLP の attention 系手法を AIOps に持ち込むという系譜の最早期の 2 例として並列に読める。(Source: [[@2020__ASE__How Incidental are the Incidents - Characterizing and Prioritizing Incidents for Large-Scale Online Service Systems]], [[@2021__ISSRE__How Long Will it Take to Mitigate this Incident for Online Service Systems]]) - **トリアージ精度の改善はそれ自体が TTM 短縮策として機能しうる**: COMET([[@2024__ISSRE__Large Language Models Can Provide Accurate and Interpretable Incident Triage]])は TTM 予測モデルではなく、[[インシデントトリアージ]](担当チーム割り当て)の精度を LLM キーワード抽出で改善するシステムだが、オンライン展開で ACC@1 を 0.47→0.61 に改善した結果として TTM が 35% 短縮した(FTT も 7.85TU→1.30TU)。これは、TTMPred のような「T3(緩和フェーズ)の所要時間を予測してリソース配分する」事後的アプローチとは異なり、**T1/T2(トリアージ段階)の精度を上げて手戻り(再割り当て)自体を減らす**という、TTM 削減の別経路を実証的に示す。TTMPred が「T3 に TTM の 70.20% が集中する」と報告した一方で、COMET はトリアージ精度の低さ(誤ったチーム割り当てによる再割り当て)が T1/T2 の遅延、ひいては T3 開始の遅れにも波及しうることを示唆し、両論文を並べると「どの段階への投資が TTM 削減に最も効くか」という問いが立つ。(Source: [[@2024__ISSRE__Large Language Models Can Provide Accurate and Interpretable Incident Triage]], [[@2021__ISSRE__How Long Will it Take to Mitigate this Incident for Online Service Systems]]) ## 未解決の問い - COMET のオンライン結果(TTM -35%)は、トリアージ精度の改善による効果と LLM 呼び出しレイテンシによる遅延増加という相反する2つの要因を含む。TTM 短縮のうちどれだけが「正しい割り当てによる手戻り削減」で、どれだけが「初回トリアージ自体の高速化」に由来するかは、[[@2024__ISSRE__Large Language Models Can Provide Accurate and Interpretable Incident Triage]] では分解されていない。TTMPred のような T3 予測モデルと組み合わせて要因分解する余地はあるか。 - LLM エージェントによるインシデント管理([[AIOps]]・[[TSG自動化]])が普及した現代においても TTM 予測は有効か。エージェントが自律的に緩和を試みる環境では、T3 の長さは人手作業とエージェント能力のどちらに依存するか。 - TTM 予測モデルの訓練データは時間と共に陳腐化する(システムの進化・担当チームの変更)。どのような継続学習・再学習スケジュールが適切か。 - 重複/関連インシデント(同一根本原因から生じる複数インシデント)に対して、親インシデントの議論情報を子インシデントの予測に活用する手法はどう設計すべきか。 - TTMPred が「漸進的議論の蓄積」に依存する設計は、LLM エージェントが自動生成する診断サマリをインシデントレポートに付与する運用との相性はどうか。自動生成テキストへの適応が必要か。 ## 関連 - ソース: [[@2024__ISSRE__Large Language Models Can Provide Accurate and Interpretable Incident Triage]] / [[@2021__ISSRE__How Long Will it Take to Mitigate this Incident for Online Service Systems]] / [[@2020__ASE__How Incidental are the Incidents - Characterizing and Prioritizing Incidents for Large-Scale Online Service Systems]] - 概念: [[インシデントトリアージ]](T1/T2 段階でのTTM削減経路) / [[インシデント管理]](上位概念・ライフサイクル全体) / [[インシデント優先順位付け]](同じ Chen+ チームの並列研究、ranking 側) / [[障害緩和]](T3 フェーズの実作業) / [[AIOps]](技術的フレームワーク) - エンティティ: [[Weijing Wang]]・[[Qingwei Lin]]・[[Yu Kang]]・[[Dongmei Zhang]]・[[Junjie Chen]]・[[Microsoft]] ## 出典 - [[@2021__ISSRE__How Long Will it Take to Mitigate this Incident for Online Service Systems]](§II 実証研究・§III TTMPred アーキテクチャ・§IV 実験結果) - [[@2020__ASE__How Incidental are the Incidents - Characterizing and Prioritizing Incidents for Large-Scale Online Service Systems]](§4 DeepIP アーキテクチャ・関連 incident の attention 統合)