# インシデントTTM予測 ## 定義 インシデント TTM 予測(Incident TTM Prediction)は、オンラインサービスシステムで発生したインシデントについて、緩和完了までの所要時間(TTM: Time To Mitigation)を予測する機械学習タスクである。インシデントのライフサイクルにおける複数の時点(報告時・初期トリアージ時・最終トリアージ時)でそれぞれ予測を行う「連続的トリアージシナリオ」での予測が現実的な設定として重要視される。回帰タスク(具体的な時間値の予測)と分類タスク(速い緩和/遅い緩和の 2 値分類)の両方の定式化が存在する。[[Microsoft]] の 20 大規模オンラインサービスシステムの分析([[@2021__ISSRE__How Long Will it Take to Mitigate this Incident for Online Service Systems]])により、TTM はライフサイクルの第 3 フェーズ T3(最終担当チーム特定後の緩和フェーズ)に平均 70.20% が集中することが初めて示された。 ## 横断的知見 - **同じ Microsoft Chen+ チームが「緩和の事前に効く優先順位付け」と「緩和時間予測」を別々のタスクとして攻めている**: [[@2020__ASE__How Incidental are the Incidents - Characterizing and Prioritizing Incidents for Large-Scale Online Service Systems]]([[DeepIP]])と [[@2021__ISSRE__How Long Will it Take to Mitigate this Incident for Online Service Systems]]([[TTMPred]])は同じ Microsoft Research + Tianjin University の研究系譜(共著者 [[Junjie Chen]]・[[Qingwei Lin]]・[[Hongyu Zhang]]・[[Yu Kang]]・[[Dongmei Zhang]])で、対象も Microsoft の大規模オンラインサービスで重なる(DeepIP=18 サービス、TTMPred=20 サービス、4 サービスで詳細評価)。DeepIP は「対処不要な incidental incidents を後回しに ranking する」事前介入、TTMPred は「個別 essential incident の緩和時間を予測してリソース配分する」事後介入で、両者は OCE 工数最適化という同一目的に対して**処理パイプライン上の異なる時点**で介入する。「incidental か否か」「essential なら何分かかるか」を組み合わせて運用フローに翻訳する設計は両論文の射程外で残っている。(Source: [[@2020__ASE__How Incidental are the Incidents - Characterizing and Prioritizing Incidents for Large-Scale Online Service Systems]], [[@2021__ISSRE__How Long Will it Take to Mitigate this Incident for Online Service Systems]]) - **attention + textual + 関連 incident 取り込みという設計指針の継承**: DeepIP は attention 付き CNN で target incident と直前 10 件の relevant incidents を統合し、TTMPred は 2 段アテンション付き双方向 GRU で textual + 漸進的議論時系列を統合する。1 年差の Chen+/Wang+ 両論文は「incident は孤立報告でなく時系列/関連で文脈を持つ」という共通の構造仮定を、attention を中核に異なる出力タスク(分類 vs 回帰)で実装している。NLP の attention 系手法を AIOps に持ち込むという系譜の最早期の 2 例として並列に読める。(Source: [[@2020__ASE__How Incidental are the Incidents - Characterizing and Prioritizing Incidents for Large-Scale Online Service Systems]], [[@2021__ISSRE__How Long Will it Take to Mitigate this Incident for Online Service Systems]]) ## 未解決の問い - LLM エージェントによるインシデント管理([[AIOps]]・[[TSG自動化]])が普及した現代においても TTM 予測は有効か。エージェントが自律的に緩和を試みる環境では、T3 の長さは人手作業とエージェント能力のどちらに依存するか。 - TTM 予測モデルの訓練データは時間と共に陳腐化する(システムの進化・担当チームの変更)。どのような継続学習・再学習スケジュールが適切か。 - 重複/関連インシデント(同一根本原因から生じる複数インシデント)に対して、親インシデントの議論情報を子インシデントの予測に活用する手法はどう設計すべきか。 - TTMPred が「漸進的議論の蓄積」に依存する設計は、LLM エージェントが自動生成する診断サマリをインシデントレポートに付与する運用との相性はどうか。自動生成テキストへの適応が必要か。 ## 関連 - ソース: [[@2021__ISSRE__How Long Will it Take to Mitigate this Incident for Online Service Systems]] / [[@2020__ASE__How Incidental are the Incidents - Characterizing and Prioritizing Incidents for Large-Scale Online Service Systems]] - 概念: [[インシデント管理]](上位概念・ライフサイクル全体) / [[インシデント優先順位付け]](同じ Chen+ チームの並列研究、ranking 側) / [[障害緩和]](T3 フェーズの実作業) / [[AIOps]](技術的フレームワーク) - エンティティ: [[Weijing Wang]]・[[Qingwei Lin]]・[[Yu Kang]]・[[Dongmei Zhang]]・[[Junjie Chen]]・[[Microsoft]] ## 出典 - [[@2021__ISSRE__How Long Will it Take to Mitigate this Incident for Online Service Systems]](§II 実証研究・§III TTMPred アーキテクチャ・§IV 実験結果) - [[@2020__ASE__How Incidental are the Incidents - Characterizing and Prioritizing Incidents for Large-Scale Online Service Systems]](§4 DeepIP アーキテクチャ・関連 incident の attention 統合)