> - ルックアップウィンドウの設定時間の話 > - 故障検知にSLIメトリクスを使う話 > - 検知後に実行するため高速性が求められる話 上記3点をどこに配置するかを思案したところ、Sectionの構成を大きく変更することにした。 主要な変更は次の通り。 1. 「Related Work「と「Problem Formulation」を「Background and Motivation」のSectionとして統合した。 1. Related Workのうち、Fault Localizationのメトリクスベース以外の手法や各メトリクスベースの手法を細かく紹介している箇所をConclusionの直前に配置した。これは各fault localization手法の詳細が提案手法や実験の節では登場しないため。 1. Problem Formulationのうち、Observationの節を「Feature Reduction Framework」の節の中のKey Insight from Observationへ移動した。 Related Workに記載していた下記3点については、「Background and Motivation」の中の「Automated Fault Localization」に配置した。これらの3点は、その直後の「Problem Formulation」節の`The main objective of our paper is ...` の前提になる。 > - ルックアップウィンドウの設定時間の話 > - 故障検知にSLIメトリクスを使う話 > - 検知後に実行するため高速性が求められる話 以上の変更により、本論文の「前提と問題」に相当するものを「Background and Motivation」節、「解決」に相当するものを「Feature Reduction Framework」として分けることができ、さらに元のRelated Workにかかれていた本研究の貢献とは直接関係のない冗長な記述を論文全体の最後に配置することができた。 ## Background ### Preminaries - Incident Response - 既存の研究\cite{2022_faultlifecycle,2021_howlong}を踏まえると、ソフトウェアシステムの障害に対するインシデント対応のライフサイクルは、(i)障害の検出・インシデントの報告、(ii)インシデントのトリアージ・インシデント対応者のアサイン、(iii)障害の故障箇所特定、(iv)障害の緩和、(v)インシデントの解決の5つの段階を含む。 - Failure, Fault and Root Fault - Automatic Fault Localization with Monitoring Metrics - ルックアップウィンドウの設定時間の話 - 故障検知にSLIメトリクスを使う話 - 検知後に実行するため高速性が求められる ### Problem Statement - 現状の通り ### Feature Reduction and its Challenges - Feature Reductionのサーベイ - 性能の課題 ## MetricSifter Framework ### Observation and Key Idea [[2021__ATC__Jump-Starting Multivariate Time Series Anomaly Detection for Online Service Systems|JumpStarter]]論文の構成を参考。 breakpointの密度分布に着目。 観察の結果、相関より優れている。 ## Related Work - Fault Localizationの細かい研究紹介 - 実験の章のFault localization methodsの説明を一部移行? - 他のOperational dataであるTraceの特徴量削減の研究紹介