## Memo
- conference: [[2021__ISSRE__How Long Will it Take to Mitigate this Incident for Online Service Systems?]]
## Abstract
コンテキスト
オンラインサービスシステムにおいて、インシデントマネジメントは重要な役割を担っている。サービスの安定性を高めるためには、インシデントをできるだけ早く軽減する必要があります。しかし、利用可能なリソースは限られているため、エンジニアは慎重にスケジュールを立てる必要があります。TTM(Time to Mitigate)とは、インシデントが発生してからサービスの可用性を回復するまでに必要な時間のことです。TTMを予測することで、保守作業の見積もりが容易になり、開発者がタスクを配置する際の情報がより多く得られます。
目的
私たちの研究は、TTMを正確に予測することを目的としており、主に2つのステップから構成されています。まず、インシデントを深く理解するために、実証研究を行う。そして、実証研究から得られた知見に基づき、TTM予測のための効果的なアプローチを設計する。
方法
実証研究では、20のMicrosoftオンラインサービスシステムを用いて、インシデント管理における各ステージの期間と、TTMとインシデント指標との関係を調査しました。そして、実証研究から明らかになった特徴に基づき、連続トリアージシナリオにおけるTTM予測のためのディープラーニングに基づくアプローチであるTTMPredを提案する。特に、従来のソフトウェアバグの修正時間予測に拡張することで、TTMPredの一般性を向上させる。
結果
Microsoftの4つの大規模オンラインサービスシステムと、広く利用されているBugzillaベースの4つのプロジェクトで、TTMPredの有効性を調査した。その結果、TTMPredはインシデントTTM予測、バグ修正時間予測の両方において、比較されたアプローチよりも優れた性能を示すことがわかった。例えば、平均して、TTMPredはインシデントデータのMAE(Mean Absolute Error)において、最先端の回帰ベースのアプローチを25.66%改善し、バグデータのMAEにおいて42.14%改善することができる。
結論
TTMPredは、バグシナリオに拡張することができ、トリアージプロセス中に正確なバグ修正時間を継続的に予測することができます。
[[2022__Information and Software Technology__Understanding and predicting incident mitigation time__translations]]