## Memo
- [[Interactive AIOps]]
## Abstract
近年、オンライン・サービス・システムの普及が進んでいます。これらのシステムでインシデントが発生した場合、大きな経済的損失やお客様の不満が生じる可能性があります。インシデントのトリアージ(新しいインシデントを担当チームに割り当てる作業)は、影響を受けたサービスを迅速に復旧させるために極めて重要です。私たちの経験では、インシデントのトリアージは最初に一度だけ行われるのではなく、異なるチームのエンジニアがインシデントについて集中的に議論し、正しい割り当てに到達するまでインシデント・トリアージの結果を継続的に改善するプロセスであることが分かっています。特に、8つのオンラインサービスシステムを対象とした実証研究では、再割り当てされたインシデントの割合は5.43%から68.26%、正しい割り当てを達成するまでの議論項目数は平均で最大11.32であることが分かっています。既存のインシデントトリアージプロセスを改善するために、本論文では、自動化された継続的なインシデントトリアージへのディープラーニングベースのアプローチであるDeepCTを提案します。DeepCTは、注目ベースのマスク戦略と改訂された損失関数を持つ新しいGRUベース(Gated Recurrent Unit)モデルを組み込んでおり、議論から知識を漸進的に学習し、インシデントトリアージの結果を更新することができます。DeepCTを用いることで、より少ない議論数で正しいインシデント割り当てを達成することができる。我々は、Microsoft社の14の大規模オンラインサービスシステムにおいて、DeepCTの広範な評価を実施した。その結果、DeepCTはより正確で効率的なインシデントトリアージを実現できることが分かりました。例えば、議論項目数が1から5まで増加しても、責任チームを正確に特定する平均精度は0.641⇠0.729 となります。また、DeepCTは、統計的に有意に最先端のバグトリアージアプローチを上回った。
[[2019__ASE__Continuous Incident Triage for Large-Scale Online Service Systems__translations]]