私はSRE、特にAIOpsを専門とする研究者です。
この分野を研究されている学生さんがいらして嬉しく思います。もし必要とされるのであれば、コミュニティ活動の範囲でサポートしますよ。
- アラート対応について
- 技術報告を読ませていただいたところ、一度の「障害」が発生し、その障害起因で複数の「アラート」が生成され、それらのアラートについて、マイクロサービスの依存関係を考慮して、アラートごとの重大度を自動で計算することで、重要なアラートを絞り込む手法を研究されていると理解しました。直接関連する研究論文としてはこれを読んだことがあります。 https://twitter.com/yuuk1t/status/1648558134481547264
- したがって、こちらのスレッドで議論されているような「障害」の重大度ではなく、「アラート」の重大度(産業界ではアラートレベルといった用語を使うことが多いように思います。Critical, Warningなど。)をどのように決定しているか?をゆうさんは知りたいのではないかと思います。いずれにせよ、企業の現場では、客観的な基準を用いて、これらの重大度を決定されている事例は私の観測範囲ではほとんどないように思います。
- しかし、「障害」の重大度については、特に海外のコミュニティでは近年整備されつつある印象はあります。(参考) https://twitter.com/nari_ex/status/1747216265532563891
- 「通知を受けてから切り分けを行うまでってどれぐらいの速度感で」
- 論文に引用できるようなデータは私の知る限りでは、公開されていないようです。
- 切り分けでなく解決までの時間を示す文献であれば、VOID Reportを読むことをおすすめします。例えば、2021年のレポートでは障害の解決まではインシデント(障害のこと)の半数以上は、2時間以内に解決されるとのことです。 https://notes.yuuk.io/notes/sre/The+VOID+Report+2021
- 「そういうのをどの順番で行うかをアラートに設定した重大度を元に決めてる」
- 一度の障害起因の複数の異なるアラートについて、私見では、重大度ではなくアラートのテキストをみて、熟練のエンジニアが直感で重要そうなアラートを発見しているのが現状ではないかと思います。
- SREコミュニティについて
- jacopenさんが書かれているように、業務として、監視、インシデント対応を担うエンジニアが集まるコミュニティとしてはSREに関するコミュニティがあります。具体的には、SRE LoungeというコミュニティのSlackワークスペースがあります。こちらでも同様にご相談されるといいかもしれません。 [SRE Lounge - connpass](https://sre-lounge.connpass.com/)
https://drive.google.com/file/d/1wRB-yX25Vobnr06YERH-arJDm6lfwX4D/view?usp=sharing
さらっと関連研究を探したところ、おそらくこの論文が関連研究の中では最先端ではないかと思います。ASEというソフトウェア工学系トップの国際会議に採択された論文ですね。
この論文のSection 2に、アラートのハンドリングとして次のようにマニュアルでの対応が主であることが書かれていますね。日本の先端企業で行われている内容と私の見聞と照らしても相違ないように思います。
> Alert Handling. The process of the on-call engineers and developers checking, diagnosing, and mitigating faults based on the reported alerts is called alert handling. Since there may be multiple alerts within the same period, on-call engineers need to first link or aggregate alerts manually based on their experiences, the related metrics, and alert descriptions to divide the alerts involved in different faults and assign them to different teams. The developers in the team then locate the root causes of faults based on the alert contents and take mitigation action to eliminate faults. Finally, to guide the future diagnosis improvement of the same type of faults, the developers usually write diagnosis reports for the typical faults after mitigation.
[[2023__ASE__Dynamic Graph Neural Networks-based Alert Link Prediction for Online Service Systems]]