# アクショナブルアラート
## 定義
アクショナブルアラート(Actionable Alerting)は、「影響が大きく行動を動機づける」かつ「解釈可能で次のアクションを誘導できる」異常通知を指す([[@2023__ICSE-SEIP__TraceArk - Towards Actionable Performance Anomaly Alerting for Online Service Systems|Zeng+ ICSE-SEIP2023]] §I, §II-B)。SLO 違反予測やエラーバジェット消費を起点に「ユーザー影響のあるもの」だけを呈示する [[@2018__SREcon18 Asia__A Theory and Practice of Alerting with Service Level Objectives|Wilkinson SREcon18]] の SLO ベース呼び出しと近縁の理念だが、アクショナブルアラートは「次に何をすべきか」も含めて解釈可能性を要件にする点で一段強い概念。
OCE が「ノイズの中から重要を選ぶ」労力を減らすため、(1) impact 軸(ユーザーに到達しているか)と (2) interpretability 軸(根本原因の探索に有用か)の 2 軸で評価される。
## 横断的知見
- **「重要度の自動ランキング」と「アクショナブル化」は補完関係**: [[@2020__ISSRE__AlertRank - Automatically and Adaptively Identifying Severe Alerts for Online Service Systems|Zhao+ ISSRE2020 (AlertRank)]] は重要アラート識別を二値分類でなくランキング問題として定式化し(§III.D)、クラス不均衡(非重要:重要 ≈ 50:1)に対処しつつ「どれから調べるか」の順序を提供する。これに対し [[@2023__ICSE-SEIP__TraceArk - Towards Actionable Performance Anomaly Alerting for Online Service Systems|Zeng+ TraceArk]] は「異常通知そのものを actionable にする」(影響評価 + 解釈可能性)に踏み込む。AlertRank が「同じ集合内でランクを付ける」のに対し、TraceArk は「集合に含めるかどうか自体を変える」介入で、両者は直列に並べる関係(まず TraceArk で actionable を選別 → AlertRank でランク付け)で機能する。(Source: [[@2020__ISSRE__AlertRank - Automatically and Adaptively Identifying Severe Alerts for Online Service Systems]] §III.D, [[@2023__ICSE-SEIP__TraceArk - Towards Actionable Performance Anomaly Alerting for Online Service Systems]] §II-B)
- **SLO ベース呼び出しとの理論的接続**: [[@2018__SREcon18 Asia__A Theory and Practice of Alerting with Service Level Objectives|Wilkinson SREcon18]] は「アラートを SLO 違反予測に直接連結する」設計で症状ベース呼び出しを実装する。アクショナブルアラートはこの方向の自然な発展形で、「ユーザー影響(SLO 違反)」を impact 軸として明示的に取り込みつつ、TraceArk のように因果関連メトリクスの絞り込みで interpretability も担保する。Wilkinson 2018 が「症状ベースだから呼ばれた人は必ず行動できる」と定性的に述べた性質を、TraceArk が「ExL(排他的レイテンシ)を基軸にパス粒度でトレースを集約することで偽陽性ノイズを排除」(§III-A、Insight 1-2)と定量的に実装した。(Source: [[@2023__ICSE-SEIP__TraceArk - Towards Actionable Performance Anomaly Alerting for Online Service Systems]] §III-A, [[@2018__SREcon18 Asia__A Theory and Practice of Alerting with Service Level Objectives]])
- **「フィードバックループ」の組み込みが本番運用の前提条件**: [[@2023__ICSE-SEIP__TraceArk - Towards Actionable Performance Anomaly Alerting for Online Service Systems|Zeng+ 2023]] は XGBoost + 半教師あり学習で 10〜30 件のエンジニア評価を加えて F1 を 0.74 まで向上(§IV-C、図10)、[[@2020__ISSRE__AlertRank - Automatically and Adaptively Identifying Severe Alerts for Online Service Systems|Zhao+ 2020]] はインクリメンタル学習でソフトウェア変更後のモデル劣化(F1 0.68)を F1 0.88 まで回復(§IV.C4)。どちらも「初期モデルは中程度の精度から始めて、運用中のフィードバックで漸進的に改善」というアーキテクチャを採る。これは [[Quality of Alerts]] の handleability 軸が「OCE のドメイン知識から機械学習でラベル化する」(Yang+ DSN2022)将来方向と一致し、actionability の本質が静的な分類器ではなく**継続的な人手フィードバックで成長する学習系**にあることを示す。(Source: [[@2020__ISSRE__AlertRank - Automatically and Adaptively Identifying Severe Alerts for Online Service Systems]] §IV.C4, [[@2023__ICSE-SEIP__TraceArk - Towards Actionable Performance Anomaly Alerting for Online Service Systems]] §IV-C)
## 未解決の問い
- TraceArk の actionability(2 軸: impact + interpretability)と AlertRank の severity ランキング(重要度の連続スコア)は別物だが、両者を同一スコアに合算する設計はあり得るか? 例えば「actionable & high-rank」を上位、「actionable & low-rank」を中位、「non-actionable & high-rank」を低位、と直交化する 2×2 設計。
- TraceArk は Exchange 本番で 4 ヶ月稼働し適合率 0.9068(従来手法の 2.38 倍)を達成したが、これは Microsoft の TSG ベース運用と密に統合された結果。TSG が無い事業者で actionability を担保する方法は?
- AlertRank の Resolution Record(解決記録)ベース自動ラベル付けは、解決記録が整備された事業者でしか機能しない。ポストモーテムや RCA ドキュメントが未整備の組織で actionability を学習する代替シグナルは何か?
- アクショナブルアラートの評価は OCE への満足度調査が主流だが、MTTR(平均復旧時間)との対応関係はどう測定するか? 「actionability が高い」と「MTTR が短い」は相関するはずだが、TraceArk・AlertRank ともに MTTR への直接的影響は本論文では測定されていない。
- [[Quality of Alerts]] の 3 軸(indicativeness・precision・handleability)と TraceArk の 2 軸(impact・interpretability)の関係は? おそらく impact = indicativeness + precision、interpretability = handleability の対応だが、明示的な対応付けは未提示。
## 関連
- 親概念: [[アラート管理]]、[[Quality of Alerts]]
- 関連: [[サービスレベル目標]]([[@2018__SREcon18 Asia__A Theory and Practice of Alerting with Service Level Objectives|Wilkinson 2018]] の症状ベース呼び出しと接続)、[[インシデント管理]]
- 関連手法: TraceArk(Zeng+ 2023)、AlertRank(Zhao+ 2020)、SLO ベース呼び出し([[@2018__SREcon18 Asia__A Theory and Practice of Alerting with Service Level Objectives|Wilkinson 2018]])
- ソース: [[@2023__ICSE-SEIP__TraceArk - Towards Actionable Performance Anomaly Alerting for Online Service Systems]]、[[@2020__ISSRE__AlertRank - Automatically and Adaptively Identifying Severe Alerts for Online Service Systems]]
## 出典
- [[@2023__ICSE-SEIP__TraceArk - Towards Actionable Performance Anomaly Alerting for Online Service Systems]] §I, §II-B, §III-A, §IV-C
- [[@2020__ISSRE__AlertRank - Automatically and Adaptively Identifying Severe Alerts for Online Service Systems]] §III.A, §III.D, §IV.C4
- [[@2018__SREcon18 Asia__A Theory and Practice of Alerting with Service Level Objectives]]