# AIOps研究録―SREのためのシステム障害の自動原因診断
## 概要
[[坪内佑樹]]が SRE NEXT 2022 ONLINE で発表した、AIOps によるシステム障害の自動原因診断に向けた研究記録である。障害管理とリソース割当を AIOps の二大領域として整理した上で、症状アラートと原因診断を分離し、メトリクスの前処理・時系列クラスタリング・因果グラフ生成を連結する構想と試行錯誤を示す。(Source: スライド p.8–19)
講演の中心は完成済みの診断器の紹介ではなく、全メトリクスを入力に高速な原因診断を成立させるための前処理設計である。異常検知とクラスタリングは実行時間を縮めるための補助ではなく、因果グラフの入力と結果の解釈可能性を左右する設計対象として扱われる。(Source: スライド p.19–22)
## 主要メッセージ
- AIOps の障害管理では、サービス全体の症状を SLO に基づいてアラートし、メトリクス・ログ・トレース・イベントを自動解析して原因診断を支援する「Alert symptoms, diagnose causes」という分業が有効である。(Source: スライド p.13–14)
- 原因と症状は相対的であり、アラートストームを単純に「症状だけ」に絞ることは難しい。したがって通知の対象と診断の対象を分ける必要がある。(Source: スライド p.12–14)
- [[TSifter]] の問題設定は、全メトリクスから障害検知後に固定幅のデータを取り、時系列数を削減して因果グラフ生成へ渡すことである。個別メトリクスの仮定や事前指定を避け、数分単位での原因診断を目標に置く。(Source: スライド p.18–19)
- 形状クラスタリングでは、コンポーネントをまたいでまとめると必要な因果ノードまで失うため、同一コンポーネント内に範囲を制約する。距離尺度には相互相関ベースの SBD を、処理には最短距離法の階層的クラスタリングを採用する。(Source: スライド p.32–39)
- PC アルゴリズムは条件付き独立性で辺を削除するが、障害時に似た変動を示す多数の系列があると、原因メトリクスから症状メトリクスまでの経路を誤って切るという未解決課題が残る。(Source: スライド p.43–47)
## 視覚的に重要な図表
**p.14 症状アラートから原因診断への分業**
![[_attachments/srenext2022-yuukit/page-014.png]]
SLO ベースの症状アラートをトリガーに、複数種の運用データを自動解析し、SRE が原因診断に使う流れを示す。
**p.19 原因診断前処理の問題設定**
![[_attachments/srenext2022-yuukit/page-019.png]]
全メトリクスを直接解析する計算量を、障害検知後の時系列削減で抑え、因果グラフ生成へ接続する設計を示す。
**p.21–22 オペレーターの認知処理と前処理フロー**
![[_attachments/srenext2022-yuukit/page-021.png]]
![[_attachments/srenext2022-yuukit/page-022.png]]
異常を含む時系列の発見と、形状が似た系列のグループ化を前処理の二段階として置く。
**p.35–36 形状類似性と SBD**
![[_attachments/srenext2022-yuukit/page-035.png]]
![[_attachments/srenext2022-yuukit/page-036.png]]
z スコア変換でスケーリング・シフト不変性を扱い、相互相関を高速フーリエ変換で計算する SBD を説明する。
**p.41 因果探索をメトリクス原因診断へ適用する図**
![[_attachments/srenext2022-yuukit/page-041.png]]
複数時系列を確率変数と見なし、症状メトリクスへ至る有向非巡回グラフとして出力する。
**p.46 PC アルゴリズムの条件付き独立性検定の課題**
![[_attachments/srenext2022-yuukit/page-046.png]]
同時に似た変動をする変数が多いと、偏相関による辺削除が原因と症状の経路を切りうることを可視化する。
**p.52 Meltria の動的データセット生成**
![[_attachments/srenext2022-yuukit/page-052.png]]
Kubernetes 上の Sock Shop に故障注入と負荷生成を行い、運用データを蓄積してデータセット化する構成を示す。
## 口頭説明・補足
YouTube の日本語自動字幕では、発表者が AIOps を「集めた運用データを SRE が一つずつ見る難しさを AI で扱う分野」と説明し、国内での研究事例の少なさにも触れている。ただし字幕には固有名詞の誤認と重複が多いため、この補足は背景説明に限定する。(Source: [[.raw/slides/srenext2022-yuukit/transcript.md]])
## 概念・実体への接続
- 人物・組織: [[坪内佑樹]]、[[さくらインターネット研究所]]
- 手法・概念: [[AIOps]]、[[因果推論ベースRCA]]、[[時系列クラスタリング]]、[[自動化の皮肉]]
- システム: [[TSifter]]、[[Meltria]]、[[Sock Shop]]
## 限界・不確実点
- 形状クラスタリングと PC アルゴリズムの説明には「講演ではスキップ」と明示されたページがあるため、実装・評価条件の詳細はこの資料だけでは確定できない。(Source: スライド p.24, p.31–39, p.44)
- PC アルゴリズムの辺削除課題への解決策は、録画時点で未解決としている。(Source: スライド p.47)
- YouTube 自動字幕は取得できたが、固有名詞の誤認と重複が多く、数値・名称・図表の根拠には使用しない。