@2025__SRE NEXT 2025__Rethinking Incident Response - Context-Aware AI in Practice

# Rethinking Incident Response: Context-Aware AI in Practice Navigation: [[index]] | [[@2025__SRE NEXT 2025__Rethinking Incident Response - Context-Aware AI in Practice]] SRE NEXT 2025 での [[Ryota Yoshikawa]](CTO @ [[Topotal]])による発表。生成 AI がインシデント対応の「相棒(Incident Buddy)」になり得るかを、自動運転レベルとの対応、[[Waroom]] MCP デモ、最新 AIOps ベンチマークの 3 軸で論じる。 ## 概要インシデントレスポンスに AI/LLM を活用するケースが増えている中、MCP と Coding Agent の台頭により IR の自動化レベルが引き上げられつつある。本発表は SAE J3016 の自動運転レベル(L0〜L5)に対応する「IR レベル(IR0〜IR5)」フレームワークを提示し、現時点での到達点(IR0〜IR2)と次の現実的目標(IR2〜IR3)を整理する。あわせて Waroom における IR2+ デモとして、Claude が Sentry MCP・GitHub MCP・Waroom MCP を連携しインシデント起票〜PR 生成〜インシデントクローズを自動的に行うフローを示す。一方でオペレーション領域の RCA・緩和は研究段階(OpenRCA 11% / AIOpsLab RCA 14%)であり、コンテキストを与えてフォローする運用が当面の現実解だと結論する。 ## 主要メッセージ - インシデントレスポンスは開発チームや SRE の成熟度を測る指標として重要。DORA は 2018 年以降 MTTR を継続的に指標化し、Elite ランクでは 1h 未満が基準となる(〜2024)。(p.15) - 現場課題: 精神的負担・組織展開の難しさ・ICS(Incident Command System)を小規模インシデントに適用する困難さが未解決のまま残る。(p.16) - MCP と Coding Agent が IR2〜IR3 相当の実現可能性を生んでいる。IR3 に至るには「AI に任せられる安全な操作の定義」が必要。(p.19) - 生成 AI は「簡単なコード・レポート・要約」では大分 Yes。オペレーション領域の RCA・緩和は研究段階。(p.25, p.26-27) - 精度向上の 3 施策: (1) 社内 IR 情報(ポストモーテム・Slack ログ・Jira)を構造化して LLM に学習させる、(2) 世界中の公開データ(OpenRCA・The VOID)を取り込む、(3) サービスコンテキスト(サービスマップ・依存関係・Runbook)を LLM に接続する。(p.28) ## 視覚的に重要な図表 **p.10–11 インシデントレスポンス / SAE Levels 対応表** ![[_attachments/Incident_Buddy_AI_Edition/page-010.png]] 自動運転 L0〜L5 を IR0〜IR5 に写像した表。L2(Partial Driving Automation)を IR2(判断支援・提案)、L3(Conditional)を IR3(実行・監視責任も AI)と定義し、SAE J3016™ を出典として明記する。 ![[_attachments/Incident_Buddy_AI_Edition/page-011.png]] 同表に「現在は IR0〜IR1、IR2 ぐらいまでは実現」「MCP・Coding Agent の力で IR2〜IR3 相当の実現可能性が出てきた」という現状評価を追記したスライド。 **p.12 IR 2+ の具体的フロー(MCP 連携)** ![[_attachments/Incident_Buddy_AI_Edition/page-012.png]] MCP と Coding Agent を用いた IR2+ フロー: 監視・ユーザーサポート起因でインシデント起票 → Sentry/Datadog MCP で原因推測 → GitHub MCP で変更履歴取得 → Claude が修正コード生成 → GitHub MCP で PR 化 → 人間がレビュー・本番デプロイ。インシデント対応状況は AI が逐次報告し、重篤度の更新・コマンダー推薦も行う。 **p.26 AIOps View / OpenRCA ベンチマーク** ![[_attachments/Incident_Buddy_AI_Edition/page-026.png]] AI のインシデントレスポンスは「安全性」「精度」に大きな課題。コード生成は莫大なデータセットで上手くいくが、実際のオペレーション・障害緩和策はデータが少ないため精度が出にくい。OpenRCA(github.com/microsoft/OpenRCA、Xu et al. ICLR 2025): 335 件の障害ケース + 68GB 超のログ・メトリクス・トレース、Claude 3.5 Sonnet + Multi-Agent でも正答率 **11%** 程度。 **p.27 AIOpsLab ベンチマーク数値** ![[_attachments/Incident_Buddy_AI_Edition/page-027.png]] AIOpsLab(github.com/microsoft/AIOpsLab、Chen et al. MLSys 2025): 実システム環境のクラウド運用タスク評価基盤。インシデントレスポンスを 4 段で評価: - 検知(Detection): ReAct(GPT-4) → **86%** - 局所化(Localization): GPT-4 + Shell → **71%** - 根本原因分析(RCA): 全手法 → **14% 程度** - 緩和(Mitigation): GPT-4 + Shell / ReAct(GPT-4) → **43%** → 検知・障害の局所化は既存手法を上回るが、原因分析・緩和は課題。 ## IR2+ デモ: Sentry → Claude → Waroom → GitHub フロースライド p.22〜p.31 に Waroom 上でのライブデモが示される。 1. **p.22**: `#waroom-staging-errors` チャンネルで Sentry が `NoMethodError` (Api::V0::Internal::DemoIncidentsController#index, `strip` called on nil) を検知。 2. **p.23**: Claude に Sentry URL を渡してインシデント起票を依頼。`sentry - get_issue_details (MCP)` でエラー詳細を取得し調査を開始。 3. **p.24**: `waroom-mcp - waroom_create_incident` を呼び出し、Waroom にインシデントを作成。 4. **p.25**: Waroom Bot が Slack `#waroom` チャンネルにインシデント情報(DemoIncidentsController で NoMethodError 発生、重篤度: 低、発生日時: 2025-07-10)を自動投稿。 5. **p.26**: Claude がコンテキストを把握し、`parse_date_param` メソッドの nil 処理の不具合を特定。`waroom_update_incident_status` で Investigating に更新。 6. **p.27**: `git push` + `gh pr create` で PR を作成。PR タイトル: "Fix NoMethodError in DemoIncidentsController#parse_date_param"。 7. **p.28**: GitHub PR(sawa-zen commented): Summary(staging で `parse_date_param` の nil の場合に `strip` を呼び出している問題)・Problem・Solution(`date_str.strip` → `date_str.to_s.strip` に変更)が自動生成される。 8. **p.29**: Claude がテスト通過を確認し対応状況を AI に報告。「ブランチ・PR 完了、7 つの動作確認テストも通過」。 9. **p.30**: `waroom_update_incident_status` で status を `resolved` に更新。 10. **p.31**: 対応後、Waroom 上でインシデント詳細(概要・ユーザー影響・症状・原因・対応内容)が自動的にまとめられる。 ## 概念・実体への接続 - [[インシデントレスポンスAIレベル]] — 本発表が提唱した IR0〜IR5 フレームワーク - [[インシデント管理]] — IR SAE Levels 比較、フロンティアビューの課題整理 - [[AIOps]] — OpenRCA(11%)・AIOpsLab(RCA 14%、Detection 86%)のベンチマーク結果 - [[Waroom]] — MCP 連携による IR2+ デモ実装 - [[Ryota Yoshikawa]] — 登壇者 - [[Topotal]] — 登壇者所属 - [[OpenRCA]] — ベンチマーク。github.com/microsoft/OpenRCA(Xu et al. ICLR 2025) - [[AIOpsLab]] — ベンチマーク。github.com/microsoft/AIOpsLab(Chen et al. MLSys 2025) ## 限界・不確実点 - デモは 2025-07-10 付きのスクリーンショットを使用しており、発表時点(2025-08-19)の本番環境の制約は不明。 - "IR3 相当に行くための安全な操作の定義" の具体的内容はスライドに詳述なし。 - transcript(音声)は取得していないため、口頭説明の詳細は含まれない。 - SRE Report 2025 の引用は「23% は月 10 件程度の障害が発生」だが、調査対象の規模感の詳細は不明。