インシデントレスポンスAIレベル

# インシデントレスポンスAIレベル ## 定義インシデントレスポンス AI レベル(IR Levels)は、SAE J3016™「Levels of Driving Automation」の自動運転 L0〜L5 をインシデントレスポンス(IR)における AI の関与度に対応させたフレームワークである。[[Ryota Yoshikawa]](CTO @ [[Topotal]])が SRE NEXT 2025 で提唱。「AI の役割が通知・記録補助(IR1)から完全自律実行(IR5)へ段階的に高まる」という連続スペクトルを提示し、現在地と次の目標を可視化する。 | 自動運転レベル | 人の役割(運転) | AI の役割(IR) | IR レベル | |---|---|---|---| | L0: No Driving Automation | 完全手動運転 | なし | IR0 | | L1: Driver Assistance | 運転支援 | 通知・記録補助 | IR1 | | L2: Partial Driving Automation | 部分的支援 | 判断支援・提案 | IR2 | | L3: Conditional Driving Automation | 条件付自動運転 | 実行・監視責任も AI | IR3 | | L4: High Driving Automation | 高度自動運転 | 完全実行(特定領域) | IR4 | | L5: Full Driving Automation | 完全自動運転 | あらゆる状況で AI | IR5 | 出典: SAE J3016™ (SAE International, 2021) の対応付けは [[@2025__SRE NEXT 2025__Rethinking Incident Response - Context-Aware AI in Practice]] による。 ## 横断的知見 - **AIRE (AI Reliability Engineering) は IR3〜IR4 を産業フレームワークとして体系化した最初の試みのひとつ**: [[Peter Jausovec]](Solo.io)が SREcon25 EMEA で提唱した AIRE のキー能力4段階(Operational Knowledge → Awareness/自律トリアージ → Investigation/並行仮説生成 → Resolution/最小人手介入)は、IR Levels の IR3〜IR4 が「実際には何を意味するか」を具体化した実装モデルに対応する。IR2 以下(通知・提案)を超えて、エージェントが並行調査を自律的に開始し根本原因仮説を立てる Investigation が IR3、最小人手で修正・復旧まで行う Resolution が IR4 に相当する。(Source: [[@2025__SREcon25EMEA__From 4 Hours to 8 Minutes with AI Agents that Transform SRE Incident Response]]) - **MCP が IR2〜IR3 実現の実質的なインフラ層になりつつある**: Waroom の IR2+ デモと Jausovec の AIRE 構成はともに MCP (Model Context Protocol) を外部ツール接続のオープン標準として採用している。Waroom は Sentry/GitHub MCP で「エラー検知→PR 生成→クローズ」を実現し、AIRE は Azure/AWS/GCP/GitHub/Slack MCP サーバ群を kagent 上で共有する設計を示す。MCP というインフラ標準が SRE 文脈での IR2〜IR3 実装を収束させている可能性がある。(Source: [[@2025__SRE NEXT 2025__Rethinking Incident Response - Context-Aware AI in Practice]], [[@2025__SREcon25EMEA__From 4 Hours to 8 Minutes with AI Agents that Transform SRE Incident Response]]) - **2025 年時点で IR0〜IR2 は実現済み、IR2〜IR3 が MCP/Coding Agent で現実的になった**: SRE NEXT 2025 発表では「今現在は IR0〜IR1、IR2 ぐらいまでは実現されてきている」「MCP と Coding Agent の力で IR2〜IR3 相当の実現可能性が出てきた」と整理する。IR3 到達には「AI に任せられる安全な操作の定義」が必要。(Source: [[@2025__SRE NEXT 2025__Rethinking Incident Response - Context-Aware AI in Practice]]) - **IR2+ の具体像は「Sentry→調査→PR→クローズ」の自動化フロー**: [[Waroom]] の IR2+ デモでは、Sentry MCP でエラーを検知・起票 → GitHub MCP でコード変更履歴を取得・修正 PR 生成 → 人間がレビュー・デプロイ → インシデントクローズとポストモーテム自動生成、というフローが実装された。人間の介在点は PR レビューと本番デプロイのみ。(Source: [[@2025__SRE NEXT 2025__Rethinking Incident Response - Context-Aware AI in Practice]]) - **IR フレームワークは AIOps の 4-level taxonomy(検知/局所化/RCA/緩和)と直交する**: [[AIOps]] の 4 段(Detection / Localization / RCA / Mitigation)は「何ができるか」の能力軸を縦に切る。IR Levels は「AI がどこまで自律的に動くか」の自律度軸を横に切る。IR2 では AI が提案するが人間が実行し、IR3 では AI が実行・監視まで担うという意思決定権の移行を表す。[[SRE AI Autonomy Levels]] との対比でいえば、IR Levels は運転の段階に類比しつつ意思決定の自律度を主軸にする点で独自。(Source: [[@2025__SRE NEXT 2025__Rethinking Incident Response - Context-Aware AI in Practice]], [[AIOps]]) - **Amazon の産業実装は MCP を人間・エージェント共通のツール標準として採用し、本番変更には「サムズアップ」承認ゲートを設ける**: Amazon の SRE エージェント(Papapanagiotou, SREcon25 EMEA)は、AIRE(Jausovec, SREcon25 EMEA)や Waroom(SRE NEXT 2025)と同様に MCP を外部ツール接続の標準として採用し、本番変更提案には推論過程とドライラン結果を提示したうえで人間が承認する「サムズアップ」ゲートを設けた。これは IR2(判断支援・提案)から IR3(実行・監視責任も AI)への移行における「AI に任せられる安全な操作の定義」問題に対する具体的な解の一つであり、ドライラン結果の提示という形で人間の承認判断を支援する設計は、AIRE の Resolution 段階(最小人手介入)とも整合する。(Source: [[@2025__SREcon25EMEA__Modernizing Incident Response with LLMs, RAG, and the MCP]]) ## 未解決の問い - AIRE の「4時間から8分へ」というタイトルの数値はスライド本文で裏付けデータが示されていない。IR3〜IR4 領域のインシデント対応時間短縮の定量的エビデンスはどこから来るのか。実測値なのか、特定インシデント類型の推定値なのか。 - IR3 に至るための「AI に任せられる安全な操作」はどのように定義・検証するか。ロールバック操作・設定変更・スケールアウトなど具体的に安全な操作の境界はどこか。 - IR Levels と AIOps 4-level taxonomy(検知/局所化/RCA/緩和)はどのように対応・直交するか。IR2 は AIOps の「局所化・RCA 提案まで」、IR3 は「緩和実行まで」と読めるが、RCA 精度(14%)が低いまま IR3 は実現できるか。 - [[SRE AI Autonomy Levels]] との比較: Google SRE の Autonomy Levels は Self-Direct / Collaborate / Execute / Mitigate の 4 段階。IR Levels との対応・補完関係は何か。 - IR4〜IR5 の実現には OpenRCA(11%)・AIOpsLab RCA(14%)が示す精度の壁をどう越えるか。 ## 関連 - [[インシデント管理]] — IR Levels が解こうとする問題空間 - [[AIOps]] — 能力軸(Detection/Localization/RCA/Mitigation)との対比 - [[SRE AI Autonomy Levels]] — Google SRE の自律度軸との比較 - [[Waroom]] — IR2+ デモの実装主体 - [[kagent]] — AIRE の Kubernetes ネイティブ実装基盤 - [[OpenRCA]] — RCA 精度の現在値(11%) - [[AIOpsLab]] — IR 各段の精度ベンチマーク(検知 86%・局所化 71%・RCA 14%・緩和 43%) - `[[structures/AIOps - Fault Localization - MOC]]` — 関連 MOC ## 出典 - [[@2025__SRE NEXT 2025__Rethinking Incident Response - Context-Aware AI in Practice]] — 本フレームワークの提唱元 - [[@2025__SREcon25EMEA__From 4 Hours to 8 Minutes with AI Agents that Transform SRE Incident Response]] — AIRE としての産業実装モデル(IR3〜IR4) - [[@2025__SREcon25EMEA__Modernizing Incident Response with LLMs, RAG, and the MCP]] — MCP 標準採用とサムズアップ承認ゲートの産業実装