# 障害予測
## 定義
障害予測(failure prediction / proactive monitoring)は、障害が実際に発生し業務へ影響する**前に**、潜在的な障害を先回りして予測し、予防的な remediation を可能にする営み。障害発生**後**に検知・局所化・根本原因分析・緩和を行う reactive な [[AIOps]] とは対照的に、proactive(preemptive)な立場を取る。[[PAGER]] は customer data platform([[Adobe Experience Platform]])でこれを実装し、履歴エラーログから学習した分類器でワークフロー段階間ジョブの時間的重複(障害の予兆)を予測し、自然言語で説明する。([[2026__AAAI__PAGER - Proactive Monitoring Agent for Enterprise AI Assistant]])
## 横断的知見
- **proactive 予測 vs reactive ライフサイクル**: [[AIOps]] 概念の主要ソース([[AIOpsLab]]・[[SREGym]])が定式化するインシデント管理は detection → localization → RCA → mitigation の4段階で、すべて障害が**起きてから**動く reactive なもの。[[PAGER]] はこの手前に「障害発生前の予測」という段階を置き、reactive な既存 enterprise AI assistant・RCA エージェント(RCACopilot・ReAct)を明示的に「障害が運用を混乱させた後にしか役立たない」と批判する。同じ AIOps 領域でも、評価・研究の軸が「起きた障害をどう捌くか」から「障害をどう未然に防ぐか」へ広がりつつある。(Source: [[2026__AAAI__PAGER - Proactive Monitoring Agent for Enterprise AI Assistant]], [[2025__MLSys2025__AIOpsLab - A Holistic Framework to Evaluate AI Agents for Enabling Autonomous Clouds]])
- **LLM の役割の置き場所**: agentic SRE 系([[Stratus]] 等)が LLM を診断・緩和の推論中核に据えるのに対し、[[PAGER]] は予測本体を古典的 random forest に任せ、LLM を Shapley 由来の寄与スコアからの説明生成・NL2SQL・RAG・会話 UI といったインターフェース層に限定する。障害予測では「予測の正確さは軽量 ML、人間への伝達は LLM」という分業が成立しうる。(Source: [[2026__AAAI__PAGER - Proactive Monitoring Agent for Enterprise AI Assistant]], [[2025__NeurIPS2025__STRATUS - A Multi-agent System for Autonomous Reliability Engineering of Modern Clouds]])
- **「障害より前/早く動く」には予測・早期検知・事前検証の 3 経路がある**: [[PAGER]] が障害発生**前**の予測(reactive ライフサイクルの手前)を狙うのに対し、[[Google]] は同じ「先回り」を 2 つの別経路で実装する。(1) [[Detectr]] は障害発生**後**だが telemetry より**早い** user feedback(SNS・サポート)で検知を前倒しする早期検知、(2) **Adaptive Progressive Rollouts** はデプロイ起因の障害が全面展開する前に機械速度の継続検証で食い止める事前検証。「障害の影響を抑える」目標に対し、予測(PAGER)・別モダリティの早期検知(Detectr)・デプロイ前検証(Google rollout)という相補的な前倒し戦略が並ぶ。(Source: [[2026__GoogleSRE__AI in SRE - Engineering the Future of Reliable Operations]], [[2026__AAAI__PAGER - Proactive Monitoring Agent for Enterprise AI Assistant]])
## 未解決の問い
- [[PAGER]] は障害を「段階間ジョブの時間的重複(overlap)」として定式化するが、これは AEP 固有のワークフロー前提に強く依存する。overlap 以外の障害種別(リソース枯渇・データ品質・外部依存)や、他プラットフォームへ予測対象をどこまで一般化できるか。
- segmentation↔journey の予測 F1 は 57.5 と中程度で baseline の分散も大きい。障害予測の精度上限はデータの偏り(障害は稀事象)とどう関係するか。稀な障害クラスの予測をどう底上げするか。
- 予測 → 説明 → 予防的 remediation のループで、誤検知(false positive な予測)が support engineer の信頼と作業負荷に与える影響は。reactive な AIOps が報告する false positive 問題([[AIOps]] 参照)は proactive 予測でどう現れるか。
- proactive 予測と reactive な detection/RCA/mitigation を1つのエージェントに統合できるか。予測が外れた(=実際に障害が起きた)ときに reactive ループへ滑らかに引き継ぐ設計は。
- 予測([[PAGER]])・早期検知([[Detectr]])・デプロイ前検証([[Google]] の Adaptive Progressive Rollouts)はいずれも「障害影響の前倒し抑制」を狙うが、どの障害クラスにどの経路が効くかの切り分けは未整理。デプロイ起因の障害は rollout 検証で、外部要因・需要変動起因は予測で、新規・未知の障害は user feedback 検知で、という棲み分けは成り立つか。([[2026__GoogleSRE__AI in SRE - Engineering the Future of Reliable Operations]])
## 関連
- ソース: [[2026__AAAI__PAGER - Proactive Monitoring Agent for Enterprise AI Assistant]] / [[2026__GoogleSRE__AI in SRE - Engineering the Future of Reliable Operations]]
- 概念: [[AIOps]] / [[agentic SRE]] / [[SRE AI Autonomy Levels]]
- エンティティ: [[PAGER]] / [[Adobe Experience Platform]] / [[Detectr]] / [[Google]]
- 関連 MOC: [[AIOps - Failure Detection - MOC]] / [[LLM4SRE - MOC]]
## 出典
- [[2026__AAAI__PAGER - Proactive Monitoring Agent for Enterprise AI Assistant]](Abstract, Introduction, System Overview, Results)
- [[2026__GoogleSRE__AI in SRE - Engineering the Future of Reliable Operations]](AI Across the SRE Lifecycle, The Future of SRE)