# AIOps ## 定義 AIOps(AI for IT Operations)は、fault localization や root cause analysis といった複雑な運用タスクを AI で自動化し、人的負荷の削減と顧客影響の最小化を目指す営み。DevOps(Development and Operations)の文脈で、障害を検知・局所化・緩和できる**自己修復クラウド**を究極の目標とする。従来の DevOps ツールや AIOps アルゴリズムは個別の運用タスクに注力しがちだったが、LLM と AI エージェントの進展により end-to-end かつマルチタスクの自動化が可能になりつつある。[[AIOpsLab]] はこのエージェント駆動の自律運用を **AgentOps**(Agent for Operations)と名付け、インシデントライフサイクル全体の自律管理を構想する。([[2025__MLSys2025__AIOpsLab - A Holistic Framework to Evaluate AI Agents for Enabling Autonomous Clouds]]) AIOpsLab はインシデント管理のライフサイクルを 4-level の task taxonomy に定式化する(上位ほど難): | Level | Task | 評価する能力 | |---|---|---| | 1 | Detection | 異常・逸脱を正しく検知できるか | | 2 | Localization | fault の正確な発生源(microservice 等)を特定できるか | | 3 | Root Cause Analysis (RCA) | fault の根本原因(影響する system 層・fault 種別)を判定できるか | | 4 | Mitigation | 環境を回復させる有効な解を与えられるか | (Table 1. Task taxonomy for AIOps agent evaluation) ## 横断的知見 - **ライフサイクルの「分解採点」対「end-to-end 評価」**: [[AIOpsLab]] は障害を detection / localization / RCA / mitigation の 4 つの独立サブ問題に分解し個別採点する。後続の [[SREGym]] は同じ 4 段階の発想を踏襲しつつ、現実の障害対応は「早い証拠・行動が後段を形作る end-to-end の単一ループ」だとして、シナリオ全体を holistic に 1 ループで評価する設計に切り替えた。同じインシデントライフサイクルを評価対象にしながら、評価の粒度で思想が分かれる。(Source: [[2025__MLSys2025__AIOpsLab - A Holistic Framework to Evaluate AI Agents for Enabling Autonomous Clouds]], [[2026__arXiv__SREGym - A Live Benchmark for AI SRE Agents with High-Fidelity Failure Scenarios]]) - **fault の層・粒度の拡張**: AIOpsLab の fault library は symptomatic(network loss・pod failure)と functional(misconfiguration・revoke auth・buggy image 等)で、application/virtualization 層が中心。SREGym はここに OS/hardware kernel(eBPF による syscall 失敗注入・disk sector 破損)や misoperation(buggy operator)といった**低位層・運用起因の fault** と ambient noise を加えて忠実度を上げた。AIOps エージェント評価の主戦場が、アプリ層の障害から層横断・複合障害へ移りつつある。(Source: [[2025__MLSys2025__AIOpsLab - A Holistic Framework to Evaluate AI Agents for Enabling Autonomous Clouds]], [[2026__arXiv__SREGym - A Live Benchmark for AI SRE Agents with High-Fidelity Failure Scenarios]]) - **reactive ライフサイクルの手前にある proactive 予測**: AIOpsLab の 4-level taxonomy(detection→localization→RCA→mitigation)はすべて障害が**起きてから**動く reactive な設計。[[PAGER]] はこの手前に「障害発生前の予測」を置き、reactive な enterprise AI assistant・RCA エージェント(RCACopilot・ReAct)を「障害が運用を混乱させた後にしか役立たない」と批判する。さらに PAGER は予測本体を古典的 random forest に任せ、LLM を説明生成・NL2SQL・RAG・会話 UI に限定する——AIOpsLab/SREGym が LLM エージェントを診断・緩和の推論中核に据えるのと対照的。AIOps が reactive な「障害対応の自動化」から proactive な「障害の未然防止」へ広がる兆し([[障害予測]] に詳述)。(Source: [[2026__AAAI__PAGER - Proactive Monitoring Agent for Enterprise AI Assistant]], [[2025__MLSys2025__AIOpsLab - A Holistic Framework to Evaluate AI Agents for Enabling Autonomous Clouds]]) - **最上位タスク「Mitigation」を切り出した専門ベンチ**: AIOpsLab の 4-level taxonomy で最上位(最難)の Mitigation は、AIOpsLab/SREGym ではライフサイクル評価の 1 要素にとどまる。[[MicroRemed]] はこの緩和段だけを「診断レポート→実行可能 Ansible playbook の生成(E2E-MR)」として切り出し専門ベンチマーク化した。AIOps 評価が「ライフサイクル全体の被覆」と「最難段の深掘り」へ分化しつつある(詳細は [[障害緩和]])。なお MicroRemed も「成功エージェントほど情報収集を控える」という AIOpsLab §3.6 の観測と同型の結果(過剰 probing が緩和精度を下げる)を独立に得ている。(Source: [[2025__arXiv__MicroRemed - Benchmarking LLMs in Microservices Remediation]], [[2025__MLSys2025__AIOpsLab - A Holistic Framework to Evaluate AI Agents for Enabling Autonomous Clouds]]) - **タスク taxonomy に直交する「自律度のガバナンス」軸**: AIOpsLab の 4-level taxonomy が AIOps を**何ができるか**(detection/localization/RCA/mitigation)で縦に切るのに対し、[[Google]] の [[SRE AI Autonomy Levels]](L0–L4)は同じライフサイクルを**どこまで人間を外せるか**(Monitor/Investigate/Mitigate/Actuate/Self-Direct の自動化度)で切る。前者は能力の分類、後者は権限委譲とガバナンスの分類で、AIOps の成熟度を「タスク能力」と「自律度」の 2 次元で捉える視座が産業側から加わった。(Source: [[2026__GoogleSRE__AI in SRE - Engineering the Future of Reliable Operations]], [[2025__MLSys2025__AIOpsLab - A Holistic Framework to Evaluate AI Agents for Enabling Autonomous Clouds]]) - **detection の入力モダリティの拡張**: AIOpsLab/SREGym の detection は telemetry(メトリクス・ログ・トレース)を入力にする。[[Google]] の [[Detectr]] は support ticket・forum・SNS の **user feedback** を一次シグナルにし、telemetry が見逃す outage を Gemini で検知する。検知能力を上げる方向が「より良い異常検知アルゴリズム」だけでなく「シグナル源そのものの多様化(人間の声を含める)」にも開かれている。(Source: [[2026__GoogleSRE__AI in SRE - Engineering the Future of Reliable Operations]], [[2026__arXiv__SREGym - A Live Benchmark for AI SRE Agents with High-Fidelity Failure Scenarios]]) - **4-level の各段が専門エージェント/ベンチに分化してきた**: taxonomy の段ごとに「その段だけ」を攻める実装が揃いつつある——RCA(Level 3)は [[Datadog]] の [[Bits AI SRE]](hypothesis-driven の調査・RCA 特化、[[根本原因分析]] に詳述)、Mitigation(Level 4)は [[MicroRemed]]/[[ThinkRemed]] と [[Stratus]]。Detection は [[Detectr]]。ライフサイクル全体を 1 エージェントで被覆する構想([[AIOpsLab]] の AgentOps)と、段ごとに専門エージェントを並べて end-to-end を組む構想([[Bits AI SRE]] が「将来 specialist agent と統合」と明言)が並走している。(Source: [[2026__Datadog__Building Bits AI SRE - Autonomous Incident Investigation Agent]], [[2025__MLSys2025__AIOpsLab - A Holistic Framework to Evaluate AI Agents for Enabling Autonomous Clouds]]) - **LLM 以前の統計 AIOps と LLM エージェント AIOps の連続性**: 本 vault の他ソースが軒並み 2025–2026 年の LLM エージェント論文なのに対し、[[MetricSifter]]([[2024__IEEE Access__MetricSifter - Feature Reduction of Multivariate Time Series Data for Efficient Fault Localization in Cloud Applications]])は 2024 年の古典的 AIOps——change point detection・KDE・因果探索という教師なし統計手法で Level 2 localization の前処理([[特徴量削減]])を解く——を代表する。この pre-LLM 系譜が示した「無関係メトリクス $M_C$ を絞ってから localization する」設計は、後の LLM エージェントが §3.6 で苦しむ telemetry 過剰消費問題への先行的解答になっており、AIOps の課題(情報過多の中で障害シグナルを絞る)が手法世代を超えて連続していることを示す。(Source: [[2024__IEEE Access__MetricSifter - Feature Reduction of Multivariate Time Series Data for Efficient Fault Localization in Cloud Applications]], [[2025__MLSys2025__AIOpsLab - A Holistic Framework to Evaluate AI Agents for Enabling Autonomous Clouds]]) ## 未解決の問い - インシデントライフサイクルを分解して個別採点する(AIOpsLab)のと、end-to-end の単一ループで評価する(SREGym)のとでは、どちらが現実の SRE 能力をより正しく測るか。分解採点は能力の切り分けに優れるが、段階間の依存(誤った localization が RCA を誤らせる連鎖)を捨象する。 - AIOpsLab は環境フィードバックと self-repair による精度が AIOps 問題で早期に saturate すると報告する(Figure 5)。planning による task 分解・中間ステップのフィードバック改善・環境フィードバックを超える手法のどれが効くか。 - AIOps エージェントは get_metrics/get_traces を雑に消費すると context window を圧迫し性能を落とす(AIOpsLab §3.6.2)。telemetry の前処理・フィルタリングをどこまで汎化できるか([[agentic SRE]] の [[Stratus]] による前処理と接続する問い)。 - chaos engineering ツール([[ChaosMesh]] 等)は「症状」を注入するため RCA/mitigation 評価には不十分。根本原因(fault)を注入する injector のカバレッジを実世界の障害分布にどう合わせるか。 - reactive な 4-level ライフサイクルと proactive な[[障害予測]]([[PAGER]])を1つのエージェント/評価枠組みに統合できるか。予測が外れて実際に障害が起きたとき、proactive 予測から reactive な detection/RCA/mitigation へどう滑らかに引き継ぐか。 - 最上位タスク Mitigation([[障害緩和]])は、ライフサイクル全体評価(AIOpsLab/SREGym)と専門ベンチ([[MicroRemed]])のどちらで測るのが妥当か。緩和は前段(detection/localization/RCA)の出力を入力に取るため、診断を所与とする MicroRemed の切り出しは緩和能力を純粋に測れる一方、診断誤差の伝播という現実を捨象する。 - タスク能力(AIOpsLab の 4-level)と自律度([[SRE AI Autonomy Levels]] の L0–L4)の 2 軸は独立に動くのか。タスク正答率が低いまま自律度だけ上げる(=ガードレールで安全網を張り誤りを許容する)運用は成立するか、それともある能力閾値を超えないと自律度は上げられないか。([[2026__GoogleSRE__AI in SRE - Engineering the Future of Reliable Operations]]) ## 関連 - ソース: [[2025__MLSys2025__AIOpsLab - A Holistic Framework to Evaluate AI Agents for Enabling Autonomous Clouds]] / [[2026__arXiv__SREGym - A Live Benchmark for AI SRE Agents with High-Fidelity Failure Scenarios]] / [[2026__AAAI__PAGER - Proactive Monitoring Agent for Enterprise AI Assistant]] / [[2025__arXiv__MicroRemed - Benchmarking LLMs in Microservices Remediation]] / [[2026__GoogleSRE__AI in SRE - Engineering the Future of Reliable Operations]] / [[2026__Datadog__Building Bits AI SRE - Autonomous Incident Investigation Agent]] - 概念: [[SRE Benchmark]] / [[agentic SRE]] / [[根本原因分析]] / [[障害予測]] / [[障害緩和]] / [[SRE AI Autonomy Levels]] / [[Fault Localization]] / [[特徴量削減]] - エンティティ: [[AIOpsLab]] / [[SREGym]] / [[ChaosMesh]] / [[DeathStarBench]] / [[PAGER]] / [[MicroRemed]] / [[Google]] / [[Detectr]] / [[Bits AI SRE]] / [[Datadog]] / [[MetricSifter]] - 関連 MOC: [[AIOps - Failure Detection - MOC]] / [[LLM4SRE - MOC]] / [[SRE - MOC]] ## 出典 - [[2025__MLSys2025__AIOpsLab - A Holistic Framework to Evaluate AI Agents for Enabling Autonomous Clouds]](Abstract, §1, §2.1, §2.4, Table 1, §3.5–3.6) - [[2026__arXiv__SREGym - A Live Benchmark for AI SRE Agents with High-Fidelity Failure Scenarios]](§1, §2) - [[2026__AAAI__PAGER - Proactive Monitoring Agent for Enterprise AI Assistant]](Abstract, Introduction, System Overview) - [[2025__arXiv__MicroRemed - Benchmarking LLMs in Microservices Remediation]](§2.1, §2.2, Table 1, Appendix B.3) - [[2026__GoogleSRE__AI in SRE - Engineering the Future of Reliable Operations]](SRE AI Autonomy Levels, AI Across the SRE Lifecycle) - [[2026__Datadog__Building Bits AI SRE - Autonomous Incident Investigation Agent]](Investigation Workflow, Integration) - [[2024__IEEE Access__MetricSifter - Feature Reduction of Multivariate Time Series Data for Efficient Fault Localization in Cloud Applications]](§I, §II, §IV)