Interactive AIOps - yuuk1's Digital Garden

# Interactive AIOps ## 定義 Interactive AIOps は、オペレータと AI が対話的に対象システムの特徴を協働学習するコンセプトである。[[@2022__DICOMO__AI時代に向けたクラウドにおける信頼性エンジニアリングの未来構想]] では、サービス事業者が運用データを広く公開しにくく、大域的な学習モデルを作りにくい制約のもとで、少数システムからのみ学習するフェーズ 1 のアプローチとして提示される。(Source: [[@2022__DICOMO__AI時代に向けたクラウドにおける信頼性エンジニアリングの未来構想]] p.43-p.45) 基本要件は 2 つである。第一に、正常期間が支配的で異常データが不足するため、オペレータが障害注入や負荷変動で異常を作り出し、AI がその観測データを学習する「実験可能性」。第二に、学習モデルが提示する予測根拠を、オペレータが理解できる言語で提示する「解釈性」である。(Source: [[@2022__DICOMO__AI時代に向けたクラウドにおける信頼性エンジニアリングの未来構想]] p.44-p.47) ## 横断的知見 - **Interactive AIOps は、データ不足を受動的な制約ではなく能動的な実験設計問題へ変換する**: 従来の AIOps は既存のメトリクス・ログ・トレースからモデルを学習することが多いが、この構想では異常が少ないなら、オペレータが障害注入や負荷変動で異常を作り、AI に教える。これは [[障害注入]] やカオスエンジニアリングを、単なる耐障害性検証ではなく、AI の教師データ生成プロセスとして再解釈する。(Source: [[@2022__DICOMO__AI時代に向けたクラウドにおける信頼性エンジニアリングの未来構想]], [[障害注入]]) - **解釈性は AIOps の信頼性だけでなくオペレータ訓練にも関わる**: p.47 では AI が予測や原因を寄与特徴量とともに返し、人間とモデル間で継続改善する流れが示される。これは [[自動化のアイロニー]] が指摘する監視の困難さに対し、AI の出力をブラックボックスのまま監視するのではなく、オペレータが学習結果を点検・再現・改善する接点を残す設計として読める。(Source: [[@2022__DICOMO__AI時代に向けたクラウドにおける信頼性エンジニアリングの未来構想]], [[自動化のアイロニー]]) - **「知識グラフの一回構築 → 多回再利用」設計は Human-in-the-loop の実装コストを事前投資に変換する**: RCInvestigator([[@2026__TVCG__RCInvestigator - Towards Better Investigation of Anomaly Root Causes in Cloud Computing Systems]], TVCG 2026)は Building ステージで人間が知識グラフを一度構築すれば、以降の調査でマシンが自動的にデータ取得・推薦を行う設計とした。これは [[自動化のアイロニー]] のスキル維持問題への一つの対処——オペレータが知識グラフ構築という具体的な作業を通じてドメイン知識を形式化するプロセス自体がスキル維持になる——として読める。「コールドスタートのコストは再利用によって分散される」という設計原則は、DICOMO 2022 の Interactive AIOps が想定した「オペレータと AI の継続的共同進化」の産業実装例の一つである。(Source: [[@2026__TVCG__RCInvestigator - Towards Better Investigation of Anomaly Root Causes in Cloud Computing Systems]] §5.1.1, §7) ## 未解決の問い - 実験可能性に基づく異常データ生成は、実障害の分布をどこまで代表できるか。カオスエンジニアリングで作れる異常と、変更起因・人間起因・外部依存起因の本番障害には分布差が残る可能性がある。 - 解釈性を「寄与特徴量の提示」として実装した場合、オペレータが実際に原因理解・緩和判断を改善できるか。説明の正確性、安定性、行動可能性をどう測るか。 - システム間学習性は、プライバシー保護・テナント境界・構成差分の制約のもとで実現できるか。転移学習が外挿性を得る一方、誤った転移で障害対応を悪化させるリスクはどう制御するか。 - 訓練可能性は、人間オペレータの技能維持に役立つか、それとも AI が訓練内容を設計することで新たな訓練バイアスを生むか。 ## 関連 - [[AIOps]] - [[SRE]] - [[障害注入]] - [[自動化のアイロニー]] - [[セルフクラフト]] ## 出典 - [[@2022__DICOMO__AI時代に向けたクラウドにおける信頼性エンジニアリングの未来構想]](p.43-p.49)