@2022__DICOMO__AI時代に向けたクラウドにおける信頼性エンジニアリングの未来構想

# AI時代に向けたクラウドにおける信頼性エンジニアリングの未来構想 ## 概要 [[Yuuki Tsubouchi]] と [[Hirofumi Tsuruta]] による DICOMO 2022 統一セッション「クラウド」の招待講演スライドである。クラウドにおける信頼性エンジニアリングを、信頼性工学の歴史、SRE、AIOps の現在地から整理し、2040 年代の個別化アプリケーション時代に向けて、信頼性を AI と対話的・体験的に調整する構想を提示する。(Source: スライド p.1, p.6, p.25, p.39, p.51) ## 主要メッセージ - 信頼性の対象は、ハードウェア、ソフトウェア、インターネット、クラウドへ移り、クラウドでは信頼性の低いコンポーネントを土台に、利用者目線の信頼性を個別具体的に設計する段階へ変化した。(Source: スライド p.8-p.11) - SRE は、完全な信頼性を目指さず、信頼性指標と目標値を設定し、目標値を下限として変更速度を最大化するアプローチである。(Source: スライド p.13) - クラウド耐障害性の階層モデルでは、プロトコルに基づく自動制御、宣言された望ましい状態への追従、オペレータによる手動制御の 3 層を置き、AIOps は最外殻の手動制御を AI で支援・自動化する領域として位置づけられる。(Source: スライド p.15, p.17) - AIOps 研究は障害管理に集中しており、2020 年時点で関連論文 670 件の 62.1% が障害管理に関係する。障害予測、障害検知、原因分析が多いが、直接的な判断や操作より補助的な情報支援の研究が支配的である。(Source: スライド p.21-p.23) - 2040 年代の未来像として、万人が AI との対話を通じて個別化アプリケーションを自由に製作する「セルフクラフト」を置く。有限の共有資源のもとでは、信頼性を 100% に近づけるほど資源消費が増え、変更速度が下がるため、信頼性・コスト・変更速度の均衡点を決める必要がある。(Source: スライド p.29, p.31-p.32) - 人間が AI に「適切な信頼性」を事前に宣言することは難しいため、利用者と AI が対話的かつ体験的に最適な均衡点を探るアプローチが必要になる。(Source: スライド p.33-p.39) - 2030 年代へ向けたフェーズ 1 として、技術者と AI が対話的に障害予防・回復を行う段階を検討する。運用データを広く入手できない制約では、異常データを自ら作り出して学習する必要がある。(Source: スライド p.41-p.44, p.49) - [[Interactive AIOps]] は、オペレータと AI が対象システムの特徴を対話的に協働学習するコンセプトであり、基本型は実験可能性と解釈性である。(Source: スライド p.45-p.47) - 今後の検討事項として、AI の能力向上により技術者にとってのブラックボックス範囲が広がること、どこまで AI を信じるのか、AI 自体の信頼性にどうアプローチするかが挙げられる。(Source: スライド p.52) ## 視覚的に重要な図表 **p.15 クラウド耐障害性のための 3 層モデル** ![[_attachments/dicomo2022/page-015.png]] プロトコルによるフォールトトレランス、オーケストレータによる宣言状態追従、オペレータによる手動制御を、コンポーネント層・システム層・サービス層に対応させる。 **p.21 現代における AIOps の貢献領域** ![[_attachments/dicomo2022/page-021.png]] Notaro らのタクソノミーを使い、障害管理とリソース割当・最適化を AIOps の大きな貢献領域として示す。 **p.23 AIOps における障害管理研究** ![[_attachments/dicomo2022/page-023.png]] 予測・検知・原因診断・緩和・事後分析・修復のタスク系列と、運用データを特徴量にする研究が補助的な情報支援に偏ることを示す。 **p.31 未来のアプリケーション開発クラフト** ![[_attachments/dicomo2022/page-031.png]] XR、AI、学習型データ構造、学習型通信プロトコルを組み合わせ、利用者の潜在的ニーズに至るまで機能とインターフェイスを対話的・体験的に実装する未来像を描く。 **p.32 セルフクラフトの世界における信頼性** ![[_attachments/dicomo2022/page-032.png]] 有限の共有資源のもとで、特定アプリの信頼性目標を高めるほど資源消費が増え、変更速度が低下するというトレードオフを示す。 **p.37 対話的アプローチによる調整例** ![[_attachments/dicomo2022/page-037.png]] 利用者が信頼性・動作の軽さ・金銭コストの希望を出し、AI が信頼性目標を下げる案や短時間の劣化体験を提示して、均衡点を探る例である。 **p.41 現代から 2040 年代までの信頼性エンジニアリング** ![[_attachments/dicomo2022/page-041.png]] 現在の AIOps 補助から、技術者と AI の協働、AI による障害の自律対応、セルフクラフトで利用者が信頼性を制御する段階へ進む 3 フェーズを示す。 **p.44 フェーズ 1 に向けた課題と要件** ![[_attachments/dicomo2022/page-044.png]] 少数システムのデータのみで学習する前提において、異常データ不足と予測根拠不明という 2 課題から、実験可能性と解釈性の 2 要件を導く。 **p.45 Interactive AIOps** ![[_attachments/dicomo2022/page-045.png]] オペレータと AI が対話的に対象システムの特徴を協働学習するコンセプトを一枚で定義する。 **p.46 実験可能性** ![[_attachments/dicomo2022/page-046.png]] カオスエンジニアリングから着想し、オペレータが障害注入や負荷変動を起こし、AI が観測データを学習する反復を示す。 **p.47 解釈性** ![[_attachments/dicomo2022/page-047.png]] AI が異常に対する予測や原因を、寄与した特徴量とともに返し、人間とモデル間で継続改善する流れを示す。 **p.48 発展的な AI との協働** ![[_attachments/dicomo2022/page-048.png]] 他システムや自己の過去から学ぶシステム間学習性と、AI が提示する訓練プログラムでオペレータが障害対応訓練する訓練可能性を示す。 **p.51 本講演全体のまとめ** ![[_attachments/dicomo2022/page-051.png]] 現在、未来、道筋の 3 段で、SRE、AIOps、セルフクラフト、Interactive AIOps を接続する。 **p.52 今後の検討事項** ![[_attachments/dicomo2022/page-052.png]] AI の能力向上に伴うブラックボックス範囲の拡大と、自動化のアイロニーを今後の検討軸として示す。 ## 概念・実体への接続 - [[SRE]]: 信頼性を制御対象とし、変更速度とのトレードオフを扱う現在の実践。 - [[AIOps]]: オペレータ手動制御の支援・自動化を担うが、スライドでは現時点では補助的情報支援に留まると整理される。 - [[Interactive AIOps]]: 本スライドで明示的に提唱される、オペレータと AI の協働学習コンセプト。 - [[セルフクラフト]]: 2040 年代の個別化指向アプリケーション開発クラフトの未来像。 - [[サービスレベル目標]]: 信頼性を下限値・均衡点として扱う中心概念。 - [[自動化のアイロニー]]: AI 自体の信頼性、ブラックボックス化、人間オペレータの役割変化を検討する理論的背景。 - [[Yuuki Tsubouchi]] / [[Hirofumi Tsuruta]]: 本スライドの著者。 ## 限界・不確実点 - 音声・動画 transcript は取得していない。口頭説明や質疑は反映していない。 - SpeakerDeck の埋め込み transcript は一部文字化けしていたため、後半ページは PDF 抽出テキストとスライド画像を照合した。 - p.16 の The VOID Report 2021 のグラフは画像上で細部のビン値までは読まなかった。主張は「障害の半数以上は 2 時間以内に解決」「回復短縮余地は十分」というスライド上の明示文に限定した。 - p.34-p.35 の引用は著作物からの引用であり、source ページでは長い引用を再掲せず、主張の位置づけだけを要約した。