10年構想のシステムオペレーションのビジョン ![[interactive-aiops-concept.pdf]] ## SF - [[HAL 9000]]のように、完全自動化しようとすると、「人間によって定義された目標」が必要になる。けれど、目標というのをはっきり定めるのはむずかしいのではないか? ## Requirements - [[notes/sre/SRE]]sが中心のAI - 時空間モデル - 時系列データ: メトリック、ログ、トレース、イベント - 空間データ: アプリケーショントレース、ネットワークトレース - 階層的空間データ: コンテナとロール、ロールとサービス、コンテナとホスト、サブネット - SREs driven...? - アラート - 解釈性 - SREsがAIの出力内容を理解できるように - 各種トレードオフをSREsが動的調整 - 予測・解釈の精度と実行時間のトレードオフの解決 - 段階的動的調整 - オンライン性:システム変更・変化した部分のみを再学習 - オンライン学習 - バッチ学習 ドメイン知識を使って、入力データを次元削減で絞るとか - Chaos-based learning - 異常の学習データを自分でつくる - 自分でつくる範囲外のデータへの対応 - Service-level based learning - サービスレベルの定義を前提としたタスクの実行 - タスク - [[Failure Management]] - 異常検知 - 原因診断 - 異常予測 - 異常回復 - システムに対する知見獲得 - GNNでSLIへ回帰させる - SLIへ寄与度の高いメトリック - 原因のトリガーの判定 - ハードウェア故障 - ソフトウェア変更 - Concept drifts [https://recruit.gmo.jp/engineer/jisedai/blog/concept-drift-detection-and-handling/](https://recruit.gmo.jp/engineer/jisedai/blog/concept-drift-detection-and-handling/) - エンドユーザー行動変化 - 外部ワークロードの変化 - 人間のオペレーショントレーニング - service-level definition - SLIの生成 - Resource Provisioning - 負荷予測 - キャパシティプランニング - リソース最適化 - パラメータチューニング - エッジ・フォグ拡張 - 異なる組織間の調停 -> [[ゲーム理論]] ## 関連AI技術 - [[Neural ODE]] - [[自己教師あり学習]] - Capsule - [[Graph Neural Network]] - attention 局在化 ⇒ [[XAI|XAI]] - GNNはリソース使うから、PCAへいった - 動的グラフはやられてなかった - 因果探索をGNNで - 階層空間のネットワーク - SLOの次の値を予測する どれがSLOに寄与している - 時空間モデリング - グラフを動的に扱っていない - Twitterのソーシャルグラフとかでやっていた - 時空間ダイナミクス - 動的グラフ + 時系列をまずはやりたい - [[マルチモーダル学習]] - [[オンライン学習]] - [https://openreview.net/forum?id=lfJpQn3xPV-](https://openreview.net/forum?id=lfJpQn3xPV-) - グローバルなモデルの解釈 - [https://arxiv.org/abs/2004.00668](https://arxiv.org/abs/2004.00668) (SAGE) [[2020__NeurIPS__Understanding Global Feature Contributions With Additive Importance Measures|SAGE]] - モデルが何を重要視するかをグローバルに解釈 - モデル非依存 - [[Active Learning]] ## 難しさ - MLの導入により、新たな運用の複雑さが入り込むことで、管理者の認知負担が低減されず、かえって増大する懸念がある。 [[2015__NeurIPS__Hidden Technical Debt in Machine Learning Systems]] - SaaS、マネージドサービスモデルにより、MLシステムの運用負担を特定事業者が背負う