10年構想のシステムオペレーションのビジョン
![[interactive-aiops-concept.pdf]]
## SF
- [[HAL 9000]]のように、完全自動化しようとすると、「人間によって定義された目標」が必要になる。けれど、目標というのをはっきり定めるのはむずかしいのではないか?
## Requirements
- [[notes/sre/SRE]]sが中心のAI
- 時空間モデル
- 時系列データ: メトリック、ログ、トレース、イベント
- 空間データ: アプリケーショントレース、ネットワークトレース
- 階層的空間データ: コンテナとロール、ロールとサービス、コンテナとホスト、サブネット
- SREs driven...?
- アラート
- 解釈性
- SREsがAIの出力内容を理解できるように
- 各種トレードオフをSREsが動的調整
- 予測・解釈の精度と実行時間のトレードオフの解決
- 段階的動的調整
- オンライン性:システム変更・変化した部分のみを再学習
- オンライン学習
- バッチ学習 ドメイン知識を使って、入力データを次元削減で絞るとか
- Chaos-based learning
- 異常の学習データを自分でつくる
- 自分でつくる範囲外のデータへの対応
- Service-level based learning
- サービスレベルの定義を前提としたタスクの実行
- タスク
- [[Failure Management]]
- 異常検知
- 原因診断
- 異常予測
- 異常回復
- システムに対する知見獲得
- GNNでSLIへ回帰させる
- SLIへ寄与度の高いメトリック
- 原因のトリガーの判定
- ハードウェア故障
- ソフトウェア変更
- Concept drifts [https://recruit.gmo.jp/engineer/jisedai/blog/concept-drift-detection-and-handling/](https://recruit.gmo.jp/engineer/jisedai/blog/concept-drift-detection-and-handling/)
- エンドユーザー行動変化
- 外部ワークロードの変化
- 人間のオペレーショントレーニング
- service-level definition
- SLIの生成
- Resource Provisioning
- 負荷予測
- キャパシティプランニング
- リソース最適化
- パラメータチューニング
- エッジ・フォグ拡張
- 異なる組織間の調停 -> [[ゲーム理論]]
## 関連AI技術
- [[Neural ODE]]
- [[自己教師あり学習]]
- Capsule
- [[Graph Neural Network]]
- attention 局在化 ⇒ [[XAI|XAI]]
- GNNはリソース使うから、PCAへいった
- 動的グラフはやられてなかった
- 因果探索をGNNで
- 階層空間のネットワーク
- SLOの次の値を予測する どれがSLOに寄与している
- 時空間モデリング
- グラフを動的に扱っていない
- Twitterのソーシャルグラフとかでやっていた
- 時空間ダイナミクス
- 動的グラフ + 時系列をまずはやりたい
- [[マルチモーダル学習]]
- [[オンライン学習]]
- [https://openreview.net/forum?id=lfJpQn3xPV-](https://openreview.net/forum?id=lfJpQn3xPV-)
- グローバルなモデルの解釈
- [https://arxiv.org/abs/2004.00668](https://arxiv.org/abs/2004.00668) (SAGE) [[2020__NeurIPS__Understanding Global Feature Contributions With Additive Importance Measures|SAGE]]
- モデルが何を重要視するかをグローバルに解釈
- モデル非依存
- [[Active Learning]]
## 難しさ
- MLの導入により、新たな運用の複雑さが入り込むことで、管理者の認知負担が低減されず、かえって増大する懸念がある。 [[2015__NeurIPS__Hidden Technical Debt in Machine Learning Systems]]
- SaaS、マネージドサービスモデルにより、MLシステムの運用負担を特定事業者が背負う