[[AI4SREプロジェクトの3つの観点構造.canvas]]
次の3つの異なる方向性で研究を進めていく。
## 1. 即効性の高い研究
- テレメトリデータ量の増大に対応する研究
- [[Tracing Sampling Papers]]
- 計装、保存、マイニングの負荷と性能の適応制御
- 既存のワークフローを壊さない小さなタスクの自動化の研究開発
- 監視設定や閾値の推薦
- [[2023__ESEC-FSE__Detection Is Better Than Cure - A Cloud Incidents Perspective]]
- ダッシュボードの生成
- [[LLM + MetricSifterによるインシデント対応ダッシュボードの生成]]
- アラートノイズの抑制
- [["LLM for SRE"の世界探索 2024年]]の既存手法を動かす
- インシデントレスポンスワークフロー
- [[AI for Incident Management as a Service]]
## 2. 人間が介在する半自動化を目指す研究
[[Interactive AIOps]]
- データ収集
- データラベリング
- Chaos injectionに基づく
- Chaosによる異常データの水増し
- Where, What, How, How many times is it injects faults?
- 負荷テストによるデータの近郊崩し
## 3 完全自動化を目指す研究
- どうやっても遭遇したことのない障害が起きることに対して
- [車の「チューリング革命」 AI開発、日本勢に失速のワナ 本社コメンテーター 中山淳史 - 日本経済新聞](https://www.nikkei.com/article/DGXZQOCD1709W0X10C24A6000000/)
- 人間が介在する限り進化が線形になってしまう。
## 4. end to endでシステムをAIで個別最適化させる
[[DICOMO 2022 招待講演アウトライン]]
SLIやSLOを対話的に決定すると最適なシステムアーキテクチャが導出される。
- [[ML for Systems|SysML]]
- [[Learned Index]]
- [[2022__EuroSys__Multi-Objective Congestion Control]]
---
## 対象システムの軸
1. クラウドアプリケーション
2. カーネル
3. エッジコンピューティング
4. データベース
5. ネットワーク
---
## 開発
1. 実験基盤の開発と運用
2. 研究手法のOSS
3. 単独事業化
4. 社内サービスへの展開