AI4SREの研究の方向性 - yuuk1's Digital Garden

[[AI4SREプロジェクトの3つの観点構造.canvas]] 次の３つの異なる方向性で研究を進めていく。 ## 1. 即効性の高い研究 - テレメトリデータ量の増大に対応する研究 - [[Tracing Sampling Papers]] - 計装、保存、マイニングの負荷と性能の適応制御 - 既存のワークフローを壊さない小さなタスクの自動化の研究開発 - 監視設定や閾値の推薦 - [[2023__ESEC-FSE__Detection Is Better Than Cure - A Cloud Incidents Perspective]] - ダッシュボードの生成 - [[LLM + MetricSifterによるインシデント対応ダッシュボードの生成]] - アラートノイズの抑制 - [["LLM for SRE"の世界探索 2024年]]の既存手法を動かす - インシデントレスポンスワークフロー - [[AI for Incident Management as a Service]] ## 2. 人間が介在する半自動化を目指す研究 [[Interactive AIOps]] - データ収集 - データラベリング - Chaos injectionに基づく - Chaosによる異常データの水増し - Where, What, How, How many times is it injects faults? - 負荷テストによるデータの近郊崩し ## 3 完全自動化を目指す研究 - どうやっても遭遇したことのない障害が起きることに対して - [車の「チューリング革命」　AI開発、日本勢に失速のワナ　本社コメンテーター　中山淳史 - 日本経済新聞](https://www.nikkei.com/article/DGXZQOCD1709W0X10C24A6000000/) - 人間が介在する限り進化が線形になってしまう。 ## 4. end to endでシステムをAIで個別最適化させる [[DICOMO 2022 招待講演アウトライン]] SLIやSLOを対話的に決定すると最適なシステムアーキテクチャが導出される。 - [[ML for Systems|SysML]] - [[Learned Index]] - [[2022__EuroSys__Multi-Objective Congestion Control]] --- ## 対象システムの軸 1. クラウドアプリケーション 2. カーネル 3. エッジコンピューティング 4. データベース 5. ネットワーク --- ## 開発 1. 実験基盤の開発と運用 2. 研究手法のOSS 3. 単独事業化 4. 社内サービスへの展開