- タイトル - AIOpsの研究動向とAIOps向けデータセットの動的生成の研究 - 趣旨 - ITサービスのオペレーションにAIを適用するAIOpsが注目されている - AIOpsの最新の動向を共有した上で、AIOps向けのデータセットの作成に着目した最新の研究を紹介する - さくらインターネットのお客様にAIOpsの提供可能性の検討へとつなげる - AIOpsの研究概要 - クラウド上の分散アプリケーションの複雑化 (既) - SREsなどのITオペレータは手動で面倒な管理作業や認知負荷の高い作業を行わなければならない。 - 負荷に応じたスケールアウト・スケールイン、リソース最適化 - アラーティングの管理、インシデント対応 - そこで、[[AIOps]] ITサービスの管理と改善にAIを使用すること が着目される - サービス品質や顧客満足度の向上、エンジニアの生産性向上、運用コストの削減に貢献 [[2019__ICSE-Companion__AIOps - Real-World Challenges and Research Innovations]] - [[2020__ICSOC__A Systematic Mapping Study in AIOps]] による AIOpsの体系的調査 (2019年まで) - AIOpsの貢献を、ITサービスの提供において望ましくない動作に対処する方法を研究する「障害管理(FM)」と、ITサービスを最適に提供するためにエネルギー、計算、ストレージ、時間のリソースを割り当てることを研究する「リソース・プロビジョニング」に分ける。 - 670件(62.1%)の大部分が故障管理(FM)に関連しており、オンライン故障予知(26.4%)、故障検出(33.7%)、根本原因分析(26.7%) - SaaSによるAIOpsサービスの提供 - [[Zebrium]] - [Machine Learning | Datadog](https://www.datadoghq.com/solutions/machine-learning/) - [New Relic AI | New Relic](https://newrelic.com/platform/applied-intelligence) - [What is AIOps? | PagerDuty](https://www.pagerduty.com/resources/learn/what-is-aiops/) - [AIOpsとは?機能と用途、AIOps導入方法|データインサイダー| Splunk](https://www.splunk.com/ja_jp/data-insider/ai-for-it-operations-aiops.html) - ガートナーの調査 - 特にクラウド上のコンテナオーケストレーションとマイクロサービスの文脈 - マイクロサービスの異常検知と原因分析の研究概要 - 異常(Anomalies)と障害(Failures)と故障(Faults) - [[2022__CSUR__Anomaly Detection and Failure Root Cause Analysis in (Micro)Service-Based Cloud Applications - A Survey]] - 異常検知 - ログベース(教師なし学習のみ) - 分散トレースベース(教師ありなし) - メトリクスベース(教師ありなし) - 原因分析 - ログベース - 因果グラフに基づく分析 - 分散トレースベース - 可視化ベースの分析 - 直接的な分析 - トポロジグラフベース - メトリクスベース(教師ありなし) - 直接的な分析 - トポロジグラフベース - 因果グラフに基づく分析 - 動的データセットの生成の研究 [[Meltria]] - 研究をやってみたからこその課題 - 入力となるデータセットに、精度が大きく依存する。 - 既存研究の再現データセットがない。再現方法も簡単にしか書かれていない。 - 静的なデータセットだと、既存の手法がそのデータセットに過学習した状態で評価されている可能性がある - データセットを作成する際のパラメータや環境を変えて、 - 研究目的:多様な異常のパターンを含むデータセットを柔軟に生成できるように、動的にデータセットを生成する。 - 故障注入のスケジューリング - 生成されたデータセットの検証の自動化 - スケジューリングの設計 - 検証の設計 - 評価 - データセット検証の評価 - 生成失敗データ - まとめ - AIOpsの研究動向の調査によると、Failure Management(障害管理)に関する研究が増加している。 - 発表者の観測範囲では、障害管理のうち、特にマイクロサービスの異常検知・原因分析の研究が増加している。 - 異常検知・原因分析手法の課題を発見するために、データセットの動的生成システムを研究している。 - 関連 - [クラウドのシステム運用技術に機械学習を応用する研究 / CLOUD AI - Speaker Deck](https://speakerdeck.com/yuukit/cloud-ai) - [SREへの機械学習適用に関するサーベイ / A Survey for Cases of Applying Machine Learning to SRE - Speaker Deck](https://speakerdeck.com/yuukit/a-survey-for-cases-of-applying-machine-learning-to-sre)