## Memo TUM School of Computation, Information and Technology Technical University of Munich - [[2021__TIST__A Survey of AIOps Methods for Failure Management]]の著者による博士論文。 ![[Pasted image 20240919221920.png]] ## Memo with LLM ## Abstract クラウドコンピューティングサービスに対する需要の高まりに応えるため、最新のコンピューティングインフラは急速に規模と複雑性を増している。 また、障害の可視性を高めてITサービスを効果的に運用するために必要な監視データの量と異種性も急速に増加している。 これは、クラウド環境が提供するコンピューティングサービスの管理と修復を担当する運用・保守(O&M)チームにとっての課題である。障害は広範囲にわたるサービス中断を引き起こすだけでなく、IT運用担当者は複雑で時間のかかる調査を実施して、正しい修復ソリューションを特定し適用する必要がある。 シンプルな自動化ツールは、異常の検出、根本原因の相関関係、修復措置の自動適用など、さまざまな方法でIT運用担当者を支援することができる。しかし、このパラダイムに従ってIT運用を実施することは、現在の超大型の最新システムではもはや実現不可能である。このため、業界のリーダーたちは、自律的でインテリジェントなIT管理システムという方向性を探求するようになった。 IT運用向けAI([[AIOps]])は、IT運用を強化するために、ビッグデータ、機械学習(ML)、その他の高度な分析テクノロジーに基づくアプローチに取り組んでいる。AIOpsは、大量かつ多様なモニタリングデータ(ログ、メトリクス、トレースなど)と、AIアルゴリズムによる高度な一般化を活用することで、高い効果をもたらす。しかし、これまでのAIOpsの貢献は、異常検知や根本原因分析など、障害への対応を目的として特別に設計された、ごく一部のタスクに限られていた。サービス停止や劣化を低減する可能性のある、障害管理のための積極的なアプローチの探究は、これまで主にハードウェアコンポーネントやノードの可用性に関するオンライン障害予測に限られており、障害防止のための代替技術を考慮したものはほとんどなかった。さらに、AIOpsの包括的な分類体系や共通の用語体系が欠如しているため、異なる問題に対するAIOpsの比較や適用が妨げられている。 本論文では、まず既存の文献の系統的レビューを通じて過去のAIOpsの適用事例を十分に理解し、障害管理に対するプロアクティブなアプローチの妥当性と可能性を確認する。過去の貢献は、Systematic Mapping Study (SMS) という方法論を用いて特定され、体系化された。この方法論により、共通の目標や問題の分類を導き出すことができるほか、対象システム、データソース、AI手法に基づいてAIOpsの貢献を分類することも可能となる。貢献の系統的レビューにより、盲点や調査不足の領域を特定し、運用管理の文脈において、まだ大きな研究努力が必要な未解決の問題を完全に理解することもできる。 そして、新しいAIベースの予防的メソッドの開発を通じて、これらの重要な問題の一部が解決される。クラウドコンピューティングスタックの3つの層それぞれに対して、1つのソリューションが提案されている。インフラストラクチャレベルでは、現代のデータセンターインフラストラクチャの基本的でありながら故障しやすいコンポーネントである光トランシーバーの故障を予測するオンラインアルゴリズムが紹介されている。プラットフォームレベルでは、コマンドラインインターフェース(CLI)を介した安全な運用保守アクセスの問題が、リスク分類のための大規模言語モデル([[LLM]])によって対処されている。LLMは、コマンドの実行によって引き起こされる潜在的な脅威を推定し、傍受中のコマンドの実行を防止する。ソフトウェアレベルでは、自動化された根本原因分析(RCA)と先を見越した障害管理(FM)のための新しいパターン相関エンジンが提案され、障害につながる症状とエラー間の因果関係を自動的に特定する。導入された運用管理上の問題のそれぞれについて、広範な実験により提案されたソリューションの有効性と有効性が確認され、障害を効果的に解決し、人的介入の必要性を減らし、クラウドアーキテクチャ全体にわたる障害の影響を低減するためのAI手法の機能性が実証された。