## Memo - [[AIOps]]が導入される理由 1. 分散インフ ラとシステム状態を手動で管理することの難し さ 2. 保持しなければな らないデータ量が増加 3. インフラ自体は地理や 組織間でより分散化しつつある - [[2020__CLOUD__Anomaly Detection from System Tracing Data using Multimodal Deep Learning]]のモデルを学習するために必要なデータ量はかなり多く、トレ ースを正常か異常かに分類することに限定され、詳細性と解釈可能性 が失われる、すなわち、分類の正当性がない。それに比べ、我々のア プローチは、運用メトリクスに関連する固定的な特徴量と、接続度やワークフローなどの形態に焦点を当て、[[XAI]]を使用している。 - 得られた洞察 1. [[OpenTracing]] suffers from a lack of tools for data processing and visualisation. 1. The OpenTracing specification is not strict enough for automated analysis. 2. The lack of tools to control instrumentation quality jeopardizes the tracing effort. - 今後 - 故障や故障の注入を利用したラベル付きデータセットを生成し、教師あり学習法の利用を可能にすることを意図している。( [[Interactive AIOps]]に関連) - 分散型コンテキストにおけるトレースの業界定義は、古典的なトレースの概念と比較して不足しています。トレースを拡張して、 システムの状態やメタデータの他の側面、例えば監視やロギングを含めるのも面白い方法の一つである。 ## Abstract マイクロサービスベースのアーキテクチャは、ソフトウェア開発における利点から人気を集めている。[[Distributed Tracing|分散トレース]]は、オペレータがこのような高度に分散されたコンテキストにおいて観測可能性を維持し、遅延などの問題を発見し、そのコンテキストと根本原因を分析するために使用することができます。しかしながら、分散トレースデータの探索と作業は、その複雑さとアプリケーションの特異性、情報量、ツールの不足のため、時に困難です。この種のデータのために利用可能な最も一般的で一般的なツールは、トレースレベルの人間が読めるデータの可視化に焦点を当てています。残念ながら、これらのツールは、トレースデータを抽象化し、ナビゲートし、フィルタリングし、分析する優れた方法を提供していない。さらに、これらのツールはトレース分析を自動化したり、支援したりすることはなく、管理者自身が行う必要があります。本論文では、異常なサービスや操作パターンを検出する目的で、サービスメトリクス、依存関係グラフ、ワークフローを抽出するために、トレースデータを使用することを提案する。我々は、[[OpenTracing]]標準に準拠したトレースデータを処理するオープンソースのプロトタイプツールを実装し、公開した。我々は、大手クラウドプロバイダーから提供された実際のデータに対して、我々のツールと手法を検証した。その結果、トレースから得られるメトリックと形態学的側面の両方から抽出できる実用的な情報が、十分に利用されていないことがわかった。特に、我々のツールは、異常な振る舞いを検出し、関連するサービス、ワークフロー、時間枠の両方の観点から、その状況を把握することができた。さらに、我々は、OpenTracingフォーマット、および業界で受け入れられているトレース抽象化のいくつかの限界を特定し、トレースの品質をテストし、標準を強化するための提案を提供する。