2021__JGC__Automated Analysis of Distributed Tracing - Challenges and Research Directions

## Memo - [[AIOps]]が導入される理由 1. 分散インフラとシステム状態を手動で管理することの難しさ 2. 保持しなければならないデータ量が増加 3. インフラ自体は地理や組織間でより分散化しつつある - [[2020__CLOUD__Anomaly Detection from System Tracing Data using Multimodal Deep Learning]]のモデルを学習するために必要なデータ量はかなり多く、トレースを正常か異常かに分類することに限定され、詳細性と解釈可能性が失われる、すなわち、分類の正当性がない。それに比べ、我々のアプローチは、運用メトリクスに関連する固定的な特徴量と、接続度やワークフローなどの形態に焦点を当て、[[XAI]]を使用している。 - 得られた洞察 1. [[OpenTracing]] suffers from a lack of tools for data processing and visualisation. 1. The OpenTracing specification is not strict enough for automated analysis. 2. The lack of tools to control instrumentation quality jeopardizes the tracing effort. - 今後 - 故障や故障の注入を利用したラベル付きデータセットを生成し、教師あり学習法の利用を可能にすることを意図している。（ [[Interactive AIOps]]に関連） - 分散型コンテキストにおけるトレースの業界定義は、古典的なトレースの概念と比較して不足しています。トレースを拡張して、システムの状態やメタデータの他の側面、例えば監視やロギングを含めるのも面白い方法の一つである。 ## Abstract マイクロサービスベースのアーキテクチャは、ソフトウェア開発における利点から人気を集めている。[[Distributed Tracing|分散トレース]]は、オペレータがこのような高度に分散されたコンテキストにおいて観測可能性を維持し、遅延などの問題を発見し、そのコンテキストと根本原因を分析するために使用することができます。しかしながら、分散トレースデータの探索と作業は、その複雑さとアプリケーションの特異性、情報量、ツールの不足のため、時に困難です。この種のデータのために利用可能な最も一般的で一般的なツールは、トレースレベルの人間が読めるデータの可視化に焦点を当てています。残念ながら、これらのツールは、トレースデータを抽象化し、ナビゲートし、フィルタリングし、分析する優れた方法を提供していない。さらに、これらのツールはトレース分析を自動化したり、支援したりすることはなく、管理者自身が行う必要があります。本論文では、異常なサービスや操作パターンを検出する目的で、サービスメトリクス、依存関係グラフ、ワークフローを抽出するために、トレースデータを使用することを提案する。我々は、[[OpenTracing]]標準に準拠したトレースデータを処理するオープンソースのプロトタイプツールを実装し、公開した。我々は、大手クラウドプロバイダーから提供された実際のデータに対して、我々のツールと手法を検証した。その結果、トレースから得られるメトリックと形態学的側面の両方から抽出できる実用的な情報が、十分に利用されていないことがわかった。特に、我々のツールは、異常な振る舞いを検出し、関連するサービス、ワークフロー、時間枠の両方の観点から、その状況を把握することができた。さらに、我々は、OpenTracingフォーマット、および業界で受け入れられているトレース抽象化のいくつかの限界を特定し、トレースの品質をテストし、標準を強化するための提案を提供する。