## Memo - Microsoftの論文 - システム階層を考慮して、属性と値の探索を分ける。 ## Abstract 一般的なクラウドシステムでは、システムの健康状態を追跡するソフトウェアモニターによって、大量のテレメトリーデータが収集されます。テレメトリーデータは、監視対象のシステムの属性や障害・成功の状況を含む、基本的にマルチディメンタルデータである。障害が集中している属性値の組み合わせ(これを障害指示組み合わせと呼ぶ)を特定することで、システム障害の原因をより狭い範囲に絞り込むことができ、障害診断が容易になる。しかし、組合せ爆発問題やクラウドテレメトリデータの潜在的な階層構造により、効率的に適切な粒度に故障を局在化させることはまだ困難である。本論文では、テレメトリデータから故障を示唆する組み合わせの位置を特定するための、階層構造を考慮した故障位置特定アプローチであるHALOを提案する。本アプローチは、属性間の階層的な関係を自動的に学習し、正確かつ効率的に故障箇所を特定するために、階層構造を利用する。我々は、産業用データセットと合成データセットの両方でHALOを評価し、その結果、HALOが既存の手法を上回ることを確認した。さらに、Microsoft AzureとMicrosoft 365のさまざまなサービスにHALOを展開し、実環境での効果を確認しました。 [[2021__KDD__HALO - Hierarchy-aware Fault Localization for Cloud Systems__translations]]