2021__ACSOS__Empirical Characterization of User Reports about Cloud Failures

## Memo ## Memo with LLM ### 論文情報 - **論文のタイトル**: Empirical Characterization of User Reports about Cloud Failures - **著者と所属**: - Sacheendra Talluri (Vrije Universiteit Amsterdam) - Leon Overweel (Vrije Universiteit Amsterdam) - Laurens Versluis (Vrije Universiteit Amsterdam) - Animesh Kr Trivedi (Vrije Universiteit Amsterdam) - Alexandru Iosup (Vrije Universiteit Amsterdam) - **カンファレンス/ジャーナル名**: IEEE International Conference on Autonomic Computing and Self-Organizing Systems (ACSOS) - **発表年**: 2021 ### 論文概要本論文は、クラウドサービスの失敗に関するユーザー報告の初の長期特性化研究である。従来のオペレーター提供の失敗ログではなく、ユーザーの視点からクラウドサービス失敗を実証的に分析し、定数失敗分布と比較してマイクロサービス構造間で10倍以上のリクエスト失敗率の差があることを発見した。 ### 詳細解説 #### 問題設定 - **入力**: ユーザーが第三者の失敗報告サイト（DownDetectorなど）に報告するクラウドサービスの失敗データ - **出力**: ユーザー報告失敗の特性化結果（失敗率、パターン、マイクロサービス構造への影響） - **必要なデータ**: 複数年にわたるユーザー報告失敗トレース、オペレーター提供の失敗ログ（比較用） #### 提案手法本研究では、ユーザー報告失敗データの収集と分析フレームワークを提案している。主要な手法は以下の通り： - ユーザー報告サイトからの失敗データ自動収集 - 失敗トレースの正規化と特性化 - マイクロサービス構造における失敗率の分析 - 従来の定数失敗分布モデルとの比較評価 #### 新規性先行研究では主にインフラストラクチャオペレーターが提供する失敗ログに焦点を当てていたが、本研究はユーザーの視点からクラウドサービス失敗を体系的に分析した初の研究である。ユーザー報告データとオペレーターデータの双方向比較により、より包括的な失敗特性の理解を可能にした。 #### 実験設定 - **データセット**: 複数年にわたるユーザー報告失敗データ（DownDetector等から収集） - **評価指標**: - リクエスト失敗率 - マイクロサービス構造間の失敗率比較 - 時間パターン分析 - 失敗の重要度分析 #### 実験結果 - ユーザー報告トレースを使用した場合、マイクロサービス構造間でリクエスト失敗率に10倍以上の差が観測された - 定数失敗分布を仮定した従来手法では、このような構造間の差を適切に捉えることができない - ユーザー報告データはオペレーターデータとは異なる失敗パターンを示し、両方の視点が重要であることが判明 ### 不明瞭な点論文の完全なテキストが入手できなかったため、具体的な数式、詳細な実験設定、および統計的有意性の検証方法については詳細が不明である。 ## Abstract クラウドサービスは医療、銀行業、通信等の目的で重要である。必然的に、そのようなサービスは失敗し、それらに依存するプロセスに害を与え、人々を困らせる。クラウドサービスでの失敗を理解することは困難であるが、それらを防ぐために重要である。多くの研究がインフラストラクチャオペレーターによって提供される失敗ログやレポートを研究してきた。しかし、ユーザーがクラウドサービスの失敗をどのように認識するかについての情報は不足している。この研究では、ユーザーによって報告された失敗を収集し、それらを実証的に特徴付ける。本研究は、ユーザー報告クラウド失敗の最初の長期特性化を提供し、定数失敗分布を使用した場合と比較して、ユーザー報告トレースを使用したときのマイクロサービス構造間でのリクエスト失敗率に10倍以上の差があることを発見した。