## アウトライン 背景 - 問題設定 - **対象システム** - クラウド上に展開されるオンラインアプリケーション(Webアプリケーションなど) - ネットワーク、サーバ、データベースなどのインフラストラクチャにより構成され、各コンポーネントからメトリクスを取得可能であること - [[2004__TDSC__Basic Concepts and Taxonomy of Dependable and Secure Computing]] - **障害の種類** - [[2020__ICSME__Failures and Fixes - A Study of Software System Incident Response]] - インシデントの前提事象 - Deployments - コードまたは設定の変更配備 - Infrastructure change - Exceeding scaling limits - 利用可能なリソースの使い果たし - System software or hardware failure - クラスタ管理ソフトウェアの問題など - **分析期間** [[メトリクスの変化開始時刻と障害発生時刻との間の遅延]]の調査より、故障開始時刻と障害検知時刻の最大の遅延は19分、80%は9分以内というデータがあるため、データの分析期間は30分から1時間程度を想定する。 - 年、月、週、日、時単位の周期性は考慮しない - 故障箇所メトリクスの異常パターン - [[PatternMatcher メトリクスの典型的な13種類の異常パターン]] Q2 部位評価 異常検知の評価 - 正常標本と異常標本を130標本ずつ合計260標本用意した - 異常標本は、13種類の異常パターンをそれぞれ10標本 合計130標本用意 - 各標本について、正常・異常、異常であれば異常パターン名を手動でラベリングした - スコアテーブル - Anomaly inside or outside faultかどうかでスコアをみる - Q4 故障箇所特定に対する貢献 - FluxInfer - 手元のデータセットで論文で報告されている特定性能より大きく下回る性能を示した - 時系列データの標本採取のためのGUIシステム - Webアプリをつくるのは - Pythonの対話的プログラミング環境 Jupyter notebook - データサイエンス 広く普及するツール - GUIパーツ