https://www.gakkai-web.net/fit/program_web/event_TCS7-3.html 12分+8分。 ## 1. Introduction (5min) - 1p: クラウドアプリケーションのシステムが複雑化 - マイクロサービスなどの細粒度の役割ごとにコンポーネントが分割される。コンテナなど垂直方向にも階層化される。 - 障害発生時には、影響範囲、根本原因を理解することが困難になっている - テレメトリデータ(主にメトリクスと呼ばれる時系列データ)から故障箇所を主に教師なし学習で自動特定する研究が盛ん - 研究レベルでは自動化 - 実務レベルでは目視がまだ多い - テレメトリデータ量の増大によるジレンマ - 2p: メトリクス数の増大と特徴量削減 - アプリケーションが大規模化するにつれて、メトリクス数が増大 - データを示す [[2020__SoCC__ByteSeries - An In-Memory Time Series Database for Large-Scale Monitoring Systems|ByteSeries]]論文のデータを引き合いにだす - メトリクス数が増大すると、機械学習アルゴリズムの実行速度と精度低下が懸念される。 - 前処理で不要な時系列データに対して特徴削減をする - 3p: 既存の特徴削減の課題 - 性能課題 - 既存手法が、メトリクス個別の異常の有無に着目するか、冗長性に着目するため。 - 偽陽性または偽陰性をもつ - 評価課題 - 特徴量削減単体での定量的評価指標が確立されていない => 評価方法を確立 - 4p: 提案:**障害指向の**メトリクス削減フレームワーク - 仮定1「各メトリクスの時系列変化点の時刻は近傍にある」 - 仮定2「変化点の時刻の分布密度が最大の周辺に、根本原因メトリクスも変化点をもつ、が存在する」 - 故障の影響(エラーなど)はネットワークを通じて高速に伝搬する - ![[Pasted image 20240826175629.png|400]] - 5p: 貢献のまとめ - 障害発生時のメトリクス間の変化点時間の近接性に注目した特徴削減フレームワーク「MetricSifter」を提案した。 - コードはオープンソースのライブラリとして公開 https://github.com/ai4sre/metricsifter - クラウドの障害管理の文脈において、特徴量削減の定量的評価をはじめて行った。メトリクスの障害に関連するかしないかの2値分類問題として定式化し、評価した。 - MetricSifterを合成データセットと実証データセットを用いて実験した結果、故障箇所特定手法における特徴削減の有効性が実証された。 ## 2. Problem Definition (2min) - 6p - ![[Pasted image 20240810170720.png|400]] - once the monitoring system detects a failure, to identify the possible set of monitoring metrics MA ∪MB from MA ∪MB ∪MC based on previously collected multivariate data Xt to localize MA as soon as possible. - 7p: 既存の特徴量削減法との比較 - ![[Pasted image 20240810170830.png|600]] ## 3. Feature Reduction (3min) - 8p: 提案フレームワークの全体像(自分で描き下ろし) - ![[Pasted image 20240826223929.png|600]] - 9p: STEP 1 変化点を検知 - ![[Pasted image 20240826224024.png|400]] - 10p: アルゴリズム - STEP1: 変化点検知 - コスト関数:線形回帰や自己回帰よりも、計算量の小さい「平均シフトモデル」 - 検索法:Pelt - ペナルティ項が変化点数の線形関数である場合に、枝刈りルールを適用することにより、最適化問題の計算量を大幅に削減 - 制約: - 検索する変化点の数に関係する - 我々のシナリオでは、事前に変化点が不明なので、BICによるモデル選択を行う。 - STEP2: 変化点時間の境界区切り - カーネル密度推定法(KDE)により、変化点時間の離散確率密度関数を得る - ![[Pasted image 20240827112010.png|400]] - 密度関数の極小値で境界区切り - STEP3 - 密度が最大のセグメントを障害時間ウィンドウとし、このセグメントに変化点をもたないメトリクスを削除する。 ## 4. Experiment (8min) - 11p: 実験概要 - 実験で評価する問い - Q1: 提案法の特徴量削減精度はどの程度良いのか? - Q2: 提案法は故障箇所特定性能をどの程度向上させるか? - Q3: 提案法はハイパーパラメータにどの程度敏感か? - Q4: 提案法の各コンポーネントがどの程度性能に寄与するか? - 12p: ベースライン - 正常性削減グループ:NSigma, BIRCH, K-S test, FluxInfer-AD - 冗長性削減グループ:HDBSCAN + SBD, HDBSCAN + ピアソン相関係数(R) - Ideal - 故障箇所特定法 - この分野で用いられる定番手法の組み合わせと最先端手法 - 異常度ベース - e-Diagnosis - 異常伝搬ベース - 因果グラフ構築 + スコアリング - PC+PageRank, PC+HT, LiNGAM+PageRank, LiNGAM + HT, RCD - 13p: 評価指標 - 特徴量削減 - 合成データ:Specificity, Recall, BA (Balanced Accuracy) - 実証データ:RR, RF, PF - 故障箇所特定 - top-kの精度。関連研究で最も採用されている件数の多い指標。 - AC@k, AVG@k - 14p: データセット - 合成 - 本分野で唯一のオープンな合成データセット生成器 - 故障注入の影響をシミュレート可能 - 実証 - 2種類の規模の異なるベンチマークアプリケーションから、合計6個のデータセットを作成 - 15p: Q1 - 16p: Q2 - 17p: Q3 - 18p: Q4 - 19-20p: Discussion - 提案法の限界 - 提案の仮定と異なり、変化点の密集性が低ければ、障害期間の特定を誤る - 変化点検知への依存性: - 元々100%に近いリソース消費量が、わずかに変化して100%になるようなケース。 - 特徴削減全体の限界 - どの特徴削減法を適用しても、メトリクス数が増加するほど、精度も実行時間も悪化していく。 - 1,000個以上の時系列を持つデータセットでは、top-5精度が0.2を下回っており、 実用的とは言いがたい。 - 実行時間jについては、実用上有効な故障箇所特定法はRCDのみ。 ## 5. Conclusion (2min) - 21p: 結論 - 障害に非関連のメトリクスを削減するためのフレームワークを提案した。 - 変化点が時間軸で最密となる範囲を特定することで、障害時間特定アルゴリズムを設計した。 - 今後の研究 - 故障局在化想起度の影響を受けにくい障害関連メトリクスを除去するために、特徴削減を再設計する。 - (new) - 目的:ジレンマの解消のための特徴量削減に取り組む。過剰削除と過小削減の課題に対して、障害の非関連のメトリクスを削減すること。 - - (22p: Acceptに至るまで) - 投稿の動機 - 博士課程の審査条件であるジャーナル論文採録を満たすこと - 本研究テーマの国際会議投稿はなし - ACCESSのレビュー結果 - 著者が自ら設けた基準を満たすまでの道のりが長かった - 故障発生時間のセグメントは常に右端なのではないか? - 故障と障害検知までに時間的距離がある可能性?