2022年5月09日 13:15~14:00 ## 発表スライド ![[okabelab_meeting_202205.pdf]] ## アウトライン - 進捗サマリ - 研究課題3 - 国際会議あるいはジャーナルに投稿するには、これから2ヶ月程度要する見込み - 標準年限に間に合わせるか、過程を半年延長するか思案中 - 5/14,15 SRE NEXT 2022 技術者向け国内カンファレンスでの登壇 - 7/10 DICOMO 2022 招待講演 - 自己紹介 - 博士後期課程3年目 - さくらインターネット研究所 研究員 - 以前 - 2013年-2018年 株式会社はてな ソフトウェアエンジニア - 2013年 大阪大学情報科学研究科 博士前期課程 自主退学 - これまでの研究概要 - ITサービスは、ソフトウェアをオンラインで提供し続けながら、開発も続けるという形態にシフト。 - 高信頼性が必要。 - システム内部から収集可能な運用データを大量に収集し、可視化する - 数値・テキストの時系列データなど - CPU利用率、アクセス数、応答時間、エラーなど。 - ネットワークで接続されている依存関係データの高効率での取得。 - サマリ:研究課題3 時系列解析の研究 [[research/tsifter/TSifter]] - 2月研究会での報告 - 正確性100%を達成した状態で、どこまで時系列数の削減率を高められるか? - 正確性100%、次元削減率92%を達成 - 今日の報告 - 本研究の提案の趣旨を整理 - 時系列数の削減率92%には大きな誤りがあっため、手法の内容も含めて大幅に変更 - 今後の予定 - 別システムで取得したデータセットでの評価 - 提案の概要 - 原因診断手法の整理 - メトリクス種別の事前選択タイプ VS 事前選択なしタイプ - 診断レベル -> (粒度:荒)コンポーネント vs (粒度:細 メトリクス) - 因果経路のランキング or メトリクスランキング - 原因診断の前処理に着目 - [[Fault Localization向けの特徴量削減手法の調査]] - 単変量時系列に対するオフライン異常検知 - K-S検定 [[2021__ISSRE__Identifying Root-Cause Metrics for Incident Diagnosis in Online Service Systems|PatternMatcher]] - 単一スパイクを正常と誤判定してしまう - 混合正規分布によるクラスタリングの平滑化+3シグマ法による異常検知 [[2020__IPCCC__FluxInfer―Automatic Diagnosis of Performance Anomaly for Online Database System|FluxInfer]] - 多変量時系列に対する冗長性の排除 - ピアソン相関を基にしたクラスタリング [[2019__ISSRE__FluxRank―A Widely-Deployable Framework to Automatically Localizing Root Cause Machines for Software Service Failure Mitigation|FluxRank]] - 相関する系列の除去 [[2014__INFOCOM__CauseInfer―Automatic and distributed performance diagnosis with hierarchical causality graph in large distributed systems|CauseInfer]] - 変化開始点の検知 - [[2014__INFOCOM__CauseInfer―Automatic and distributed performance diagnosis with hierarchical causality graph in large distributed systems|CauseInfer]] ベイズ変化点検知 - [[2019__ISSRE__FluxRank―A Widely-Deployable Framework to Automatically Localizing Root Cause Machines for Software Service Failure Mitigation|FluxRank]] 微分の絶対値 - 前処理フレームワークの提案 - フェーズ1:個々の時系列のオフライン異常検知 - フェーズ2:複数の時系列の冗長性の排除 - フェーズ3:個々の時系列の変化開始点の特定 - 各フェーズで複数の選択肢があり、最良の組み合わせか、あるいは、選択肢の利点・欠点の整理 - 貢献を整理 - 前処理フレームワークとしての整理 - 各フェーズでの新手法の提案 - 前処理部分のみの評価設計の提案 - フェーズ1:単変量時系列のオフライン異常検知 - [[PatternMatcher メトリクスの典型的な13種類の異常パターン]] - 短時間の異常、長時間の異常、ホワイトノイズ(正常)を区別できるかどうか - 各点の独立性を仮定する手法 vs 各点の非独立性を仮定する手法 - 正常期間データを必要とする手法 - フェーズ2とフェーズ3は未整理 - 評価の設計 - 各フェーズごとに評価指標を定義 - フェーズ1:手動で様々な正常パターンと異常パターンを選択。偽陽性・偽陰性を評価 - フェーズ2: - フェーズ3:異常の各パターンについて、変化開始点の正解範囲を手動で設定し、正確性(accuracy)を評価。 - 各フェーズでは、パラメータの変化に対する評価指標の変化についても評価する。 - 時系列のインターバルの変化。(5秒、15秒、30秒) - 時系列サイズの変化(60個、120個、240個など) - 統合評価 - 原因候補メトリクスと症状メトリクスの組が残留する閾値パラメータを設定した上での次元削減率 - 高速性 - (前処理の有無で、原因診断の精度と高速性にどの程度差がでるか) - まとめ ## TODO - [ ] フェーズ1の手動パターン選択 - [x] 原因系のみ - [ ] フェーズ1 VS K-S検定 [[TSifter実験 時系列異常検知 20220505]] - [ ] - [ ] フェーズ1 VS 混合ガウス分布ベースクラスタリングによる平滑化 - [ ] 時系列のインターバルの変化 - 15秒データで丸める? - [ ] データセット全体 分散評価