2022年5月09日 13:15~14:00
## 発表スライド
![[okabelab_meeting_202205.pdf]]
## アウトライン
- 進捗サマリ
- 研究課題3
- 国際会議あるいはジャーナルに投稿するには、これから2ヶ月程度要する見込み
- 標準年限に間に合わせるか、過程を半年延長するか思案中
- 5/14,15 SRE NEXT 2022 技術者向け国内カンファレンスでの登壇
- 7/10 DICOMO 2022 招待講演
- 自己紹介
- 博士後期課程3年目
- さくらインターネット研究所 研究員
- 以前
- 2013年-2018年 株式会社はてな ソフトウェアエンジニア
- 2013年 大阪大学情報科学研究科 博士前期課程 自主退学
- これまでの研究概要
- ITサービスは、ソフトウェアをオンラインで提供し続けながら、開発も続けるという形態にシフト。
- 高信頼性が必要。
- システム内部から収集可能な運用データを大量に収集し、可視化する
- 数値・テキストの時系列データなど
- CPU利用率、アクセス数、応答時間、エラーなど。
- ネットワークで接続されている依存関係データの高効率での取得。
- サマリ:研究課題3 時系列解析の研究 [[research/tsifter/TSifter]]
- 2月研究会での報告
- 正確性100%を達成した状態で、どこまで時系列数の削減率を高められるか?
- 正確性100%、次元削減率92%を達成
- 今日の報告
- 本研究の提案の趣旨を整理
- 時系列数の削減率92%には大きな誤りがあっため、手法の内容も含めて大幅に変更
- 今後の予定
- 別システムで取得したデータセットでの評価
- 提案の概要
- 原因診断手法の整理
- メトリクス種別の事前選択タイプ VS 事前選択なしタイプ
- 診断レベル -> (粒度:荒)コンポーネント vs (粒度:細 メトリクス)
- 因果経路のランキング or メトリクスランキング
- 原因診断の前処理に着目
- [[Fault Localization向けの特徴量削減手法の調査]]
- 単変量時系列に対するオフライン異常検知
- K-S検定 [[2021__ISSRE__Identifying Root-Cause Metrics for Incident Diagnosis in Online Service Systems|PatternMatcher]]
- 単一スパイクを正常と誤判定してしまう
- 混合正規分布によるクラスタリングの平滑化+3シグマ法による異常検知 [[2020__IPCCC__FluxInfer―Automatic Diagnosis of Performance Anomaly for Online Database System|FluxInfer]]
- 多変量時系列に対する冗長性の排除
- ピアソン相関を基にしたクラスタリング [[2019__ISSRE__FluxRank―A Widely-Deployable Framework to Automatically Localizing Root Cause Machines for Software Service Failure Mitigation|FluxRank]]
- 相関する系列の除去 [[2014__INFOCOM__CauseInfer―Automatic and distributed performance diagnosis with hierarchical causality graph in large distributed systems|CauseInfer]]
- 変化開始点の検知
- [[2014__INFOCOM__CauseInfer―Automatic and distributed performance diagnosis with hierarchical causality graph in large distributed systems|CauseInfer]] ベイズ変化点検知
- [[2019__ISSRE__FluxRank―A Widely-Deployable Framework to Automatically Localizing Root Cause Machines for Software Service Failure Mitigation|FluxRank]] 微分の絶対値
- 前処理フレームワークの提案
- フェーズ1:個々の時系列のオフライン異常検知
- フェーズ2:複数の時系列の冗長性の排除
- フェーズ3:個々の時系列の変化開始点の特定
- 各フェーズで複数の選択肢があり、最良の組み合わせか、あるいは、選択肢の利点・欠点の整理
- 貢献を整理
- 前処理フレームワークとしての整理
- 各フェーズでの新手法の提案
- 前処理部分のみの評価設計の提案
- フェーズ1:単変量時系列のオフライン異常検知
- [[PatternMatcher メトリクスの典型的な13種類の異常パターン]]
- 短時間の異常、長時間の異常、ホワイトノイズ(正常)を区別できるかどうか
- 各点の独立性を仮定する手法 vs 各点の非独立性を仮定する手法
- 正常期間データを必要とする手法
- フェーズ2とフェーズ3は未整理
- 評価の設計
- 各フェーズごとに評価指標を定義
- フェーズ1:手動で様々な正常パターンと異常パターンを選択。偽陽性・偽陰性を評価
- フェーズ2:
- フェーズ3:異常の各パターンについて、変化開始点の正解範囲を手動で設定し、正確性(accuracy)を評価。
- 各フェーズでは、パラメータの変化に対する評価指標の変化についても評価する。
- 時系列のインターバルの変化。(5秒、15秒、30秒)
- 時系列サイズの変化(60個、120個、240個など)
- 統合評価
- 原因候補メトリクスと症状メトリクスの組が残留する閾値パラメータを設定した上での次元削減率
- 高速性
- (前処理の有無で、原因診断の精度と高速性にどの程度差がでるか)
- まとめ
## TODO
- [ ] フェーズ1の手動パターン選択
- [x] 原因系のみ
- [ ] フェーズ1 VS K-S検定 [[TSifter実験 時系列異常検知 20220505]]
- [ ]
- [ ] フェーズ1 VS 混合ガウス分布ベースクラスタリングによる平滑化
- [ ] 時系列のインターバルの変化
- 15秒データで丸める?
- [ ] データセット全体 分散評価