# iSQUAD **Intermittent Slow QUery Anomaly Diagnoser**の略。[[Alibaba Group]] の OLTP Database サービスに本番展開された、[[間欠的遅延クエリ]](iSQ)の根本原因を自動診断するフレームワークである。[[Tsinghua University]] の [[Dan Pei]] グループと Alibaba の共同研究として開発され、PVLDB 2020 に発表された。 ## 構成 iSQUAD は 4 つのコンポーネントから成る: 1. **Anomaly Extraction(異常抽出)**: iSQ 発生時刻前後の KPI を収集し、異常タイプ(スパイク上昇・スパイク下降・レベルシフト上昇・レベルシフト下降・void)を判定する。ロバスト閾値法(スパイク用)と T 検定(レベルシフト用)を採用。 2. **Dependency Cleansing(依存関係浄化)**: KPI 間の信頼度(Confidence)を用いた連関規則学習で、従属 KPI のアノマリ通知を除去し、KPI 集合の独立性を保証する。 3. **TOPIC(タイプ指向パターン統合クラスタリング)**: KPI タイプ(CPU・I/O・ネットワーク等)ごとに単純一致係数(SMC)を計算し、二乗平均で統合した類似度でクラスタリングする。KD 木を使った $O(n \log n)$ アルゴリズム。 4. **Bayesian Case Model(BCM)**: クラスタごとにプロトタイプ事例と重要 KPI サブセット(特徴部分空間)を抽出し、DBA に提示する。KPI 数を平均 35.5% 削減してラベリング作業を軽減する。 ## 2 段階の動作 - **オフライン段階**: 過去 iSQ データを投入してクラスタを構築し、DBA がクラスタ単位で根本原因をラベリング - **オンライン段階**: 新着 iSQ を受信し、既知クラスタとの類似度照合で根本原因を即時返す。未知パターンには新クラスタを生成して DBA に委ねる ## 評価結果 Alibaba OLTP Database の本番データ(319 件、10 根本原因)で評価: - 重み付き F1 スコア: **80.4%**(比較手法 DBSherlock の 31.2% より 49.2% 高い) - 処理時間: 0.38 秒/クラスタ(DBSherlock より 17.4% 速い) - 本番 30 倍高速化: 数百件の iSQ 診断を DBA が 80 分で完了(従来手動では約 2,400 分) ## 関連 - 論文: [[@2020__PVLDB__Diagnosing Root Causes of Intermittent Slow Queries in Cloud Databases]] - 開発者: [[Minghua Ma]] / [[Dan Pei]] / [[Shenglin Zhang]] - 運用環境: [[Alibaba Group]](Alibaba OLTP Database) - 概念: [[間欠的遅延クエリ]] / [[データベース自律診断]] / [[異常検知]]