# 特徴量削減 ## 定義 特徴量削減(feature reduction)は、[[Fault Localization]] の前処理として、障害と無関係な監視メトリクス(単変量時系列)を減らし、後段 localization が扱う問題空間を縮小する営み。自動手法は 2 系統に大別される: **normality reduction**(統計的に異常と判定されたメトリクスだけを残す)と **redundancy reduction**(時系列の類似度=相関や shape-based distance に基づき冗長なメトリクスを除去する)。([[2024__IEEE Access__MetricSifter - Feature Reduction of Multivariate Time Series Data for Efficient Fault Localization in Cloud Applications]]) 障害時のメトリクスは root fault metrics($M_A$)・伝播関与メトリクス($M_B$)・無関係メトリクス($M_C$)に分かれ、feature reduction の目的は $M_C$ を最小化しつつ $M_A \cup M_B$ を保持することにある。 ## 横断的知見 - **過剰削減と過少削減のトレードオフ**: [[2024__IEEE Access__MetricSifter - Feature Reduction of Multivariate Time Series Data for Efficient Fault Localization in Cloud Applications]] は、redundancy reduction が $M_A \cup M_B$ の類似性ゆえ root fault metrics を誤除去して false negative を生み(localization 精度が None より悪化しうる)、normality reduction は failure 窓外の異常(バッチジョブ等の周期スパイク)を残して false positive を生む、という両系統の構造的欠陥を示す。[[MetricSifter]] はこれを「多変量で failure time window を局所化し、その窓内に変化点を持つメトリクスだけ残す」教師なし normality reduction で解く。redundancy reduction が localization に有害(None 以下)という知見は、類似メトリクスの除去という直観的に妥当な操作が fault localization では裏目に出ることを示す。(Source: [[2024__IEEE Access__MetricSifter - Feature Reduction of Multivariate Time Series Data for Efficient Fault Localization in Cloud Applications]]) - **「情報を絞る」前処理の効用は LLM エージェント時代の教訓と通底する**: feature reduction が解く「$M_C$ がノイズとして localization を阻害する」問題は、[[AIOpsLab]] §3.6 や [[Bits AI SRE]] が独立に観測した「telemetry を取りすぎるとエージェント性能が落ちる」病理と同型。statistical な前処理([[MetricSifter]])と agentic な自己抑制(成功エージェントほど get_metrics を控える)は、ともに「障害関連シグナルだけに絞る」という同じ目標を別レイヤーで追っている([[Fault Localization]]・[[根本原因分析]] に詳述)。(Source: [[2024__IEEE Access__MetricSifter - Feature Reduction of Multivariate Time Series Data for Efficient Fault Localization in Cloud Applications]], [[2025__MLSys2025__AIOpsLab - A Holistic Framework to Evaluate AI Agents for Enabling Autonomous Clouds]]) - **データ削減は「文脈が豊富な層」で行うべき、という設計原理に昇華される**: [[2025__Kyoto University__Scaling Telemetry Workloads in Cloud Applications - Techniques for Instrumentation, Storage, and Mining]] の博士論文(MetricSifter を mining 層の貢献として収録)は §6.2 で「データ削減(feature reduction・aggregation・sampling)は文脈知識が最も豊富な層——instrumentation(プロセス/ソケット/トランザクションの文脈)と mining(アラート/障害の文脈)の両端——で行い、storage 層は context 非依存の保持に徹せよ」と一般化する。feature reduction(mining 層・障害文脈で $M_C$ を削る)は、この「両端で絞る」原理の mining 側の具体化であり、instrumentation 層のサンプリング/集約([[分散トレーシング]] の flow bundling 等)と対をなす。([[2025__Kyoto University__Scaling Telemetry Workloads in Cloud Applications - Techniques for Instrumentation, Storage, and Mining]]) ## 未解決の問い - feature reduction を「failure-related か否か」の二値分類として評価する指標(balanced accuracy)は、AVG@5 の変動の 13.9–51.0% しか説明しない([[MetricSifter]] Table 3)。reduction の良さと localization の良さのギャップは何に由来し、どう埋めるか。 - statistical feature reduction の出力を LLM エージェントの入力に渡すと、エージェントの telemetry 過剰消費問題は緩和されるか([[Fault Localization]] の問いと共通)。 - redundancy reduction は localization に有害だが reduction rate には強い([[MetricSifter]] Table 5)。冗長除去を「localization 精度を落とさず」行う条件はあるか。 ## 関連 - ソース: [[2024__IEEE Access__MetricSifter - Feature Reduction of Multivariate Time Series Data for Efficient Fault Localization in Cloud Applications]] / [[2025__Kyoto University__Scaling Telemetry Workloads in Cloud Applications - Techniques for Instrumentation, Storage, and Mining]] / [[2025__MLSys2025__AIOpsLab - A Holistic Framework to Evaluate AI Agents for Enabling Autonomous Clouds]] - 概念: [[Fault Localization]] / [[変化点検知]] / [[AIOps]] / [[根本原因分析]] / [[テレメトリ]] - エンティティ: [[MetricSifter]] / [[PyRCA]] - 関連 MOC: [[異常検知 - MOC]] / [[Project AI4SRE - MOC]] / [[SRE - MOC]] ## 出典 - [[2024__IEEE Access__MetricSifter - Feature Reduction of Multivariate Time Series Data for Efficient Fault Localization in Cloud Applications]](§I, §II-D, Table 2, §IV, §V) - [[2025__Kyoto University__Scaling Telemetry Workloads in Cloud Applications - Techniques for Instrumentation, Storage, and Mining]](§6.2 設計指針: データ削減は文脈が豊富な両端で)