MLモデル監視 - yuuk1's Digital Garden

# MLモデル監視 ## 定義 ML モデル監視は、本番環境で稼働する機械学習モデルの品質・挙動・入出力データを継続的に計測し、劣化やサイレント障害を検知する取り組みを指す。従来のバックエンド監視（レイテンシ・トラフィック・エラー・飽和度の 4 ゴールデンシグナル）はサービスの稼働状態を捉えるが、ML 固有の障害——入力データの単位変更、特徴量ドリフト、劣化モデルの自動リリース、後処理フィルタの破損——はエラーやレイテンシに現れず、サイレントに品質を損なう。Google の ML Test Score 論文はこの追加的複雑さ（データテスト・スキューテスト・データ監視・予測監視）を体系化している。(Source: [[@2023__SREcon23 EMEA__Symptom-based Alerting for Machine Learning]]) [[Lina Weichbrodt]] は SREcon23 EMEA で、SRE の症状ベースアラーティング——原因でなくエンドユーザーの痛みに着目する——を ML リクエストシーケンスに適用し、出力側から逆順に監視を優先する 3 段階フレームワークを提示した: 1. **Priority 1 — ユーザー影響**: 本番での評価メトリクス（正解ラベルが得られる場合の適合率・再現率等）およびステークホルダー懸念シグナル（最悪シナリオの恐怖をメトリクス化）。 2. **Priority 2 — サービス応答分布**: 後処理後の出力分布を監視。ルールベース距離（中央値・分位点・空応答割合）、統計的距離（KS 統計量・D1 距離・PSI）、ヒューリスティック品質指標（パーソナライズ応答割合等）。 3. **Priority 3 — 入力/特徴量データ分布**: Priority 2 と同じ距離メトリクスを入力側に適用。出力アラートの根本原因分析に有用。例外として訓練-サービング間スキュー監視は Priority 1。 ## 横断的知見 - (本 concept は初回ソースのため、2 ソース以上の突き合わせによる横断的観察は今後追加する) ## 未解決の問い - Weichbrodt の 3 段階優先順位は 30 ユースケースの経験則に基づくが、ドメインによる優先順位の逆転（例: 金融の規制要件で入力監視が最優先になるケース）はどの程度あるか。 - ML の出力分布監視と[[異常検知]]の時系列異常検知手法（Chandola 2009 等）の接続: 出力スコア分布の変化点検知に時系列異常検知を適用した産業事例はあるか。 - 「評価メトリクスと検知メトリクスは異なる」という Weichbrodt の区別は、SRE における SLI/SLO と監視メトリクスの区別とどこまで対応するか。 - LLM のテキスト出力に対する分布監視手法はスコア分布と同じアプローチで機能するか。Weichbrodt はリスト(p.25)で LLM を挙げるが具体的手法は示していない。 ## 関連 - [[アラート管理]] — ML 監視は既存のアラート管理フレームワークの上に構築される。 - [[アクショナブルアラート]] — ML のサイレント障害を検知するアラートはアクショナブル性の新しい次元を必要とする。 - [[異常検知]] — 出力/入力分布の変化検知は異常検知の応用。 - [[オブザーバビリティ]] — ML 監視はオブザーバビリティの ML ドメインへの拡張。 ## 出典 - [[@2023__SREcon23 EMEA__Symptom-based Alerting for Machine Learning]]