ゴールデンシグナル - yuuk1's Digital Garden

# ゴールデンシグナル ## 定義ゴールデンシグナル（Golden Signals）は、Google SRE Book で提唱されたサービス健全性の監視指標の枠組みで、**レイテンシ・トラフィック・エラー率・サチュレーション**の 4 種が核心を構成する。実際のサービス体験に直接影響する「症状」を測定するため、無数の内部指標の代わりにこの 4 種を中心に置くことでアラートの焦点を絞りやすくなる。 - **レイテンシ**: リクエストの処理にかかる時間。成功したリクエストと失敗したリクエストを区別することが重要（エラーは高速に返るためレイテンシが低く見える）。 - **トラフィック**: サービスに対する需要量。HTTP サービスなら秒間リクエスト数、音声ストリーミングなら帯域幅など、サービスの性質によって指標が変わる。 - **エラー率**: 失敗したリクエストの割合。明示的なエラー（HTTP 500）と暗黙的なエラー（HTTP 200 だが間違った応答内容）の両方を考慮する。 - **サチュレーション**: システムのリソース（CPU/メモリ/ディスク/ネットワーク）の利用率。「あとどれだけ余裕があるか」を測る。これらの 4 種を網羅することで、多数のメトリクスを追うことなくサービスの全体的な健全性を把握できる。 ## 横断的知見 - **シグナルの種類ごとに異なる統計モデルが最適**: [[Yu Chen (Baidu)]] による SREcon19 Asia 発表([[@2019__SREcon19 Asia__Anomaly Detection on Golden Signals]])は、ゴールデンシグナル 4 種にガウス分布を一律適用することへの反証を実証的に示した。レイテンシの実分布は右裾が重く KDE が必要、サチュレーションは $[0,1]$ 区間にあるためベータカーネルが必要、エラー率は二項分布でモデル化が適切、トラフィックは予測ベースの検知が不可欠。「監視とは閾値の設定」という直感的なアプローチを超えた統計的設計が、本番での高い精度（適合率 92.3〜100%・再現率 95〜100%）につながる。単一の手法でゴールデンシグナル全体をカバーしようとすると、いずれかのシグナルで性能が劣化するトレードオフがある。(Source: [[@2019__SREcon19 Asia__Anomaly Detection on Golden Signals]]) > [!note] 単一ソースによる知見 > 現時点ではこの発表のみが出典。複数ソースが揃い次第、横断的知見に昇格させる。 ## 未解決の問い - ゴールデンシグナル 4 種は 2014 年頃の Google SRE Book が定義したが、マイクロサービス・サーバーレス・AI 推論サービスなど新しいアーキテクチャに対して同じ 4 種が最適な指標セットか。たとえば LLM 推論では「トークンスループット・推論レイテンシ（P99）・KV キャッシュヒット率・モデルロード時間」など追加すべき指標がある。 - KDE による分布推定は訓練データの量に依存する。新サービスや急成長サービスでは履歴データが少なく KDE の推定精度が不安定になりうる。どの程度の履歴データ量があれば KDE が信頼できるか。 - エラー率の二項分布モデルは「各リクエストが独立にエラー確率 $p_0$ を持つ」と仮定するが、連続的なエラー（依存サービス障害による連鎖エラー）では独立性が崩れる。この仮定崩壊はどう検知し補正するか。 - トラフィックの「リクエスト独立性補正」（1 クリックが複数リクエストを生成する問題）は MAD で $c$ を推定するが、マイクロサービスでの連鎖呼び出し、GraphQL など構造的に多重リクエストを生成するアーキテクチャへの適用方法は。 ## 関連 - 源泉概念: [[異常検知]] / [[アラート管理]] / [[サービスレベル目標]] - 主要 source: [[@2019__SREcon19 Asia__Anomaly Detection on Golden Signals]] - 実体: [[Yu Chen (Baidu)]] / [[Baidu]] ## 出典 - [[@2019__SREcon19 Asia__Anomaly Detection on Golden Signals]]（スライド全 34 ページ）— ゴールデンシグナル 4 種への統計モデル割り当て、本番評価