# ゴールデンシグナル
## 定義
ゴールデンシグナル(Golden Signals)は、Google SRE Book で提唱されたサービス健全性の監視指標の枠組みで、**レイテンシ・トラフィック・エラー率・サチュレーション**の 4 種が核心を構成する。実際のサービス体験に直接影響する「症状」を測定するため、無数の内部指標の代わりにこの 4 種を中心に置くことでアラートの焦点を絞りやすくなる。
- **レイテンシ**: リクエストの処理にかかる時間。成功したリクエストと失敗したリクエストを区別することが重要(エラーは高速に返るためレイテンシが低く見える)。
- **トラフィック**: サービスに対する需要量。HTTP サービスなら秒間リクエスト数、音声ストリーミングなら帯域幅など、サービスの性質によって指標が変わる。
- **エラー率**: 失敗したリクエストの割合。明示的なエラー(HTTP 500)と暗黙的なエラー(HTTP 200 だが間違った応答内容)の両方を考慮する。
- **サチュレーション**: システムのリソース(CPU/メモリ/ディスク/ネットワーク)の利用率。「あとどれだけ余裕があるか」を測る。
これらの 4 種を網羅することで、多数のメトリクスを追うことなくサービスの全体的な健全性を把握できる。
## 横断的知見
- **シグナルの種類ごとに異なる統計モデルが最適**: [[Yu Chen (Baidu)]] による SREcon19 Asia 発表([[@2019__SREcon19 Asia__Anomaly Detection on Golden Signals]])は、ゴールデンシグナル 4 種にガウス分布を一律適用することへの反証を実証的に示した。レイテンシの実分布は右裾が重く KDE が必要、サチュレーションは $[0,1]$ 区間にあるためベータカーネルが必要、エラー率は二項分布でモデル化が適切、トラフィックは予測ベースの検知が不可欠。「監視とは閾値の設定」という直感的なアプローチを超えた統計的設計が、本番での高い精度(適合率 92.3〜100%・再現率 95〜100%)につながる。単一の手法でゴールデンシグナル全体をカバーしようとすると、いずれかのシグナルで性能が劣化するトレードオフがある。(Source: [[@2019__SREcon19 Asia__Anomaly Detection on Golden Signals]])
> [!note] 単一ソースによる知見
> 現時点ではこの発表のみが出典。複数ソースが揃い次第、横断的知見に昇格させる。
## 未解決の問い
- ゴールデンシグナル 4 種は 2014 年頃の Google SRE Book が定義したが、マイクロサービス・サーバーレス・AI 推論サービスなど新しいアーキテクチャに対して同じ 4 種が最適な指標セットか。たとえば LLM 推論では「トークンスループット・推論レイテンシ(P99)・KV キャッシュヒット率・モデルロード時間」など追加すべき指標がある。
- KDE による分布推定は訓練データの量に依存する。新サービスや急成長サービスでは履歴データが少なく KDE の推定精度が不安定になりうる。どの程度の履歴データ量があれば KDE が信頼できるか。
- エラー率の二項分布モデルは「各リクエストが独立にエラー確率 $p_0$ を持つ」と仮定するが、連続的なエラー(依存サービス障害による連鎖エラー)では独立性が崩れる。この仮定崩壊はどう検知し補正するか。
- トラフィックの「リクエスト独立性補正」(1 クリックが複数リクエストを生成する問題)は MAD で $c$ を推定するが、マイクロサービスでの連鎖呼び出し、GraphQL など構造的に多重リクエストを生成するアーキテクチャへの適用方法は。
## 関連
- 源泉概念: [[異常検知]] / [[アラート管理]] / [[サービスレベル目標]]
- 主要 source: [[@2019__SREcon19 Asia__Anomaly Detection on Golden Signals]]
- 実体: [[Yu Chen (Baidu)]] / [[Baidu]]
## 出典
- [[@2019__SREcon19 Asia__Anomaly Detection on Golden Signals]](スライド全 34 ページ)— ゴールデンシグナル 4 種への統計モデル割り当て、本番評価