@2019__SREcon19 EMEA__Latency SLOs Done Right

## 概要 [[Heinrich Hartmann]] による SREcon19 EMEA 講演資料。資料は、レイテンシを SLO として扱うときに「パーセンタイル時系列を見ればよい」という発想が破綻する理由を示し、ログ・カウンタ・ヒストグラムの 3 方式で「期間中にしきい値以内で処理されたリクエスト割合」を計算する実装へ置き換える。公式ページは、レイテンシがサービス品質の重要指標である一方、長い時間窓の SLO では集約の落とし穴が深刻になると説明している。 ## 主要メッセージ - レイテンシ SLO の本質は「対象期間の全リクエストのうち、指定しきい値より速く処理されたリクエスト数を数える」ことにある。資料は 100ms・150ms・180ms、さらに短い時間窓での問いを冒頭に並べ、SLO 判定をカウント問題として再定式化する (p.2-5)。 - パーセンタイルメトリクスは、複数週間の時間窓や複数ノードをまたぐ SLO 判定には使えない。パーセンタイルは集約できず、時間ごとの値を平均すると全体分布から計算したパーセンタイルとずれる (p.15-18)。 - 正しい実装は 3 系統に分かれる。ログは正確で単純だが長期保存が高価、カウンタは低コストで正確だがしきい値を事前に決める必要があり、ヒストグラムはしきい値と集約粒度を後から選べるが計装とストアが必要である (p.19-30)。 - ヒストグラム方式では、ノード・エンドポイント・時間をまたいでレイテンシ分布を合成し、しきい値以下のビンのサンプル数を数えることで任意のレイテンシ SLO を算出する (p.28-29)。 - 既にヒストグラムを持たない場合の移行経路は、直近ログで妥当なしきい値を決め、そのしきい値のカウンタを追加し、必要な軸でカウンタを集約することだと結論づける (p.33)。 - 方式ごとのツール候補: ログ方式は ssh+awk・ELK・Splunk・Honeycomb など、カウンタ方式は Prometheus・Graphite・DataDog・VividCortext、ヒストグラム方式は Circonus / IRONdb・Graphite/Grafana・Google 内部ツール (p.21, p.24, p.30)。 ## 視覚的に重要な図表 **p.12 28 日窓の SLO 判定例** ![[_attachments/srecon19emea-latency-slos-done-right/page-012.png]] 99% のリクエストが 1 秒未満という SLO に対し、50/90/95/99 パーセンタイルの時系列だけでは、どの時点のリクエスト量が全体判定を支配するか分からない。 **p.13 リクエスト量の偏り** ![[_attachments/srecon19emea-latency-slos-done-right/page-013.png]] 99.5% のリクエストが一部期間に集中していると、長期間の SLO 達成可否は見た目の時系列平均でなくリクエスト数の重みで決まる。 **p.14 6 時間窓のしきい値例** ![[_attachments/srecon19emea-latency-slos-done-right/page-014.png]] 短い時間窓・50ms しきい値の例では、パーセンタイル時系列としきい値線の交差だけで「99% が満たされたか」を判断しにくい。 **p.18 パーセンタイル平均の失敗例** ![[_attachments/srecon19emea-latency-slos-done-right/page-018.png]] 24 時間の API レイテンシ分布で、全体分布からの p90 は 35.8ms だが、時間ごとの p90 を平均すると 60.3ms となり、68.5% の誤差が生じる。 **p.23 カウンタメトリクスによる低速リクエスト比** ![[_attachments/srecon19emea-latency-slos-done-right/page-023.png]] 50ms より遅いリクエスト数をカウンタで持つと、9.5K / 106K = 8.9% のように、SLO 判定をリクエスト数の比として直接計算できる。 **p.25 HDR Histogram の分布表現** ![[_attachments/srecon19emea-latency-slos-done-right/page-025.png]] レイテンシ分布をヒストグラムとして保持すると、単一の代表値ではなく分布全体を後からしきい値で切れる。 **p.29 ヒストグラムでの SLO 計算例** ![[_attachments/srecon19emea-latency-slos-done-right/page-029.png]] 2018 年 8 月の全リクエスト分布から、50ms 以内のリクエスト割合が 89.3% と算出される例を示す。 **p.26 HDR Histogram データ構造** ![[_attachments/srecon19emea-latency-slos-done-right/page-026.png]] レイテンシ分布をスパース符号化ログリニアヒストグラムで保持する。全 46,081 ビンが ±10^±128 の範囲をカバーし、有効桁 2 桁の 10 進浮動小数点数で表現(10, 11, ..., 100, 110, ..., 1000, 1100, ...)。エントリのあるビンのみを記録するスパース符号化で、100K 超エントリでも典型サイズ 300 バイト/ヒストグラム。OSS: hdrhistogram.org (Tene @ Azul Systems)、github.com/circonus-labs/libcircllhist (Circonus, IronDB)。 **p.31 代替マージ可能要約** ![[_attachments/srecon19emea-latency-slos-done-right/page-031.png]] SLO 計算に使えるマージ可能分位点要約の系譜: circllhist (Schlossnagle @ Circonus 2013)、HDR Histograms (Tene @ Azul Systems 2015)、t-digest (Dunning @ MapR, Erl @ Dynatrace 2015)、DD-Sketch (Masson @ DataDog 2019)。 **p.32 mergeable summary 比較** ![[_attachments/srecon19emea-latency-slos-done-right/page-032.png]] raw、circllhist、HDR Histogram、t-digest、DD-Sketch の p90 精度と Python ライブラリのパフォーマンス（挿入・マージ・p90 計算時間、単位 sec）を比較（2015 MacBook Pro ベンチマーク、notebook: github.com/HeinrichHartmann/Statistics-for-Engineers/）。p90 参照値 35.774ms に対して: circllhist 35.773ms (0.001% 誤差、insert/merge/p90: 0.86/0.000262/0.000005)、HDR Histogram 35.775ms (0.000%、3.59/0.003/0.003)、t-digest 35.803ms (0.029%、97.00/1.900/0.003)、DD-Sketch 35.519ms (0.256%、2.39/0.003/0.000037)。 ## 概念・実体への接続 - [[サービスレベル目標]]: レイテンシ SLO を「パーセンタイル値の目標」ではなく「しきい値以内の良いイベント比率」として実装する具体例。 - [[ヒストグラムメトリクス]]: 分布を合成できる形で保持し、任意の期間・ノード・エンドポイントの SLO 判定に使うメトリクス構造。 - [[テレメトリ]]: 収集時点で平均・パーセンタイルへ畳み込むと、後段の SLO 判定に必要な分布情報を失うという計装・保持層の設計論。 - [[Heinrich Hartmann]] / [[Circonus]]: 発表者と当時の所属組織。 ## 限界・不確実点 - transcript は取得していない。口頭で補足された事例やデモ操作の詳細は source ページに含めていない。 - p.12-14 の元図は Google の SREcon 2018 資料（Fong-Jones, Bennett, Quinlan, Stockman, Thorne @ Google、p.26）を引用しているが、本取り込みでは Hartmann スライド上の引用表示までを根拠にした。 - p.23 のカウンタメトリクス実例グラフには "@phredmoyer" と "#ObservabilitySummit" の帰属が示されており、このスライドは [[Fred Moyer]] の ObservabilitySummit 発表素材の流用と考えられる。 - p.32 の性能比較は発表者の 2015 年 MacBook Pro 上の Python ライブラリ簡易ベンチマークであり、一般的な性能順位として扱うには追加検証が必要である。Notebook: github.com/HeinrichHartmann/Statistics-for-Engineers/ - "パーセンタイルは集約できない" 主張は 2016 年 Monitorama でも controversy があり(p.16-17)、John Rauser の "You CAN average percentiles!" (RPubs, Jul 2016) が反論として残っている。Hartmann は「実際に大幅にずれる(>300%誤差)」と実例で反証した。