## 概要 Hudson River Trading (HRT) のTrade Systems SREである[[Tony Lykke]]が、6年間かけて71,317件(週平均201件)まで積み上がった高urgency PagerDutyページを、着任後わずか4か月で1,015件(週平均56件)まで削減した実務報告である(p.2)。焦点は個々の閾値調整や重複排除といった技術的手法ではなく、「なぜ周囲は既に(それほど)壊れているとは思っていないのか」という組織文化・コミュニケーション面の障壁の突破にある。 ## 主要メッセージ - **本トークの射程を明示的に限定する**(p.3-4): pager noise削減の一般的guideであり、Nagios/PagerDutyの技術深掘りではない。プラットフォームを問わず応用できる一般論として提示される。 - **発表者の経歴**(p.5): Atlassian (Sydney) のService Ops (SOPS) / Jira SREを経てHudson River Trading (NYC) のTrade Systems SREへ移った。口頭説明では、この取り組みを始めた時点でHRT在籍はわずか5か月、しかもオンコール担当にすらなっていなかったと語られる。 - **同僚の言い訳が変化への障壁だった**(p.9-10): 「そんなにページを受けなくてもいい」と伝えても、「昔からそう」「colo毎に設定が違って閾値が決めづらい」「Big Corp並みのリソースがないと無理」「昔よりはマシ」という反応が返ってきた。 - **「9 Really Hard Steps」フレームワーク**(p.11): audience理解→問題理解→システム理解→計画立案→(任意で)許可取得→下地作り→低リスク施策から着手→コミュニケーション→7に戻る、という9段階。9段階のうち技術的な作業は3・6・7の一部のみで、大半はオーディエンスとの合意形成に割かれる。 - **アーキテクチャ変更は最小限に留めた**(p.17, p.32): 変更前はSatellite Nagios群→Master Nagios→PagerDutyという構成そのままだったが、変更後もMaster NagiosとPagerDutyの間にPython製のdrop/downgrade/groupフィルタ層を挿入しただけで、既存の監視基盤自体は壊さなかった。 - **コミット貢献の可視化でチームの信頼転換を定量的に裏付けた**(p.21): `git shortlog -s -n | rg -n Tony` の実行結果を2時点で並べ、最初は5コミット、その後765コミットへと推移したことを示した。口頭説明では、最初に「時間の無駄だからプロジェクトをやめろ」と言った同僚が、半年後には最大の擁護者になったというエピソードが添えられる。 - **Slackボットログによる「沈黙の可視化」で不安を緩和した**(p.29): `#systrade_alerts` チャンネルに`pagerduty_nagios`ボットがダウングレード・グルーピング・サイレンス処理を自動投稿し、ページが来ないことと「何も起きていないこと」を区別できるようにした。 - **急激なページ削減自体が新たな不安を招いた**(口頭説明): 「ページャーからの沈黙は、歴史的に監視スタック自体が壊れていることを意味していた」ため、ページ数を一晩でほぼ半減させたことがチームの安心ではなく不安を招いた。announcements・wikiページ・commitメッセージだけでは「コミュニケーションが足りない」状態だったと振り返る。 ## 視覚的に重要な図表 **p.2 削減実績のヘッドラインチャート** ![[_attachments/srecon19americas-lykke-oncall/page-002.png]] 2012年1月〜2018年10月の71,317件(週平均201件、最悪月2,327件)から、2018年11月〜2019年2月の1,015件(週平均56件)への急減を月次棒グラフで示す。 **p.11 「9 Really Hard Steps」一覧** ![[_attachments/srecon19americas-lykke-oncall/page-011.png]] audience理解からコミュニケーションを経て「7に戻る」まで続く反復的な9段階フレームワーク。 **p.13 Step 2: PagerDuty Trendsダッシュボード** ![[_attachments/srecon19americas-lykke-oncall/page-013.png]] 過去5年間で総ページ数51,908件・週平均197.485件、複数のローリング平均(4/8/12週)を示す実データダッシュボード。 **p.17 Step 4: 変更前アーキテクチャ図** ![[_attachments/srecon19americas-lykke-oncall/page-017.png]] 複数のSatellite NagiosがMaster Nagiosに集約され、Python経由でPagerDutyへ送られる変更前の構成。 **p.21 Step 6: git shortlogによるバイイン可視化** ![[_attachments/srecon19americas-lykke-oncall/page-021.png]] `git shortlog -s -n | rg -n Tony` の実行結果を2時点で並べ、コミット数が5→765へ増えたことを示す端末スクリーンショット。 **p.23 Step 7: top-offender分析ダッシュボード** ![[_attachments/srecon19americas-lykke-oncall/page-023.png]] ホスト別・サービス別のインシデント数上位ランキングと、時間帯別ページ発生数(timeout込み/除外)を6パネルで可視化したダッシュボード。 **p.29 Step 8: Slack自動化ログ** ![[_attachments/srecon19americas-lykke-oncall/page-029.png]] `#systrade_alerts` チャンネルで`pagerduty_nagios`ボットがダウングレード・グルーピング・サイレンス処理の理由を自動投稿する様子。 **p.32 変更後アーキテクチャ図(Then vs Now)** ![[_attachments/srecon19americas-lykke-oncall/page-032.png]] p.17の構成に、Master NagiosとPagerDutyの間のPython製drop/downgrade/groupフィルタ層を追加した変更後の構成。 ## 口頭説明・補足 transcript(YouTube自動字幕)によると、発表者はプロジェクト開始時点でHRT在籍わずか5か月、オンコール担当にすらなっていない「外様」の立場だったと述べる。この状態での大規模な変更提案は、既存のオンコール担当者から「時間の無駄だからプロジェクトをやめろ」と直接言われるほどの抵抗を受けたが、半年後にはその同僚が最大の擁護者に転じた(p.21のgit shortlog推移と対応する逸話)。 「ヒーローになった気分はどうか」と自問する場面(p.24付近のスライドに対応)では、announcements・wikiページ・commitメッセージを尽くしてもなお「コミュニケーションが足りていなかった」と気づいたと語る。具体的には、ページ数を一晩でほぼ半減させたことで、チームが安堵するどころか不安になった。理由は「ページャーからの沈黙は、歴史的に監視スタック自体が壊れている兆候だった」ためであり、鳴らないこと自体が新しい種類の不確実性を生んだ。この不安を緩和するため、`#systrade_alerts` はwarningやlow-urgencyアラートを流す場ではなく、「何がサイレンスされているか」を示すログとして再定義され、多くの人はミュートしたまま放置しつつ必要な時だけ参照する使い方に落ち着いたという。 発表末尾は質疑応答を伴わず、ブース(Booth 41, Northside Ballroom)・採用ページ(hudson-trading.com/careers)・メール([email protected])・SREcon Slack(@tl)への案内で締めくくられる。 ## 概念・実体への接続 - [[アラート疲労]] — 技術的介入・インセンティブ設計に続く「最小限の技術変更+コミュニケーション過剰投資+定量的バイイン可視化」という統合的アプローチの具体例、および「アラート削減が沈黙不安を招く」という副作用の事例として接続する。 - [[Tony Lykke]] — 本講演の発表者。 - [[Hudson River Trading]] — 発表者の所属組織、講演内で言及される規模・システム構成の出典。 ## 限界・不確実点 - p.18 (Step 5: Get Permission) はスライドのビルドアニメーションにより複数状態のテキストが1枚のPNGに重なって描画され、画像単独では判読不能だった。`pdftotext -f 18 -l 18` によるページ指定テキスト抽出で本文を復元した。 - transcriptにQ&Aセクションは含まれない。登壇者は質疑を募る代わりに「ロビーで捕まえてほしい」と案内しており、この講演自体に公開Q&Aがあったかは確認できない。 - p.28「Step 8」のコミュニケーション施策一覧、および終盤「Ten Second Review」の一覧はいずれも末尾が「???」で終わる。transcriptでもこの「???」が何を指すか明言されておらず、意味は不明(ジョーク的な間である可能性がある)。 - 発表日時「2019-03-25 11:05am」および公式アブストラクトの記述は USENIX 公式ページのキャッシュ済みHTMLに基づく。 - 動画中のデモ(あれば)やホワイトボード等、静止画スライドに現れない視覚情報は確認できていない。