@2016__SREcon16Europe__HPC Downtime Budgets

## 概要 [[Cory Lueninghoener]]（[[Los Alamos National Laboratory]]、HPC 設計グループリーダー）が SREcon Europe 2016（2016-07-12、Dublin）で発表したスライド。HPC 環境における月次クラスタメンテナンスの計画管理に、SRE のエラーバジェット概念を適応させた「ダウンタイム予算（Downtime Budget）」の取り組みを報告する。37 ページ、YouTube 動画・自動字幕トランスクリプトあり。 ## 主要メッセージ - **エラーバジェットの直接移植は不可**: Web SRE では SLA 99.99% の 0.01% = 1,000 万リクエスト中 1,000 件の失敗許容（意味がある）。HPC では 0.01% of 1,000 ジョブ = 1/10 ジョブ（意味をなさない）。しかし「ダウンタイムを追跡し意思決定に使う」という原則は移植できる。 - **ダウンタイム予算の定義**: 各クラスタに月 1 回 10 時間の DST（Dedicated System Time）が割り当てられる。四半期 = 3 回 × 10 時間 = **30 時間**（クラスタ利用可能時間の約 **1.4%**）。 - **バーンダウンチャート**: Y 軸を「残り時間（0–30 時間）」、X 軸を日付とした折れ線グラフ。計画消費ラインは 30 から 0 への直線。実クラスタは階段状に消費。 - **失敗事例が可視化される**: Wolf クラスタ（Q2 2015）は高速ネットワーク障害で一晩停止、**予算をほぼ使い果たしてマイナス域に落ちた**。従来は「何時間損失したか」が不明確だったが、グラフで即座に見えるようになった。 - **予算の 5 用途**: ①計画維持報告、②施設工事計画（電源工事など）、③落雷対策バッファ、④ユーザー専用時間リクエスト管理、⑤技術的負債解消のための管理者時間。 - **SRE 普及の挑戦**: 「これは改宗・伝道の課題ではなく、コミュニティ形成の課題だ」——自分の環境に SRE 原則を適応させる方法を他者に教え、コミュニティを育てることが本質である。 ## 視覚的に重要な図表 **p.6 典型的な HPC クラスタ設計** ![[_attachments/2016__SREcon16Europe__Downtime-Budgets/page-006.png]] コンピュートノード・IO ノード・ログインノード・管理ノードが高速ネットワーク（InfiniBand 等）と管理ネットワークで接続。NFS と Lustre の 2 層ファイルシステム。この高速ネットワークの停止がクラスタ全体停止を招くため、メンテナンスはクラスタ単位になる設計上のトレードオフ。 **p.12 クラスタ利用率グラフ（LANL HPC 7 日間）** ![[_attachments/2016__SREcon16Europe__Downtime-Budgets/page-012.png]] cielito 25%・conejo 79%・moonlight 79%・mustang 85%・pinto 76%・wolf 84%・woodchuck 0% の 7 クラスタ。HPC では 80% が「良い」利用率の目安——大規模ジョブのスケジューリング待ちが必ず発生するため 100% は非現実的。 **p.23 バーンダウンチャート（計画消費ライン）** ![[_attachments/2016__SREcon16Europe__Downtime-Budgets/page-023.png]] Open DST Budget Q2 2015。Y 軸: 残り時間（0–30h）、X 軸: 2015-04-05〜2015-06-28。計画消費ラインは 30h から 0h への直線。実際の予算消費はこの直線との乖離で判断する。 **p.25 Wolf クラスタのバジェット超過（Q2 2015）** ![[_attachments/2016__SREcon16Europe__Downtime-Budgets/page-025.png]] Planned Budget（青線）に Moonlight（橙線）と Wolf（緑線）を重ねた 3 線グラフ。Wolf は 2015-05-03 に急落し **−12h 程度まで落下**。高速ネットワーク障害で一晩停止した影響。口頭説明では「翌月は追加メンテナンスができなかった」と補足（Source: transcript）。 **p.26 Q2 2015 全クラスタ（7 系統）** ![[_attachments/2016__SREcon16Europe__Downtime-Budgets/page-026.png]] Cielito・Conejo・Mapache・Moonlight・Mustang・Pinto・Wolf の 7 クラスタ＋計画ライン。全体としては計画ライン近辺で推移しているが、Wolf だけがマイナス域に落ちている。Pinto は四半期を通じて約 3 時間しか使わず、大量の余剰時間が生じた。 **p.27 Q3 2015 全クラスタ（悪い四半期）** ![[_attachments/2016__SREcon16Europe__Downtime-Budgets/page-027.png]] 2015-09-06 前後に施設停電（計画済み電源工事）で全クラスタが一斉にドロップ。大半がマイナス域（最大 −30h 近く）に達した。1 系統のみ軽微な落下に留まった。口頭では「施設チームと四半期ごとに調整して予算を確保する必要性」として言及（Source: transcript）。 ## 口頭説明・補足（transcript） - **9 to 5 ショップの問題**: LANL の HPC クラスタは 9–17 時運用。夜間に停止が続いた場合「帰宅して翌朝来るか、残業で復旧するか」の判断が曖昧だった。バーンダウンチャートで「一晩停止 = 四半期予算の大半を消費」が可視化されたことで、意思決定が変わった。 - **Wolf の事例の詳細**: 高速ネットワーク停止後、翌日の復旧まで誰もジョブを実行できない状態が続き、予算を"止まったまま"消費した。その結果、同四半期中に追加メンテナンスが実施不能になった。 - **施設停電（Q3 2015）**: ラスアラモスでは夏季に落雷が頻発（年 1–2 回は機械室停止）。水冷設備の敷設工事では機械室の電源を 1–2 時間停止する必要がある。これらを四半期計画に組み込む必要がある。 - **技術的負債の「消火ヘリ」比喩**: 森林火災を消す消防ヘリを比喩として使い、「四半期末に 3 時間余れば、積み残していたスイッチ再起動等のメンテナンスをする」という用法を説明。 - **Q&A「報告の抽象度」**: 資金提供元（DOE）への報告は管理層が上がるにつれ抽象化が必要。ただし「80% が良い利用率」という説明は常に要る——なぜ 100% にならないかを説明しないと理解されない。 - **Q&A「ユーザー専用時間の事例」**: 四半期の残余予算を見て「あと 3 時間ある、ユーザーの専用時間リクエストを承諾できる」と判断できるようになった。 ## Q&A - **Q: DOE への予算報告をどう抽象化するか？** → 管理層ごとに抽象度を上げる。科学時間（Science/hr）タコメーターが核心指標。 - **Q: 9–17 時ショップでの夜間超過はどう扱うか？** → バーンダウンチャートが可視化することで「一晩停止のコスト」が定量化され意思決定基準になった。 - **Q: クラスタのアーキテクチャ構成は？** → 全クラスタが均質構成（同時購入・同時リタイア）。InfiniBand 等の高速ネットワークのみ特殊。x86_64 中心。GPU 搭載クラスタも一部。 ## 概念・実体への接続 - [[エラーバジェット]] — 本スライドはエラーバジェットを HPC 環境に適応した実践例。単位を「リクエスト失敗率」でなく「計画外停止時間」に変換することで移植を実現。 - [[並列ファイルシステム]] — Lustre が主要 HFS として登場。クラスタ全停止の理由の一つ（FS 変更は全停止が安全）。 - [[HPCワークロード特性化]] — LANL のジョブ特性（64–64,000 コア、1–24 時間、6,000 ジョブ/日）は HPC ワークロード特性化の実例。 - [[Cory Lueninghoener]] — 本スライドの著者。 - [[Los Alamos National Laboratory]] — 発表者の所属。米国 DOE の国家安全保障研究所。 ## 限界・不確実点 - transcript は YouTube 自動字幕（機械精度）。固有名詞（Cielito → "ciolito"、Lueninghoener → "leaninghaver"）に誤りあり。数値はスライド画像を正とする。 - 各グラフの個別クラスタ名（Wolf は判読可）と実際の停止時刻は、スライドから読み取れる範囲のみ。 - 実装状況は「まだ概念実証段階（proof of concept）」と明示（p.22）。本番導入の詳細不明。