HPCワークロード特性化 - yuuk1's Digital Garden

# HPCワークロード特性化 ## 定義 HPC ワークロード特性化は、HPC データセンターの実運用ログ(ジョブスケジューラ・ノード監視・電力メータ等)を収集・統合し、ワークロードの到着分布・実行時間分布・資源利用率・障害パターン・エネルギー消費を定量的に記述する取り組みである。目的はスケジューリング・資源管理・設備計画の改善に役立てることだ。([[@2024__ICPADS__Generic and ML Workloads in an HPC Datacenter]] §I-III) 従来は汎用の科学計算ジョブを単独で対象とする研究が主流だったが、HPC データセンターが ML ジョブを受け入れるようになったことで、**ML/汎用の分離比較**と**ジョブ-ノード結合解析**が新たな研究軸として浮上している。 ## 横断的知見 - **ML ジョブはノード数・投入件数に不釣り合いなエネルギー消費を示す**: [[@2024__ICPADS__Generic and ML Workloads in an HPC Datacenter]] は SURF Lisa(338 ノード)で、ML ジョブがノード数 15%・投入件数 9% に対してエネルギー消費 39% を占めることを実測した。これは GPU TDP が CPU TDP より大幅に高い設計に起因する。GPU ノードのラック合計 TDP(CPU 1,050 W + GPU 5,600 W = 6,650 W)が冷却設計容量(5,500 W)を恒常的に超過するという構造的問題も観測された。HPC データセンターを GPU ノードで拡張するとき、電力・冷却の設計余裕を最初から ML ワークロード向けに引き上げる必要があることを示す。(Source: [[@2024__ICPADS__Generic and ML Workloads in an HPC Datacenter]]) - **エネルギーの約 50% が未完了ジョブに費やされるという知見は HPC と LLM 訓練クラスタで共鳴する**: [[@2024__ICPADS__Generic and ML Workloads in an HPC Datacenter]] は SURF Lisa で投入件数の多数が完了する一方、ランタイムとエネルギーでは失敗・タイムアウト・メモリ不足・ノード障害の合計が約 50% を占めると示した。同様の測定原則は LLM 訓練クラスタ研究でも繰り返される — [[GPUクラスタ運用]] の横断的知見として整理されたとおり、「失敗ジョブのコストは件数より GPU 時間で測るべき」という原則はさまざまな規模・用途のクラスタで確認されている。HPC の科学計算/ML 混在という文脈でも同じ原則が成立する。(Source: [[@2024__ICPADS__Generic and ML Workloads in an HPC Datacenter]]) - **並行実行ジョブの終了状態相関は、ハードウェア障害が複数ジョブに同時波及することを示す有用な診断シグナルになり得る**: [[@2024__ICPADS__Generic and ML Workloads in an HPC Datacenter]] は高負荷時に同一ノードで並行実行中のジョブが同じ終了状態になる傾向(NODE_FAIL: 汎用 0.94、ML 0.75)を Pearson 相関で定量化した。これは従来の HPC トレース研究が個別ジョブ単位または個別ノード単位で見ていた障害を、**ジョブ-ノード結合視点**で測ることで初めて見えるシグナルだ。FAILED の汎用(0.74)/ML(0.37)の差は、汎用ジョブが GPU ノードと比べてより密集したメモリ/コア共有構成を持つことを反映している可能性がある。(Source: [[@2024__ICPADS__Generic and ML Workloads in an HPC Datacenter]]) ## 未解決の問い - 本研究は SURF Lisa(338 ノード)という中規模学術・研究 HPC の観察だ。GPU ノード比率が高い大規模産業 HPC や、A100/H100 世代のより新しいクラスタでも同様の ML/汎用エネルギー比率・障害パターン比率が成立するか。 - ML ジョブを「torch/cuda を使う」と一括分類しているが、訓練 vs. 推論・科学ドメイン(気候・創薬等) vs. 汎用 AI・大規模 vs. 小規模訓練でサブカテゴリ別の特性差はどれほどあるか。 - 並行ジョブ終了状態相関(観察 11)はプライバシー制約で「同一ユーザー同時投入」の仮説を検証できなかった。ユーザー情報なしに HW 起因と行動起因の相関を分離できるか。 - ジョブ投入前の静的チェック(小規模プロービングラン・プロファイリング)でタイムアウト・OOM を事前に検出し、未完了ジョブのエネルギー浪費を削減できるか。 - GPU ノードの冷却設計容量超過(6,650 W vs. 5,500 W)は熱スロットリングを引き起こし、実効計算性能を下げる可能性がある。物理位置(GPU0〜GPU3 の位置差異)を考慮したスケジューリングで、スロットリングを抑えつつ MFU を改善できるか。 ## 関連 - ソース: [[@2024__ICPADS__Generic and ML Workloads in an HPC Datacenter]] - エンティティ: [[Xiaoyu Chu]] / [[Alexandru Iosup]] / [[SURF]] / [[Ivona Brandic]] / [[Vrije Universiteit Amsterdam]] - 概念: [[GPUクラスタ運用]] / [[GPUクラスタスケジューリング]] - 関連 MOC: [[HPC - MOC]] / [[分散深層学習 - MOC]] ## 出典 - [[@2024__ICPADS__Generic and ML Workloads in an HPC Datacenter]](§II-VI, 表I-VI, 図1-10: SURF Lisa の ML/汎用ワークロード比較分析全体)