# GPUクラスタ運用 ## 定義 GPUクラスタ運用は、LLM 訓練を含む AI ワークロードを多数の GPU ノード上で scheduling・監視・障害対応しながら走らせる営みと、その過程で観測される **ワークロード動態**(workload dynamics)——ジョブのサイズ分布・実行時間分布・cancellation/failure の比率・資源利用率・プロジェクト進行に伴うフェーズ遷移・障害(fault)の発生と復旧——の総称。[[2026__MLSys2026__SAKURAONE - An Open Ethernet-Based AI HPC System]] は単一テナント・単一プロジェクトの LLM 開発(continued pretraining + fine-tuning)を 800 GPU クラスタで排他運用し、Slurm/telemetry ログからこれらの動態を定量化する(§7)。中心的観測は「小規模ジョブが件数を支配し、少数の大規模ジョブが GPU 時間の大半を占める」long-tail 構造と、「大規模 CPT → 中規模 fine-tuning」という資源利用のフェーズ遷移である。 ## 横断的知見 - (2 ソース目以降で育てる。現時点は単一ソースだが、論文自身が Jeon 2019 / Kokolis 2025 / [[2024__NSDI__MegaScale - Scaling Large Language Model Training to More Than 10,000 GPUs]] と突き合わせている点は下記「未解決の問い」に整理。) ## 未解決の問い - **long-tail 構造は規模・テナンシーを越えて普遍か**: [[2026__MLSys2026__SAKURAONE - An Open Ethernet-Based AI HPC System]] §7.2 は「件数の 76.9% が単一ノードだが、17 ノード以上が GPU 時間の 73.3% を消費」と報告し、hyperscale multi-tenant(Jeon 2019, Kokolis 2025)と同じ歪み(tenancy-independent finding §8.6)だと論じる。800 GPU の単一テナントでこの構造が再現することは、[[LLM分散学習]] の MegaScale(12,288 GPU)・Vicinagearth survey の運用観察とどこまで定量的に一致するか。 - **cancellation 支配は LLM 開発に固有か**: GPU 時間の 73.5% が user-initiated cancellation(loss curve を見て早期終了する適応的制御)で、FAILED は GPU 時間の 0.3% のみ(§7.2 Obs.1)。これは batch 指向の伝統的 HPC とは異なる interactive AI workflow の性質とされる。MegaScale 等の本番 run でも同様の cancellation 比率が出るか、scheduler はこれをどう前提化すべきか(checkpoint-based preemption §8.5)。 - **障害分布の規模依存**: 3 ヶ月 21 件の fault は GPU 関連が 42.9% で最多、大半は node-level restart で数分復旧(§7.2 Obs.6)。これは [[LLM分散学習]] が記録する「LLaMA3 で障害の 78% が hardware 起因」「Alibaba で 1,000 GPU 規模 84.8%/日」や MegaScale の「数週間で 100 回超の自動復旧」と、800 GPU 規模でどう連続するか。MTTF/MTTR は記録精度不足で SAKURAONE は非報告。 - **フェーズ遷移を前提にした elastic scheduling**: 大規模 CPT → 中規模 fine-tuning の遷移(§7.2 Obs.5)は静的資源割当の最適性を否定する。フェーズに応じた cluster 構成の動的再配分を、単一テナントでどう実装するか。 ## 関連 - ソース: [[2026__MLSys2026__SAKURAONE - An Open Ethernet-Based AI HPC System]] - エンティティ: [[SAKURAONE]] / [[SAKURA Internet]] - 概念: [[LLM分散学習]](Reliability/fault tolerance と重なる) / [[並列化戦略]] / [[オープンネットワーキング]] - 弱い接点(別ドメイン): [[テレメトリ]] / [[Fault Localization]](運用 telemetry・障害診断の語彙) - 関連 MOC: [[HPC - MOC]] / [[分散深層学習 - MOC]] ## 出典 - [[2026__MLSys2026__SAKURAONE - An Open Ethernet-Based AI HPC System]](§7 Observations:Obs.1–7, §8.3 Workload Dynamics, §8.4 Temporal Transition, §8.5 Scheduling Implications, §8.6 Positioning)