# GPUクラスタ運用
## 定義
GPUクラスタ運用は、LLM 訓練を含む AI ワークロードを多数の GPU ノード上で scheduling・監視・障害対応しながら走らせる営みと、その過程で観測される **ワークロード動態**(workload dynamics)——ジョブのサイズ分布・実行時間分布・cancellation/failure の比率・資源利用率・プロジェクト進行に伴うフェーズ遷移・障害(fault)の発生と復旧——の総称。[[2026__MLSys2026__SAKURAONE - An Open Ethernet-Based AI HPC System]] は単一テナント・単一プロジェクトの LLM 開発(continued pretraining + fine-tuning)を 800 GPU クラスタで排他運用し、Slurm/telemetry ログからこれらの動態を定量化する(§7)。中心的観測は「小規模ジョブが件数を支配し、少数の大規模ジョブが GPU 時間の大半を占める」long-tail 構造と、「大規模 CPT → 中規模 fine-tuning」という資源利用のフェーズ遷移である。
## 横断的知見
- (2 ソース目以降で育てる。現時点は単一ソースだが、論文自身が Jeon 2019 / Kokolis 2025 / [[2024__NSDI__MegaScale - Scaling Large Language Model Training to More Than 10,000 GPUs]] と突き合わせている点は下記「未解決の問い」に整理。)
## 未解決の問い
- **long-tail 構造は規模・テナンシーを越えて普遍か**: [[2026__MLSys2026__SAKURAONE - An Open Ethernet-Based AI HPC System]] §7.2 は「件数の 76.9% が単一ノードだが、17 ノード以上が GPU 時間の 73.3% を消費」と報告し、hyperscale multi-tenant(Jeon 2019, Kokolis 2025)と同じ歪み(tenancy-independent finding §8.6)だと論じる。800 GPU の単一テナントでこの構造が再現することは、[[LLM分散学習]] の MegaScale(12,288 GPU)・Vicinagearth survey の運用観察とどこまで定量的に一致するか。
- **cancellation 支配は LLM 開発に固有か**: GPU 時間の 73.5% が user-initiated cancellation(loss curve を見て早期終了する適応的制御)で、FAILED は GPU 時間の 0.3% のみ(§7.2 Obs.1)。これは batch 指向の伝統的 HPC とは異なる interactive AI workflow の性質とされる。MegaScale 等の本番 run でも同様の cancellation 比率が出るか、scheduler はこれをどう前提化すべきか(checkpoint-based preemption §8.5)。
- **障害分布の規模依存**: 3 ヶ月 21 件の fault は GPU 関連が 42.9% で最多、大半は node-level restart で数分復旧(§7.2 Obs.6)。これは [[LLM分散学習]] が記録する「LLaMA3 で障害の 78% が hardware 起因」「Alibaba で 1,000 GPU 規模 84.8%/日」や MegaScale の「数週間で 100 回超の自動復旧」と、800 GPU 規模でどう連続するか。MTTF/MTTR は記録精度不足で SAKURAONE は非報告。
- **フェーズ遷移を前提にした elastic scheduling**: 大規模 CPT → 中規模 fine-tuning の遷移(§7.2 Obs.5)は静的資源割当の最適性を否定する。フェーズに応じた cluster 構成の動的再配分を、単一テナントでどう実装するか。
## 関連
- ソース: [[2026__MLSys2026__SAKURAONE - An Open Ethernet-Based AI HPC System]]
- エンティティ: [[SAKURAONE]] / [[SAKURA Internet]]
- 概念: [[LLM分散学習]](Reliability/fault tolerance と重なる) / [[並列化戦略]] / [[オープンネットワーキング]]
- 弱い接点(別ドメイン): [[テレメトリ]] / [[Fault Localization]](運用 telemetry・障害診断の語彙)
- 関連 MOC: [[HPC - MOC]] / [[分散深層学習 - MOC]]
## 出典
- [[2026__MLSys2026__SAKURAONE - An Open Ethernet-Based AI HPC System]](§7 Observations:Obs.1–7, §8.3 Workload Dynamics, §8.4 Temporal Transition, §8.5 Scheduling Implications, §8.6 Positioning)