# Sokovan
[[Backend.AI]] のオーケストレーション層。From Detection to Recovery 論文では、GPU を主資源とするセッション配置、NUMA-aware 配置、60 ノード訓練のギャングスケジューリングを担う。60 ノードジョブでは全ノードを同時確保する all-or-nothing 制約があり、予備ノードが単一ノードセッションで占有されると自動リトライが失敗または遅延する。
## 関連
- システム: [[Backend.AI]]
- 概念: [[GPUクラスタスケジューリング]] / [[GPUクラスタ運用]]
- ソース: [[@2026__arXiv__From Detection to Recovery - Operational Analysis on LLM Pre-training with 504 GPUs]]