Sokovan - yuuk1's Digital Garden

# Sokovan [[Backend.AI]] のオーケストレーション層。From Detection to Recovery 論文では、GPU を主資源とするセッション配置、NUMA-aware 配置、60 ノード訓練のギャングスケジューリングを担う。60 ノードジョブでは全ノードを同時確保する all-or-nothing 制約があり、予備ノードが単一ノードセッションで占有されると自動リトライが失敗または遅延する。 ## 関連 - システム: [[Backend.AI]] - 概念: [[GPUクラスタスケジューリング]] / [[GPUクラスタ運用]] - ソース: [[@2026__arXiv__From Detection to Recovery - Operational Analysis on LLM Pre-training with 504 GPUs]]