# Cassini [[Sudarsanan Rajasekaran]]・[[Manya Ghobadi]](MIT)・[[Aditya Akella]](UT Austin)が NSDI 2024 で発表した機械学習クラスタ向けネットワーク対応ジョブスケジューラ。ソースコードは http://cassini.csail.mit.edu で公開。 ## 概要 Cassini は既存 ML スケジューラ(Themis / Pollux)へのプラグインモジュールとして動作し、ジョブの通信パターン互換性に基づいて GPU 配置を決定し、タイムシフトを挿入することでネットワーク輻輳を抑制する。 ## 核心技術 1. **幾何抽象化**: 訓練イテレーション時間を周長とする円にネットワーク需要を巻きつける。異なるイテレーションの Up/Down フェーズが同じ角度に重なる性質を利用する 2. **互換性スコア**: 複数ジョブを統一円に重ね、円を回転させたときの超過帯域幅を最小化する最適化問題で定義。score = 1 が完全互換、負値が高度非互換 3. **Affinity グラフ**: ジョブと競合リンクからなる二部グラフ。BFS 走査によりクラスタ規模で一意なタイムシフトを割り当てる(Theorem 1: 正確性・一意性保証) 4. **プラグイン設計**: 配置候補 N 件を評価し互換性上位の配置を選択。GPU 割り当て数・ハイパーパラメータには介入しない ## 評価 - 24 台 A100 テストベッド、13 DNN モデル(VGG/ResNet/BERT/GPT/DLRM 系) - Themis 比: 平均反復時間 1.6×、99 パーセンタイルテール 2.5× 改善 - ECN マーク数: 最大 33× 削減 ## 関連 - ソース: [[@2024__NSDI__Cassini Network-Aware Job Scheduling in Machine Learning Clusters]] - 著者: [[Sudarsanan Rajasekaran]] / [[Manya Ghobadi]] / [[Aditya Akella]] - 概念: [[ネットワーク対応スケジューリング]] / [[GPUクラスタスケジューリング]] / [[集合通信]] - 統合先スケジューラ: Themis(NSDI 2020) / Pollux(OSDI 2021)