SuperBench - yuuk1's Digital Garden

# SuperBench [[Microsoft]] が開発し [[Microsoft Azure]] 本番に 2 年以上デプロイされている、GPU クラスタ向け**プロアクティブ検証システム**。包括的ベンチマーク群、CDF 類似度ベースの基準学習を行う **Validator**、Cox-Time モデルでインシデント確率を予測しベンチマーク部分集合を選ぶ **Selector** からなる(詳細は [[@2024__USENIX ATC__SuperBench - Improving Cloud AI Infrastructure Reliability with Proactive Validation]]、ATC '24 Best Paper)。ベンチマーク群はリポジトリ [microsoft/superbenchmark](https://github.com/microsoft/superbenchmark) で OSS 化されており、AMD Instinct や PyTorch Foundation/ROCm の文脈でも標準として参照される(論文 §1)。Azure 本番では 24k+ A100 GPU(3k+ VM)に対するビルドアウト検証で 10.36% のノードを欠陥として除外、シミュレーションで [[MTBI]] を未検証比 22.61× に伸ばすと報告されている。 ## 構成 - **ベンチマーク群**(Table 2): GPU compute(GEMM、cuBLAS/cuDNN kernels、GPU burn)、Communication(NVLink/IB all-reduce、H2D/D2H)、Compute/Comm overlap、Disk IO(FIO)、Networking(All-pair RDMA verbs、GPU collective)、end-to-end(ResNet/DenseNet/VGG/LSTM/BERT/GPT-2、long-running stress)。 - **Validator**: 経験 CDF 上の片側距離で基準と比較し閾値 $\alpha$ で欠陥を判定。 - **Selector**: Cox-Time + 貪欲法($O(n^2)$)で単位時間あたりの確率減少を最大化する部分集合を選択。 - **Networking 高速化**: Full Scan $O(n)$(round-robin tournament の circle method)と Quick Scan $O(1)$($k$-tier fat-tree で hop ごとに 1 ラウンド)。 ## 関連 - ソース: [[@2024__USENIX ATC__SuperBench - Improving Cloud AI Infrastructure Reliability with Proactive Validation]] - 概念: [[プロアクティブ検証]] / [[グレイ障害]] / [[GPUクラスタ運用]] / [[GPUレジリエンス]] - 提供者: [[Microsoft]] / [[Microsoft Azure]] - 著者: [[Yifan Xiong]] / [[Yuting Jiang]] / [[Ziyue Yang]] / [[Lei Qu]] / [[Peng Cheng]] / [[Yongqiang Xiong]] / [[Lidong Zhou]]