ByteRobust - yuuk1's Digital Garden

# ByteRobust [[ByteDance]] が開発し、本番 GPU クラスタで 1 年以上稼働する LLM 訓練特化の GPU インフラ管理・障害許容システム。障害の検知・箇所特定・復旧を定常運用化し、ETTR(Effective Training Time Ratio、生産的訓練時間と総経過時間の比)の最大化を最優先する。9,600 GPU・3 か月の密モデル訓練ジョブで最大 97% の ETTR を達成した。(Source: [[@2025__SOSP__Robust LLM Training Infrastructure at ByteDance]]) 構成: - **コントロールプレーン**(ジョブ外で稼働): Robust Controller(自動障害緩和のオーケストレーション、in-place hot-update、warm standby 起動)と Runtime Analyzer(スタックトレース集約による並列グループ単位の過剰排除)。 - **データプレーン**(各 pod 内の Robust Agent): Monitor / Diagnoser / On-Demand Tracer / CKPT Manager。特徴: - 設計哲学は「正確な箇所特定よりも迅速な隔離」。軽量リアルタイム検知+階層的停止時診断に加え、ランタイムスタックトレースのデータ駆動クラスタリングで過剰排除(over-eviction)する。 - 人的エラーを設計に織り込み、lazy hot-update でユーザコード変更をまとめて適用する。 - warm standby と hot-update が復旧を最大 10.87×・11.04× 高速化、毎ステップチェックポイントのオーバーヘッドは 0.9% 未満。 - 実装: Robust Controller 約 20k 行 Golang、Robust Agent 約 5k 行 Python、Runtime Analyzer 約 12k 行 Golang。 [[MegaScale]]([[ByteDance]] の 10,000 GPU 超訓練システム)が RDMA トラフィック異常検知後に手動調査を要するのに対し、ByteRobust は疑わしいマシンの自動隔離まで踏み込む。(Source: [[@2025__SOSP__Robust LLM Training Infrastructure at ByteDance]] §10) ## 関連 - ソース: [[@2025__SOSP__Robust LLM Training Infrastructure at ByteDance]] - 概念: [[LLM分散学習]] / [[LLM学習モニタリング]] / [[GPUクラスタ運用]] / [[Fault Localization]] / [[障害緩和]] - エンティティ: [[ByteDance]] / [[MegaScale]]