2023__arXiv__Unicron - Economizing Self-Healing LLM Training at Scale

## Memo - Alibabaによる[[GPT-3]]訓練の - Fig. 2 ![[Pasted image 20240910222313.png]] > 図2は、Megatronフレームワーク内の256台のNVIDIA H800 GPUを活用した、Alibaba Cloud上でのGPT-3トレーニング演習中のエラー発生時の回復の分岐経路を示している。過渡故障は全エラーの73%を占め、通常、システムを再始動することで改善可能であるが、回復の軌跡は、全削減通信タイムアウトに起因する、最大30分のシステムハングを含む可能性がある。この遅延は、タスクの終了と、タスクの再送信のための9分間の待ち、環境とCUDA設定のための14 分間のスパン、および最終的な15分間の再計算フェーズを含む一連のステップに続く。この結果、68分のダウンタイムが発生する。逆に、ハードウェアの故障は、37%のケースでノードの排水の必要性を促進し、より多くのトレーニング再開前の手動故障識別、ノードの排水、Megatron の構成のダウンスケーリング、チェックポイントの再調整を伴う、労力集約的な回復。この手作業は、「中断された」状態を数時間から数日間拡張し、システムを能力が低下した「不健康な」状態に追いやることができる。 Research Question > the essence lies not in sustaining training processes through failures but in economizing the entire training to minimize lost throughput. ![[Pasted image 20241010225204.png|600]] ## Memo with LLM ## Abstract 大規模な言語モデルのトレーニングは、様々な領域でますます重要になっているが、頻繁な障害によって妨げられ、多大な時間と経済的コストが発生する。クラウドベースの環境における現在の障害回復手法は、クラスターへの全体的なコストインパクトを考慮することなく、個々のタスクのダウンタイムを消去することに焦点を絞っており、発生する多様で複雑なシナリオへの対応が不十分である。我々は、大規模な言語モデル学習における効率的な自己回復のために設計されたワークロードマネージャであるUnicronを紹介する。 Unicronは、クラスタ内の複数の並行タスクにまたがる障害関連コストを最小化することで、学習プロセスを最適化する。 Unicronの主な特徴としては、余分なオーバーヘッドなしにリアルタイムでエラーを識別するための帯域内エラー検出、最適な再構成のための動的なコスト認識プラン生成メカニズム、状態変更時のダウンタイムを削減するための効率的な遷移戦略などが挙げられます。 128GPUの分散クラスタ上に配置されたUnicronは、最新の手法と比較して最大1.9倍のトレーニング効率の向上を実証し、障害回復コストを大幅に削減し、大規模な言語モデルトレーニングの信頼性を向上させます。