## Memo
- Alibabaによる[[GPT-3]]訓練の
- Fig. 2
![[Pasted image 20240910222313.png]]
> 図2は、Megatronフレームワーク内の256台のNVIDIA H800 GPUを活用した、Alibaba Cloud上でのGPT-3トレーニング 演習中のエラー発生時の回復の分岐経路を示している。過 渡故障は全エラーの73%を占め、通常、システムを再始動 することで改善可能であるが、回復の軌跡は、全削減通信 タイムアウトに起因する、最大30分のシステムハングを含 む可能性がある。この遅延は、タスクの終了と、タスクの 再送信のための9分間の待ち、環境とCUDA設定のための14 分間のスパン、および最終的な15分間の再計算フェーズを 含む一連のステップに続く。この結果、68分のダウンタイ ムが発生する。逆に、ハードウェアの故障は、37%のケー スでノードの排水の必要性を促進し、より多くのトレーニング再開前の手動故障識別、ノードの排水、Megatron の構成のダウンスケーリング、チェックポイントの再調整を伴 う、労力集約的な回復。この手作業は、「中断された」状態を 数時間から数日間拡張し、システムを能力が低下した「不健康 な」状態に追いやることができる。
Research Question
> the essence lies not in sustaining training processes through failures but in economizing the entire training to minimize lost throughput.
![[Pasted image 20241010225204.png|600]]
## Memo with LLM
## Abstract
大規模な言語モデルのトレーニングは、様々な領域でますます重要になっているが、頻繁な障害によって妨げられ、多大な時間と経済的コストが発生する。 クラウドベースの環境における現在の障害回復手法は、クラスターへの全体的なコストインパクトを考慮することなく、個々のタスクのダウンタイムを消去することに焦点を絞っており、発生する多様で複雑なシナリオへの対応が不十分である。 我々は、大規模な言語モデル学習における効率的な自己回復のために設計されたワークロードマネージャであるUnicronを紹介する。 Unicronは、クラスタ内の複数の並行タスクにまたがる障害関連コストを最小化することで、学習プロセスを最適化する。 Unicronの主な特徴としては、余分なオーバーヘッドなしにリアルタイムでエラーを識別するための帯域内エラー検出、最適な再構成のための動的なコスト認識プラン生成メカニズム、状態変更時のダウンタイムを削減するための効率的な遷移戦略などが挙げられます。 128GPUの分散クラスタ上に配置されたUnicronは、最新の手法と比較して最大1.9倍のトレーニング効率の向上を実証し、障害回復コストを大幅に削減し、大規模な言語モデルトレーニングの信頼性を向上させます。