[[2024__arXiv__Efficient Training of Large Language Models on Distributed Infrastructures - A Survey]]より転記。 > Acme [23]によると、最も深刻な影響は、GPU(例:CUDA-Error、ECC-Error)、[[NVLink]]、ネットワークシステム(例:NCCL-Timeout -Error、Connection-Error)の問題などのハードウェア障害に起因する。 > > 同様の観察は、Alibaba C4 [377]でも行われている。C4はさらに、エラーの大部分(約82.5%)は特定のノード、あるいは 個々のデバイスに限定されていることを観察しているが、ユ ーザーが観察するエラーのほとんどはNCCLエラーである。 > > LLaMA3の事前学習[9]でも、失敗の78%がハードウェアの問題で あると報告されている。 > > 最新世代の GPU(A100 と H 100)は、急速な開発、急速な配送、消費電力の増加 [377], [399] に起因すると思われる高いエラー率を示す傾向がある。 > > ハードウェアだけでなく、分散学習フレームワーク、データ 前処理パイプライン、またはライブラリ依存性におけるソフ トウェア関連の問題は、クラッシュや予期せぬ動作につなが る可能性がある [23], [378], [399]。 > > モデル自体の複雑な 性質は、損失スパイク、数値オーバーフローやアンダーフロ ー、勾配爆発、最適化の困難さなどの不安定性を導入する可 能性がある[398]、[400]。 > > クラスタサーバルームの温度が高いと、GPU が過熱する傾向があり、NVLink-Error や ECC-Er ror [23]、あるいは学習速度が不安定になる [9]。(LLaMA3) > --- [[2023__arXiv__Unicron - Economizing Self-Healing LLM Training at Scale]]より転載。 ![[Pasted image 20240910222052.png|500]]