[大規模言語モデルの事前学習知見を振り返る](https://zenn.dev/turing_motors/articles/0f5ac6840f66fe)
> それでも最悪の場合はGPU不良により99iteration分の進捗が無駄になる可能性があります。
上述のようなハードウェア故障だけでなく、Loss Spikeが発生する可能性もあるため、誰かが学習状況を監視する必要があったと報告しています。
> ノード不良が発生していないか監視する自動スクリプトを整備したため、24時間 誰かが監視していなくてはならないような状態からは脱却していました。しかし、すべてを自動化することはできないため、実験担当者であった私が問題が起こるたびに不良ノードの特定や、jobの流し変えを行っていました。
> 睡眠時間が削られるだけでなく、気分も休まらなくなるので、同様の実験を行なう方はお気をつけください。Slackにエラーや問題を検知すると通知がいくようにしていたので、Slackの通知に怯えながら生活していました。