[[LLM学習中の計算機効率と障害]]より、計算機資源を余すことなく効率的に利用すること、故障が発生しても学習速度(スループット)の低下を最小化することに、努力が重ねられてきている。
実行効率については、不適切なバッチサイズ、ホストとGPU間のデータ転送、モデルのチェックポインティング
以下の問いを実証研究にて確認する。
- 計算機利用効率はどの程度か?
- 計算機利用効率が低下するトリガーと根本原因はなにか?
- 故障による学習進捗の損失はどの程度か?
- 故障の種類とトリガー、根本原因はどのようなもので、その回数、頻度はどの程度か?
## トップライン
計算機観点でのLLMトレーニングの目的変数である学習速度を計測する
## ファシリティレベル
- メトリクス
- 温度、湿度
- 電力消費
## クラスタレベル
- クラスタ管理システムのジョブ単位での追跡
- 複数ノード横断のプロファイリング
## ノードレベル
CPU、メモリ、ディスク、ネットワーク、GPU。
コンテナ。
メトリクス、ログ
トリガーや処理内容の内訳を知るために、プロファイリング
ネットワークI/OとストレージI/O