[[LLM学習中の計算機効率と障害]]より、計算機資源を余すことなく効率的に利用すること、故障が発生しても学習速度(スループット)の低下を最小化することに、努力が重ねられてきている。 実行効率については、不適切なバッチサイズ、ホストとGPU間のデータ転送、モデルのチェックポインティング 以下の問いを実証研究にて確認する。 - 計算機利用効率はどの程度か? - 計算機利用効率が低下するトリガーと根本原因はなにか? - 故障による学習進捗の損失はどの程度か? - 故障の種類とトリガー、根本原因はどのようなもので、その回数、頻度はどの程度か? ## トップライン 計算機観点でのLLMトレーニングの目的変数である学習速度を計測する ## ファシリティレベル - メトリクス - 温度、湿度 - 電力消費 ## クラスタレベル - クラスタ管理システムのジョブ単位での追跡 - 複数ノード横断のプロファイリング ## ノードレベル CPU、メモリ、ディスク、ネットワーク、GPU。 コンテナ。 メトリクス、ログ トリガーや処理内容の内訳を知るために、プロファイリング ネットワークI/OとストレージI/O