## Memo ## Memo with LLM ## Abstract 機械学習の急速な進歩には、トレーニングのための大きなコンピューティング・パワーとメモリが必要だが、これは現在では大企業にしかアクセスできない。 アカデミックのような小規模なプレイヤーは、ローカルにコンシューマーグレードの[[GPU]]クラスタしか持っていないことが多く、クラウドGPUインスタンスを限られた範囲で利用する余裕があります。 しかし、このようなマルチクラスタ環境では、トレーニング性能は著しく低下します。 本論文では、トレーニングを高速化するユニークな機会を特定し、マルチクラウド環境において最適に近いトレーニング速度を達成する全体的なフレームワークであるStellaTrainを提案する。 StellaTrainは、モデル学習における時間対精度を最小化するために、加速技術の組み合わせを動的に適応させる。 StellaTrainは、キャッシュを考慮した勾配圧縮やCPUベースのスパースオプティマイザといった新しいアクセラレーション技術を導入することで、GPUの利用率を最大化し、トレーニングパイプラインを最適化します。 最適化されたパイプラインにより、StellaTrainは総トレーニング時間を最適化するためにトレーニング構成を総合的に決定します。 我々は、StellaTrainが、変動する動的なネットワーク帯域幅に学習設定を適応させることで、クラスタ間の設定において、PyTorch DDPと比較して最大104倍の高速化を達成することを示す。 StellaTrainは、系統的な最適化により、不足するネットワーク帯域幅に対応できることを示し、100Mbpsと500Mbpsのネットワーク帯域幅において、それぞれ最大257.3倍と78.1倍の高速化を達成した。 最後に、StellaTrainはオンプレミスクラスターとクラウドクラスターを使用した効率的な協調学習を可能にし、28.9%の学習時間の短縮と合わせて64.5%のコスト削減を実現しました。