## Memo ## Memo with LLM ## Abstract 大規模な深層学習訓練は計算資源集約的で時間がかかり、数百から数千のGPUで数週間から数ヶ月間実行されることが多い。効率的なチェックポインティングは、特に計算資源が共有され、ジョブの先取りや中断が一般的なマルチテナント環境において、これらのワークロードを実行するために重要である。しかし、透明で統一されたGPUスナップショットは、メモリサブシステム、動的並列性、スレッド同期など、CPUとGPUのハードウェアアーキテクチャの違いにより特に困難である。最先端のGPUチェックポインティング技術は通常、デバイスAPIコールを傍受、記録、再生するメカニズムを活用している。しかし、このアプローチはパフォーマンスオーバーヘッドを追加し、テスト、保守、既存のコンテナプラットフォームとの統合が困難なハードウェア固有の実装を必要とする。本論文では、最近導入されたドライバー機能に基づき、[[CUDA]]とROCmアプリケーションのサポートを可能にするGPU加速ワークロードの透明チェックポインティングのための新しいアプローチであるCRIUgpuを紹介する。評価結果によると、CRIUgpuは複数のGPUで実行される様々な深層学習と高性能計算ワークロードで動作し、定常状態のパフォーマンスオーバーヘッドを完全に排除し、最先端の透明GPUチェックポインティングメカニズムと比較して復旧時間を大幅に短縮する。