2025__arXiv__Measuring GPU utilization one level deeper

## Memo ## Memo with LLM ## Abstract [[GPU]]ハードウェアは圧倒的に十分に活用されていない。リソースを大量に消費するAIアプリケーションでさえ、多様なリソース・プロファイルを持っており、GPUの一部がアイドル状態になることがよくあります。アプリケーションをコロケーションすることで利用率を向上させることはできますが、現在の空間共有システムには性能保証がありません。予測可能な性能保証を提供するには、ブロックスケジューラ、コンピュートユニット、L1/L2キャッシュ、メモリ帯域幅などの共有GPUリソースをアプリケーションがどのように競合するかを深く理解する必要があります。我々は、これらの次元にわたるGPUカーネルのリソース干渉をプロファイルする手法を提案し、コストを最小化するためにアプリケーションをコロケーションしながら、厳格な性能保証を提供するGPUスケジューラを構築する方法について議論します。