## Memo
## Memo with LLM
## Abstract
[[GPU]]ハードウェアは圧倒的に十分に活用されていない。 リソースを大量に消費するAIアプリケーションでさえ、多様なリソース・プロファイルを持っており、GPUの一部がアイドル状態になることがよくあります。 アプリケーションをコロケーションすることで利用率を向上させることはできますが、現在の空間共有システムには性能保証がありません。 予測可能な性能保証を提供するには、ブロックスケジューラ、コンピュートユニット、L1/L2キャッシュ、メモリ帯域幅などの共有GPUリソースをアプリケーションがどのように競合するかを深く理解する必要があります。 我々は、これらの次元にわたるGPUカーネルのリソース干渉をプロファイルする手法を提案し、コストを最小化するためにアプリケーションをコロケーションしながら、厳格な性能保証を提供するGPUスケジューラを構築する方法について議論します。