2024__TOPC__Low-Overhead Trace Collection and Profiling on GPU Compute Kernels

## Memo ## Memo with LLM ## Abstract [[GPU]]は計算集約的なタスクに大幅なスピードアップをもたらす一方で、そのプログラミングの難しさは悪名高い。プログラミングモデルからマイクロアーキテクチャの特殊性に至るまで、プログラマーは多くの落とし穴に遭遇する可能性があります。数多くの性能解析ツールが、コンピュート・カーネルの効率に関する有用なデータを提供しているが、プログラマがデバイス上で直接、効率的に実行時情報を収集し、最適化すべき部分を特定できるものはほとんどない。本稿では、GPU固有の並列動作を利用し、トレースフェーズを区分化することで、他のアプローチと比較してオーバーヘッドを削減しながら、コンピュートカーネルの実行中にトレースを収集するインスツルメンテーション手法を提案します。リファレンス実装は自由に利用可能であり、一般的な科学計算ベンチマークで平均1.6倍、カーネル実行時間で1.5倍のオーバーヘッドを引き起こします。これは類似の研究と比較して1桁の改善であり、タイミングを考慮した最適化に有用である。このツールは、カーネルのパフォーマンス問題をよりよく理解するために分析できる、洞察に満ちた実行トレースとタイムスタンプを生成します。