## Memo ## Memo with LLM ## Abstract [[GPU]]は計算集約的なタスクに大幅なスピードアップをもたらす一方で、そのプログラミングの難しさは悪名高い。 プログラミングモデルからマイクロアーキテクチャの特殊性に至るまで、プログラマーは多くの落とし穴に遭遇する可能性があります。 数多くの性能解析ツールが、コンピュート・カーネルの効率に関する有用なデータを提供しているが、プログラマがデバイス上で直接、効率的に実行時情報を収集し、最適化すべき部分を特定できるものはほとんどない。 本稿では、GPU固有の並列動作を利用し、トレースフェーズを区分化することで、他のアプローチと比較してオーバーヘッドを削減しながら、コンピュートカーネルの実行中にトレースを収集するインスツルメンテーション手法を提案します。 リファレンス実装は自由に利用可能であり、一般的な科学計算ベンチマークで平均1.6倍、カーネル実行時間で1.5倍のオーバーヘッドを引き起こします。 これは類似の研究と比較して1桁の改善であり、タイミングを考慮した最適化に有用である。 このツールは、カーネルのパフォーマンス問題をよりよく理解するために分析できる、洞察に満ちた実行トレースとタイムスタンプを生成します。