@2024__arXiv__Microsecond-scale Dynamic Validation of Idempotency for GPU Kernels

# Microsecond-scale Dynamic Validation of Idempotency for GPU Kernels > [!abstract] 概要 > 我々は、GPUカーネルが入力に応じてべき等(idempotent)なインスタンスと非べき等なインスタンスの双方を持ち得ることを発見した。こうしたカーネルを条件付きべき等(conditionally-idempotent)と呼び、実世界のGPUアプリケーションに広く存在する(6アプリ547カーネル中490カーネル)。したがって、GPUカーネルをべき等か非べき等かのいずれかに分類する先行研究は、べき等性に基づくシステムの正しさや効率を著しく損ない得る。本論文は、インスタンス単位のべき等性検証を行う初のシステム PICKER を提示する。PICKER は、GPUカーネルインスタンスの実行前に、その起動引数(launch arguments)を用いてべき等性を動的に検証する。検証待ち時間をマイクロ秒スケールまで大幅に短縮するために、いくつかの最適化を提案する。代表的なGPUアプリケーション(合計547カーネル・18,217インスタンス)を用いた評価により、PICKER は偽陽性0・偽陰性率18.54%でべき等インスタンスを特定でき、すべてのインスタンスを5µs 以内に検証できることが示された。さらに、PICKER の統合により、耐障害システムはチェックポイントコストを4%未満へ削減でき、スケジューリングシステムはプリエンプション待ち時間を84.2%削減できる。既存の単一ソース詳細メモは [[papers/2024__arXiv__Microsecond-scale Dynamic Validation of Idempotency for GPU Kernels|PICKER 既存ノート]] を参照。 ## 論文情報 - 著者: Mingcong Han, Weihang Shen, Guanwen Peng, [[Rong Chen]], [[Haibo Chen]](責任著者は Rong Chen、[email protected])。 - 所属: [[Institute of Parallel and Distributed Systems]](IPADS), [[Shanghai Jiao Tong University]]。 - 公開: arXiv:2410.23661v1 [cs.OS], 2024年10月31日。 - 評価GPU: NVIDIA GV100(本文)。RTX 3080 でも同様の結果を確認したが紙幅の都合で省略(§7.1)。 ## 概要べき等(idempotency)なGPUカーネルは、実行が任意の時点で中断・再開されても同じ出力を生み、副作用を残さない。この性質は、障害復旧・タスクのプリエンプション・メモリ永続化など、GPUシステムの多くの性能ボトルネックの克服に有効だと示されてきた(§1, §2.1)。一方でべき等性に基づく最適化は、再実行の正しさを保つために実行前にカーネルのべき等性を正確に知る必要があり、(1) 非べき等カーネルをべき等と誤判定しない(偽陽性なし)正しさ(R1)と、(2) できるだけ多くのべき等関数を見つける(偽陰性が少ない)効率(R2)、さらに (3) 実行前に判定できる実用性(R0)が要求される(§2.1)。本論文の出発点は、GPUカーネルが起動引数(ポインタの値など)に応じてべき等にも非べき等にもなる「条件付きべき等」だという発見であり、カーネル単位でべき等性を固定する先行研究の前提が崩れることを示す。PICKER はこの条件付きべき等カーネルに対し、起動引数を用いてインスタンス単位のべき等性を実行前にマイクロ秒スケールで動的検証するシステムである(§1, §4)。 ## 問題設定 ### 条件付きべき等(conditional idempotency) GPUカーネルは通常、ホストプログラムから複数のポインタ引数を渡される。入力用と出力用のメモリが重なると、実行中に入力データが上書きされ、そのインスタンスは非べき等になりやすい。図1の vectorAdd カーネルがその例で、3つの相異なるポインタ(x, y, z)で起動されたインスタンスはべき等(入力 y, z が上書きされない)だが、引数 A と C が同じ値(x)を取るインスタンスは非べき等(入力ベクトルが実行中に変更される)になる。本論文はカーネル単位のべき等性を、全インスタンスがべき等な「べき等カーネル」、全インスタンスが非べき等な「非べき等カーネル」、一部のみべき等な「条件付きべき等カーネル」の3つに再分類する(§2.2)。 ### インスタンス単位検証の必要性先行研究[36, 37, 54] は静的解析やトレース解析でカーネルをべき等/非べき等に二分し、全インスタンスのべき等性は同一と仮定する。これは条件付きべき等カーネルの存在を見落とすため、(a) 条件付きべき等カーネルを純粋にべき等と扱うと偽陽性が生じて正しさ(R1)を損ない、(b) 純粋に非べき等と扱うとべき等最適化の適用率がおよそ90%低下して効率(R2)を損なう(§3)。一方で公開トレースでは大半のインスタンスが実際にはべき等であり(表2では18,217インスタンス中14,418=79.1%、条件付きべき等カーネルに限っても15,836中13,850=87.5%がべき等)、インスタンス単位で判定すれば正しさと効率を両立できる。ただしインスタンスのべき等性を正確に知るには実行が必要であり、実行前に知るという要件(R0)と矛盾する(§3)。 ## 提案手法 ### 起動引数を用いた動的検証著者らの核心的洞察は、大多数のインスタンスのべき等性が起動引数の値のみに依存する、という点である(486カーネルで引数のポインタ値を変えるだけで反対のべき等性を持つインスタンスを構成できた)。これにより、インスタンスが起動された後・実際の実行前に、起動引数だけからべき等性を検証できる(§3)。 PICKER は2コンポーネントからなる(図2)。オフラインで動く静的解析器(analyzer)が、GPUカーネルのバイナリ(NVIDIA GPU の SASS 命令)を記号実行(symbolic execution)で解析し、メモリアドレスを記号アドレス(symbolic address)として記録する。記号アドレスの変数はカーネルの引数・並列度パラメータ・ブロック/スレッドID からなる。実行時の検証器(validator)はこの記号アドレスと起動引数の具体値からアクセスアドレスを算出する。PICKER は問題を「インスタンスがアクセスするメモリアドレスの予測」へ帰着させ、読みと書きのアドレスに重なり(R/W overlap)が無ければべき等、重なりがあれば非べき等と判定する。順序を考慮しない保守的条件のため偽陰性は起こり得るが、偽陽性が無い(R1)ことを保証する(§4.1, §4.2)。記号実行が不完全フロー(間接関数呼び出し)や無限ループに遭遇した場合は、保守的に非べき等とみなす(§4.2)。 ### マイクロ秒化の最適化素朴な解(strawman)は全GPUスレッドのアドレスを列挙するため最大50ms かかり、要求される µs スケールより4桁遅い(§5)。検証待ち時間は記号アドレス数 NsymAddr、スレッド数 NThrd、1命令あたり計算時間 TInstr の積で見積もれるため、PICKER は3要素を個別に削減する。 - **NThrd の削減(範囲ベースアドレスモデル、§5.1)**: 同一 load/store 命令で各スレッドがアクセスするアドレスは連続することが多い(メモリコアレッシング)ため、上限・下限の範囲で表現する。さらにアドレス値がスレッドID に対し単調増加する性質(評価カーネルの記号アドレスの82%)を利用し、最小・最大スレッドID のみで範囲を算出する。単調性は SMT ソルバで検証し、成り立たない場合は部分式を新変数に置換して単調形へ変換する。これにより検証待ち時間が NThrd に依存しなくなる。 - **NsymAddr の削減(範囲コンパクション、§5.2)**: ループ内の load/store 命令が生む多数の記号アドレスを、ループ不変式と帰納変数(induction variable)の解析により1つに統合する。 - **TInstr の削減(コンパイル実行、§5.3)**: 記号式をインタプリタ評価せず、C言語のネイティブコードへ変換して動的共有ライブラリにコンパイルし、ループ展開・インライン化・共通部分式抽出などの最適化を適用する。 **Figure 1: 図** ![[_attachments/arxiv-2410.23661/fig1-figure.png]] (Figure 1. Simpliﬁed version of an idempotent GPU kernel, a non- idempotent GPU kernel, and a conditionally-idempotent GPU ker- nel を示す。) **Figure 2: アーキテクチャ** ![[_attachments/arxiv-2410.23661/fig2-architecture.png]] (Figure 2. PICKER and the workﬂow of using PICKER to correctly and efﬁciently run GPU kernels on idemp-based sys- tems のアーキテクチャを示す。) **Figure 3: 図** ![[_attachments/arxiv-2410.23661/fig3-figure.png]] (Figure 3. Pseudocode of dynamic idempotency validation を示す。) ## 新規性第一に、条件付きべき等GPUカーネルの存在と普遍性の発見、およびそれがべき等性に基づくシステムへ及ぼす影響の詳細な研究(§3)。第二に、カーネルをべき等/非べき等に二分する先行研究[22, 36, 37, 54] に対し、起動時のメモリアクセス重なり検査でインスタンス単位のべき等性を検証する手法と、それを µs スケールで実現する一連の最適化を提案した点。第三に、ソースコードではなくアセンブリ(SASS)を解析するため、cuDNN のようなクローズドソースや PyTorch のような動的生成カーネルにも適用できる本番レベルの実用性(§7)。関連研究では、ステートフルサーバレス関数のべき等性を静的に検証する Flux [19] や、静的解析でGPUカーネルのセキュリティを検証する Honeycomb [46] と対比される。GPUカーネルはベースアドレスが起動前に未知のポインタでメモリへアクセスするため、PICKER は静的でなく動的検証を選ぶ(§8)。 ## 実験設定 - 実装: 静的解析器 13K 行(Python)、実行時検証器 1K 行(C++)。記号実行エンジンは claripy と Z3 に基づく。NVIDIA Volta/Ampere ISA(GV100, RTX 3080)対応(§7冒頭)。 - テストベッド: Intel i7-13700 CPU、32GB DRAM、NVIDIA GV100。CUDA 11.4.2 / cuDNN 8.0 / Ubuntu 20.04 のコンテナ(§7.1)。 - ワークロード: GPUベンチマーク Rodinia と Parboil、DLフレームワーク TVM(v0.11.0)・PyTorch(v1.12.1)・TensorRT(v7.2.3.4)・FasterTransformer(v5.3, FT と略記)。DNNモデルは ResNet・DenseNet・VGG・Inception・MobileNet の推論、FT は GPT-2 推論を用いる(§7.1)。 - 規模: 合計547カーネル・18,217インスタンス(うち14,418がべき等)。静的解析の最大ループ展開回数は32(§4.2)。単調性検査の事前条件は各カーネル引数の観測最小・最大値で境界を設定(§5.1, §7.1)。 - べき等性のグラウンドトゥルース: GPU動的計装[73] によるトレースツールで実行中の全アクセスアドレスを記録し、clobber 反依存(同一アドレスへの先行 read-after-write なしの write-after-read)の有無で判定(§3)。 ## 実験結果 ### 分類精度(§7.2, 表3) PICKER はカーネル単位では547中435を条件付きべき等に分類し、べき等は16カーネルのみ(べき等判定には全GPUメモリが write-only である必要があり実例が稀)、非べき等は96カーネル(手動の34を上回り、一部の条件付きべき等カーネルを悲観的に非べき等と分類)。インスタンス単位では11,745のべき等インスタンスを偽陽性0で特定し、全非べき等インスタンスを正しく判定。一方で2,673インスタンスをべき等を非べき等と誤分類し、偽陰性率は18.54%。フレームワーク別では TVM が最低の2.13%(無限ループが無く解析が容易)、PyTorch が35.73%、TensorRT が42.58%(表3)。偽陰性の内訳(表5)では非パラメータアドレス(NA)が1,723件で最多、次いで経路爆発(PE)526件、範囲過大評価(RO)310件。 ### 検証待ち時間(§7.3, 図6, 図7) PICKER は評価した全ベンチマーク・全フレームワークの全インスタンスを5µs 以内に検証できた(設計目標達成)。Rodinia・PyTorch・TensorRT・FasterTransformer ではそれぞれ99%・88%・91%・81%、Parboil と TVM では全インスタンスが1µs 以内(図6)。DL推論タスクへのエンドツーエンドのオーバーヘッドは全ケースで1%未満(図7(a)。最大でも0.64%)。これは実行時間がカーネル実行に支配され、動的検証がそれに重なる(オーバーラップする)ほど高速なため。 ### 最適化の寄与(§7.4, 図7(b)) TVM インスタンスで、全最適化版(PICKER)・範囲コンパクション無し(Base+R)・範囲ベースモデルも無し(Base)を比較。Base はスレッドID 列挙により42%のインスタンスで1ms 超。範囲ベースアドレスモデル(§5.1)で各記号アドレスが境界2回計算のみとなり最大100µs 未満へ、範囲コンパクション(§5.2)でさらに最大1µs 未満へ低減した。 ### ケーススタディ(§7.5, 図8) - **耐障害システム(図8(a))**: Asymmetric Resilience [37](AR)の簡易版を実装。べき等性を使わない場合(AR w/o idem)の性能オーバーヘッドは155%〜4,496%で非実用的だが、PICKER 統合で全ケース4%未満へ削減。ResNet・MobileNet では全インスタンスが正しくべき等と判定されチェックポイント不要となり、動的検証のみのオーバーヘッド0.08%。他3アプリは最大6インスタンス(Inception)が非べき等と誤分類され、最大エンドツーエンド3.39%。 - **プリエンプティブスケジューリング(図8(b))**: Chimera [54] の拡張版を実装。べき等インスタンスはコンテキスト保存なしで即座にkill・再起動でき、プリエンプション待ち時間を1µs 未満へ短縮できる。GPT-2 推論(1リクエスト=50カーネル・10,000インスタンス)で PICKER は5,803インスタンスをべき等と判定。べき等性なし(Chimera w/o idem)では平均64.3µs(4µs〜98µs)だったプリエンプション待ち時間が、PICKER 統合で66.3%のプリエンプションが1µs 以内に完了し、平均を84.2%削減して10.2µs とした。 **Table 1: 表** ![[_attachments/arxiv-2410.23661/table1-table.png]] (Table 1. 論文中の主要な表を示す。) **Table 2: 表** ![[_attachments/arxiv-2410.23661/table2-table.png]] (Table 2. 論文中の主要な表を示す。) ## 考察 PICKER は将来の拡張として、複数カーネルにまたがるべき等性(逐次実行はインスタンス間の clobber 反依存検査、並行実行は読み書き重なり検査で対応可能)、CPUメモリ・ディスク・永続メモリなど非GPUメモリ状態への拡張(仮想アドレス空間にマップされるため同様に扱えるが、1物理アドレス=高々1仮想アドレスが前提)を挙げる(§6.1)。偽陰性の原因は5類型に整理される(図5, §6.2): 間接関数呼び出し(IF)、非パラメータアドレス(NA)、非パラメータ条件(NC)、範囲過大評価(RO)、メモリアクセス順序(MO、read-after-write を非べき等と誤判定)。NA・NC はユーザーによる可能値の指定、RO・MO はより精密な静的解析が解決策として今後の課題に挙げられている。 ## 強み - 条件付きべき等という新しい現象を実アプリで定量的に示し(490/547カーネル)、カーネル単位二分の前提の限界を実証した。 - 起動引数のみで実行前に判定するという要件(R0)を満たしつつ、偽陽性0(R1)を保証する設計上の保守性。 - 範囲表現・単調性・コンパイル実行という最適化群で、素朴解の50ms を5µs(4桁短縮)まで縮め、実用的なクリティカルパスに収めた。 - アセンブリ(SASS)解析によりクローズドソース・動的生成カーネルへ適用でき、AR と Chimera という既存システムへの統合で具体的な利得(チェックポイント<4%、プリエンプション待ち-84.2%)を示した。 ## 弱点・課題 - 偽陰性率18.54%は、特に PyTorch(35.73%)や TensorRT(42.58%)で高く、効率(R2)の取りこぼしが大きい。主因の非パラメータアドレス(NA)は保守的に常時重なりとみなすため改善余地が大きい。 - 非パラメータ変数や経路爆発・無限ループの完全なフロー被覆ができず、これらは保守的に非べき等扱いとなる(間接関数呼び出しは現状未対応)。 - 範囲ベースモデルは離散アクセスを連続範囲とみなすことで偽の重なりを生み得る(範囲過大評価310件)。 - 評価は NVIDIA Volta/Ampere に限定され、一部 Rodinia アプリ(mummergpu, cfd 等)はテストベッドで動かず除外。1物理アドレス=高々1仮想アドレスという前提が崩れると偽陽性が生じ得る。 ## 関連 - 概念: [[べき等性]] / [[チェックポイント]] / [[GPU観測性]] / [[耐障害LLM訓練]] / [[GPUクラスタ運用]] - 既存ノート: [[papers/2024__arXiv__Microsecond-scale Dynamic Validation of Idempotency for GPU Kernels|PICKER 既存ノート]] ## 出典 - [[.raw/papers/arxiv-2410.23661.pdf]](arXiv:2410.23661v1, 2024年10月31日)