2025__ISPASS__Characterizing and Optimizing LLM Inference Workloads on CPU-GPU Coupled Architectures

## Memo ## Memo with LLM ### 論文情報 - **タイトル**: Characterizing and Optimizing LLM Inference Workloads on CPU-GPU Coupled Architectures - **著者と所属**: - Prabhu Vellaisamy (Samsung Semiconductor / Carnegie Mellon University) - Saeed Rashidi, Matthew D. Sinclair, Tushar Krishna, Nathan Beckmann, Brandon Lucia - CMU/Samsung共同研究（Samsung Global Research Outreach支援） - **カンファレンス/ジャーナル名**: IEEE International Symposium on Performance Analysis of Systems and Software (ISPASS) - **発表年**: 2025年 ### 論文概要本論文は、進化するCPU-GPU結合アーキテクチャにおけるLLM推論ワークロードの特性を深く分析し、疎結合システム（PCIe [[A100]]/[[H100]]）と密結合システム（GH200）における性能動態を明らかにする研究です。新しいプロファイラーSKIPと細粒度メトリクスTKLQTを用いて、CPUバウンドからGPUバウンドへの遷移点を特定し、カーネル融合によるパフォーマンス最適化の可能性を示しています。 ### 詳細解説 #### 問題設定 LLMベースの推論ワークロードがデータセンターのコストとリソース使用量を支配している現状において、進化するCPU-GPU結合アーキテクチャにおける推論ワークロードの特性を理解することが最適化の鍵となっています。本研究では、疎結合（LC）システムと密結合（CC）システム、および今後の密結合（TC）システムの性能特性を比較分析します。入力データには4つのLLMモデル（Bert-Base-Uncased、XLM-Roberta-Base、GPT2、Llama-3.2-1B）を使用し、バッチサイズを1から64まで変化させて評価を行いました。 #### 提案手法 **SKIP（System-Aware Kernel Inference Profiler）**という新しい[[PyTorch]]ベースのプロファイラーを開発し、PyTorch Profilerのトレースからオペレータ-カーネル依存グラフを構築します。重要な新メトリクスとして**TKLQT（Total Kernel Launch and Queuing Time）**を導入： TKLQT = Σ(i=1 to N) KLO_i ここで、KLO_i = t_start(k_i) - t_start(cuda_launch_i) はカーネル起動オーバーヘッドです。さらに、近接スコア（Proximity Score）に基づく新しいカーネル融合推薦フレームワークを提案： PS(c_l) = freq(c_l) / freq(k_1) ここで、c_l は長さ l のカーネル連鎖、freq() はその出現頻度です。 #### 新規性従来研究との主な違いは、フレームワーク税を包括的に扱うのではなく、TKLQTによってCPU-GPU相互作用とGPU飽和に直接関連する非効率性を特定できることです。また、実行時トレースから決定論的カーネルシーケンスを自動識別する近接スコアベースの融合手法は、[[FlashAttention]]のようなドメイン特化融合やtorch.compileのようなグラフ合成アプローチとは異なる柔軟性を提供します。 #### 実験設定 **評価プラットフォーム**： - LC システム: AMD EPYC + A100、Intel Xeon + H100 - CC システム: NVIDIA Grace Hopper (GH200) **評価メトリクス**： - TKLQT（Total Kernel Launch and Queuing Time） - AKD（Average Kernel Duration） - 推論レイテンシ（Inference Latency） - GPU アイドル時間 **データセット**: Huggingface の事前学習済みFP16精度モデル、入力シーケンス長512トークンでprefillレイテンシを測定 #### 実験結果 **CPUバウンド vs GPUバウンド分類**: GH200は他のシステムより4倍大きなバッチサイズまでCPUバウンド状態を維持。エンコーダーオンリーモデルでは、LCシステムがバッチサイズ8で遷移するのに対し、GH200はバッチサイズ32で遷移。 **性能クロスオーバーポイント**: 大バッチサイズ（BS≥16）でGH200が優位（Llama-3.2-1Bで1.9x-2.7x高速化）、小バッチサイズでLCシステムが優位（GH200は最大2.8倍のレイテンシ増加）。 **カーネル融合の効果**: 理想化された速度向上としてGPT2で最大2.7倍、XLM-Roberta-Baseで最大6.8倍の改善を予測。近接スコアベースの手法により、torch.compileの reduce-overhead モードよりも最大1.3倍の改善を実現。 **nullKernelベンチマーク**: GH200で若干高いカーネル起動オーバーヘッド（2771.6ns vs 2260.5ns for AMD+A100）だが、最速の実行時間を実現。論文の提案するTKLQTメトリクスにより、従来のフレームワーク税分析では見えなかったCPU-GPU結合アーキテクチャ固有のボトルネックを明確に特定することが可能になりました。 ## Abstract 大規模言語モデル（[[LLM]]）ベース推論ワークロードは、データセンターのコストとリソース使用量を急速に支配している。したがって、進化するCPU-GPU結合アーキテクチャにおける推論ワークロード特性の理解は最適化にとって極めて重要である。本論文は、疎結合（PCIe A100/H100）システムと密結合（GH200）システムにおけるLLM推論動作の詳細な分析を提示する。我々は、新しいプロファイラーSKIPとTotal Kernel Launch and Queuing Time（TKLQT）のようなメトリクスによって促進される細粒度オペレータ間カーネルトレース分析を用いて性能動態を分析する。結果は、密結合（CC）GH200が大バッチサイズにおいて疎結合（LC）システムを大幅に上回り、[[Llama 3.2]]-1Bに対して1.9x-2.7倍高速なprefillレイテンシを達成することを示している。しかし、我々の分析では、GH200がLCシステムより4倍大きなバッチサイズまでCPUバウンド状態を維持することも明らかになった。この拡張されたCPUバウンド領域において、我々はGrace CPUの性能特性が、GH200における低バッチサイズでの高い推論レイテンシに寄与する主要因子であることを特定した。我々は、TKLQTがこのCPU/GPUバウンド遷移点を正確に特定することを実証する。この分析に基づき、我々はカーネル融合がカーネル起動オーバーヘッドを削減することによりGH200の低バッチレイテンシボトルネックを緩和する大きな可能性を提供することをさらに示す。この詳細なカーネルレベル特性化は、多様なCPU-GPU結合戦略を最適化するための重要な洞察を提供する。本研究は初期の取り組みであり、CPU-GPUヘテロジニアスアーキテクチャの異なる程度を要求する他の主要なAI/DLワークロードを探索する予定である。