2025__arXiv__gpu_ext - Extensible OS Policies for GPUs via eBPF

## Memo ## Memo with LLM ### 論文情報 - **論文のタイトル**: gpu_ext: Extensible OS Policies for GPUs via eBPF - **著者と所属**: Yusheng Zheng, Tong Yu, Yiwei Yang, Minghui Jiang, Xiangyu Gao, Jianchang Su, Yanpeng Hu, Wenan Mao, Wei Zhang, Dan Williams, Andi Quinn - **カンファレンス/ジャーナル名**: arXiv - **発表年**: 2025 ### 論文概要本論文では、[[GPU]]ドライバとデバイスをプログラム可能なOSサブシステムとして扱う[[eBPF]]ベースのポリシーランタイム「gpu_ext」を提案しています。既存のユーザースペースランタイムやカーネル変更による手法の限界を克服し、アプリケーションを変更することなく、スループットを最大4.8倍向上させ、テールレイテンシを最大2倍削減することを実現しました。 ### 詳細解説 #### 問題設定現代のGPU中心のシステムにおいて、メモリ配置やスケジューリングなどのリソース管理ポリシーはパフォーマンスに大きく影響します。しかし、単一のポリシーですべてのワークロードに対応することは困難です。 - **入力/データ**: GPUを使用する多様なワークロード（推論、トレーニング、ベクトル検索など）。 - **課題**: ユーザースペースのランタイムはプログラマビリティがあるものの、テナント間の可視性やハードウェアの詳細な制御に欠けます。一方、OSカーネルを直接変更する方法は複雑で、安全性のリスクを伴います。 #### 提案手法著者らは、GPUドライバとデバイス層を拡張可能なOSポリシーインターフェースとして機能させる「gpu_ext」を提案しました。 - **eBPFの活用**: ホスト側のeBPFを単に移植するのではなく、GPUドライバを拡張して安全なフックを公開します。 - **デバイス側eBPFランタイム**: 検証済みのポリシーロジックをGPUカーネル（デバイス側）内で直接実行するためのランタイムを導入しました。これにより、重要なデバイス側イベントを観測し、一貫性のあるアプリケーション透過的なポリシー適用を可能にします。 #### 新規性 - **GPUデバイスへのeBPF拡張**: 従来のホスト側eBPFとは異なり、GPUデバイス内部でポリシーを実行する仕組みを導入した点が画期的です。 - **安全性と効率の両立**: カーネルの直接変更に伴うリスクを回避しつつ、ユーザースペースアプローチでは不可能な詳細な制御を実現しています。 - **透過性**: アプリケーションの修正やドライバの再起動を必要とせず、動的にポリシーを変更可能です。 #### 実験設定 - **データセット/ワークロード**: 推論、トレーニング、ベクトル検索などの現実的なGPUワークロードを使用。 - **評価指標**: スループット（Throughput）とテールレイテンシ（Tail Latency）。オーバーヘッドの測定。 #### 実験結果 - **パフォーマンス**: gpu_extを使用することで、スループットが最大4.8倍向上し、テールレイテンシが最大2倍削減されました。 - **オーバーヘッド**: これらの改善は低いオーバーヘッドで達成されており、システムの効率性を損なっていません。 - **実用性**: アプリケーションやドライバの変更なしに導入できるため、既存のシステムへの統合が容易であることが示されました。 ## Abstract 現代のGPU中心のシステムにおけるパフォーマンスは、メモリ配置、スケジューリング、可観測性などのリソース管理ポリシーにますます依存しています。しかし、画一的なポリシーは多様なワークロードに対して不十分なパフォーマンスしか発揮しません。既存のアプローチにはトレードオフが存在します。ユーザースペースのランタイムはプログラマビリティを提供しますが、テナント間の可視性ときめ細かいハードウェア制御が欠けています。一方、OSカーネルの変更は複雑さと安全性のリスクをもたらします。これに対処するために、我々はGPUドライバとデバイス層が拡張可能なOSポリシーインターフェースとして機能する必要があると主張します。新興のeBPFは可能性を提供しますが、ホスト側のeBPFを単純に移植するだけでは不十分です。それは重要なデバイス側のイベントを観測できず、ポリシーコードをGPUカーネルに直接注入することは安全性と効率に影響を与えます。本論文では、GPUドライバとデバイスをプログラム可能なOSサブシステムとして扱うeBPFベースのポリシーランタイムであるgpu_extを提案します。gpu_extは、GPUドライバを拡張して安全なフックを公開し、検証済みのポリシーロジックをGPUカーネル内で実行するデバイス側のeBPFランタイムを導入することで、一貫性のあるアプリケーション透過的なポリシーを実現します。推論、トレーニング、ベクトル検索を含む現実的なワークロードでの評価によると、gpu_extはアプリケーションの変更やドライバの再起動なしに、スループットを最大4.8倍向上させ、テールレイテンシを最大2倍削減し、オーバーヘッドも低いことが示されました。