## Memo ## Memo with LLM ## Abstract グラフィック・プロセッシング・ユニット(GPU)は、多くのアプリケーションで最も一般的なアクセラレータとして台頭しており、機械学習アプリケーションや多くの演算集約型ワークロードの中核を担っています。一般的に、GPUはアクセラレータとして考えられており、メインのアプリケーションロジック、データ移動、ネットワーク接続はCPUが担当します。このようなアーキテクチャでは、ネットワークベースのGPUアクセラレーションアプリケーションの入力および出力データは通常、CPUとオペレーティングシステムのネットワークスタックを複数回通過し、システムメインメモリにコピーされます。これらはアプリケーションのレイテンシを増大させ、高価なCPUサイクルを必要とし、システムの電力効率を低下させ、全体的な応答時間を増大させます。 これらの非効率性は、レイテンシが制限された展開、または高いスループットにおいて、より重要となります。 なぜなら、コピー時間が最新のGPUの応答時間を簡単に増大させてしまう可能性があるからです。 本論文の主な貢献は、CPUの介入なしにGPUがネットワーク転送を開始できる、GPU中心のネットワークアーキテクチャに向けたものです。 本論文では、NVIDIA [[GPU]]と[[RoCE]](Remote Direct Memory Access over Converged Ethernet)を使用した汎用ハードウェアに焦点を当て、このアーキテクチャを実現します。これにより、他の類似のアプローチで必要とされる高度に均質なクラスタやアドホックに設計されたネットワークアーキテクチャの必要性がなくなります。rdma-coreのポストルーチンをGPUランタイムに移植することで、CPUサイクルを一切使用せずに100Gbpsのリンクを飽和させることができ、システム全体の応答時間を短縮しながら、電力効率を高め、アプリケーションのスループットを向上させることができます。2つ目の貢献は、最先端の推論処理システムであるClockworkの分析に関するもので、コントローラ中心でCPUを介在させるアーキテクチャが課す限界を示しています。次に、[[RDMA]] トランスポートに基づくこのシステムへの代替アーキテクチャを提案し、そのようなシステムがもたらすであろうパフォーマンスの向上について検討します。推論システムの不可欠な要素は、ユーザーフローを把握し追跡し、複数のワーカーノードに分散することです。第3の貢献は、汎用ハードウェア上で稼働するステートフルロードバランサーのコンテキストにおいて、100 Gbps で稼働するコネクショントラッキングアプリケーションの課題を理解することを目的としています。