2025__TSUSC__xPUE - Extending Power Usage Effectiveness Metrics for Cloud Infrastructures

## Memo ## Memo with LLM ### 論文情報 - **論文タイトル**: xPUE: Extending Power Usage Effectiveness Metrics for Cloud Infrastructures - **著者と所属**: - Guillaume Fieni (Inria, France; Univ. Lille, CRIStAL, UMR CNRS 9189, France) - Romain Rouvoy (Inria, France; Univ. Lille, CRIStAL, UMR CNRS 9189, France) - Lionel Seinturier (Inria, France; Univ. Lille, CRIStAL, UMR CNRS 9189, France) - **カンファレンス/ジャーナル名**: IEEE Transactions on Sustainable Computing (TSUSC) - **発表年**: 2025年 ### 論文概要本論文は、クラウドインフラストラクチャの電力使用効率（PUE）を評価する既存の指標が、ホストされたサーバーの電源供給までしか考慮せず、クラウドインフラストラクチャで動作するハードウェアとソフトウェアのより細かい粒度でのPUE洞察を提供できないという問題を解決するため、xPUEという補完的なPUE指標群を提案している。xPUEは、ハードウェアコンポーネントから実行中のソフトウェアレイヤーまでの計算連続体全体にわたってエネルギー効率を計算し、クラウドインフラストラクチャの異なる視点からリアルタイムでエネルギー効率指標を提供することを目的としている。 ### 詳細解説 #### 問題設定本研究では、データセンターのエネルギー効率評価における現在の制約に対処している。入力として、従来のPUE（Power Usage Effectiveness）指標は以下の式で定義される： **PUE = PEnergy(DC) / PEnergy(IT) = 1 + PEnergy(non-IT) / PEnergy(IT)** ここで、PEnergy(DC)はデータセンター全体のエネルギー消費、PEnergy(IT)はITデバイスのエネルギー消費を表す。しかし、この指標はサーバーの電源出力で止まり、クラウドインフラストラクチャで動作するハードウェアとソフトウェアのより詳細なエネルギー効率分析を提供しない。必要なデータとして、ハードウェアレベル（CPU、GPU、メモリ、ディスク等）とソフトウェアレベル（VM、コンテナ、制御プレーン等）の電力測定値が含まれる。 #### 提案手法著者らは、xPUEと呼ばれる一連の相互補完的なPUE指標を提案している： **1. SPUE（Server PUE）**: **sPUE = PEnergy(IT) / PEnergy(hardware)** サーバー内の計算に直接貢献するハードウェアコンポーネント（CPU、GPU、メモリ、ディスクなど）に対するITデバイス全体のエネルギー消費の比率を測定する。 **2. VPUE（Virtual PUE）**: **vPUE = PEnergy(hardware) / PEnergy(software)** クラウドプラットフォーム（OpenStack、Kubernetesなど）によってホストされるソフトウェアレイヤーのエネルギー効率を評価する。 **3. CPUE（Cloud PUE）**: **cPUE = ∏(x∈L) xPUE** 選択されたクラウドレイヤーLに応じて、複数のxPUE指標の積として計算される複合指標。 **4. GPUE（Global PUE）**: **gPUE = cPUE × PUE** エンドツーエンドのエネルギー効率を提供し、クラウドソフトウェアによって実行される計算の各単位に対して、それをホストするデータセンター全体で実際に消費されるエネルギー量を示す。実装では、PowerAPIツールキットを活用し、RAPL（Running Average Power Limit）、IPMI（Intelligent Platform Management Interface）、SmartWatts電力メーターから電力測定値を収集している。 #### 新規性従来の研究では、PUE指標はデータセンター建物の効率性に焦点を当て、ハードウェア電力供給で止まっていた。本研究の新規性は： 1. **多層カバレッジ**: 従来のPUEがデータセンター建物レベルでしか測定されなかったのに対し、xPUEはハードウェアコンポーネントからソフトウェアレイヤーまでの複数レベルでエネルギー効率を測定する。 2. **リアルタイム測定**: 年次レポートベースの従来手法とは異なり、リアルタイムでのエネルギー効率モニタリングを実現している。 3. **ソフトウェア認識**: 仮想化技術、コンテナ、制御プレーンなどのソフトウェアレイヤーのエネルギーオーバーヘッドを明示的に考慮している。 4. **複合指標**: 異なるレイヤーのPUE指標を組み合わせて、エンドツーエンドのエネルギー効率評価を提供している。 #### 実験設定実験はGrid'5000テストベッド（フランス・ナンシー、5ノード）とOVHCloudの本番環境で実施された。使用したハードウェア構成： - Grid'5000: Intel Xeon Gold 5220、AMD EPYC 7352（空冷） - OVHCloud: Intel Xeon Silver 4214R、AMD EPYC 7413（水冷）ソフトウェア環境： - OS: Ubuntu 20.04 LTS（カーネル 5.4.0-121-generic） - Kubernetes: v1.21（kubeadm、Containerd 1.6.6、Flannel CNI） - OpenStack: Ussuri（MicroStack経由）評価指標として、電力測定には50Hz の頻度でハードウェア電力メーター、CPU/メモリレベルではRAPL、ソフトウェアレベルではSmartWatts電力メーターを使用した。入力ワークロードには、CPU負荷を段階的に増加させるstress-ngベンチマークを採用した。 #### 実験結果主要な実験結果は以下の通り： **SPUE結果**: - アイドル状態のサーバーでは sPUE > 4 を記録し、エネルギー効率が著しく低下 - 最適なsPUEは2.7（Intel Xeon Gold サーバー）から1.4（AMD + 水冷）まで変動 - クラスター規模での平均sPUEは5-6.5の範囲 - 制御ノードのsPUEはワーカーノードより常に高い値を示した **VPUE結果**: - OpenStackの最適vPUEは1.25、平均1.3 - Kubernetesの最適vPUEは1.1、平均1.3 - OpenStack制御プレーンはKubernetes比で151.1 kJ（910%）多いオーバーヘッド - Kubernetesは総エネルギーの96.88%をホストされたコンテナに、OpenStackは78.08%をVMに配分 **CPUE/GPUE結果**: - 最良構成（AMD+水冷+Kubernetes）: cPUE = 1.68 - 最悪構成（Intel+空冷+OpenStack+Kubernetes）: cPUE = 3.19 - データセンター立地により gPUE は1.82-4.45の範囲で変動 - カーボン効率（GCUE）では48.75-1,262 eqCO2の大幅な差を観測これらの結果は、クラウドインフラストラクチャの真のエネルギー効率が従来のPUE指標（平均1.58）よりもはるかに低く、包括的な最適化戦略の必要性を示している。 ## Abstract データセンターのエネルギー消費の分析と最適化は、過去数年間でますます人気のあるトピックとなっている。これらのインフラストラクチャでホストされるハードウェアやソフトウェアの効率を捉えるための効果的な指標がいくつか存在することが広く認識されている。残念ながら、特定のインフラストラクチャに対応する指標の選択と、時間の経過とともにその効率を評価することは、まだ未解決の問題と考えられている。この目的のために、Power Usage Effectiveness（PUE）などのエネルギー効率指標は、インフラストラクチャのコンピューティング機器の効率を評価する。しかし、この指標はホストされたサーバーの電源供給で止まってしまい、クラウドインフラストラクチャで動作するハードウェアとソフトウェアのPower Usage Effectivenessについてより深い洞察をもたらすためのより細かい粒度を提供することに失敗している。したがって、我々は、ハードウェアコンポーネントから実行中のソフトウェアレイヤーまでの計算連続体のエネルギー効率を計算するために、xPUEと名付けられた補完的なPUE指標を活用することを提案する。我々の貢献は、クラウドインフラストラクチャの異なる視点からリアルタイムエネルギー効率指標を提供することを目的とし、クラウドプロバイダーからその顧客まで、クラウドエコシステムがクラウドインフラストラクチャ全体のエネルギー使用を実験し最適化するのを支援する。