2025__SC__Workload Intelligence Workload-Aware IaaS Abstraction for Cloud Efficiency

## Memo - ![[Pasted image 20251202141806.png]] - ![[Pasted image 20251202141843.png]] - ![[Pasted image 20251202141919.png]] ## Memo with LLM ### 論文情報 - **論文のタイトル**: Workload Intelligence: Workload-Aware IaaS abstraction for Cloud Efficiency (Preprint title: Workload Intelligence: Punching Holes Through the Cloud Abstraction) - **著者と所属**: Lexiang Huang, A. Parayil, Jue Zhang, Xiaoting Qin, Chetan Bansal, Jovan Stojkovic, Pantea Zardoshti, Pulkit Misra, Eli Cortez, Raphael Ghelman, Íñigo Goiri, Saravan Rajmohan, Jim Kleewein, Rodrigo Fonseca, Timothy Zhu, Ricardo Bianchini (Microsoft Research, et al.) - **カンファレンス/ジャーナル名**: SC (Supercomputing) - **発表年**: 2025 ### 論文概要本論文は、クラウドワークロードとプラットフォーム間の情報伝達が不透明であるという課題に対し、動的な双方向通信フレームワーク「Workload Intelligence (WI)」を提案しています。WIにより、ワークロードは自身の特性（ヒント）をプラットフォームに伝え、プラットフォームは最適化の機会やイベント（通知）をワークロードに伝えることが可能になります。大規模なクラウドプロバイダの実際のワークロードを用いた評価では、WIによって平均48.8%のコスト削減が達成できることが示されました。 ### 詳細解説 #### 問題設定 **入力と出力**: 現状のクラウドIaaSの抽象化（インターフェース）は「狭く」「不透明」です。 - **プラットフォームへの入力**: プラットフォームは通常、VMタイプといくつかの修飾情報（例：Spotインスタンスかどうか）しか受け取りません。可用性要件やレイテンシ耐性といった重要なワークロード特性は伝達されません。 - **ワークロードへの入力**: ワークロードはプラットフォームから、VMのテレメトリや、退避直前のシグナルなどの例外的な通知しか受け取りません。 **課題**: この狭いインターフェースは以下の非効率を引き起こしています。 1. **顧客による選択の複雑化**: VMタイプやオプションの急増により、最適な選択が困難になっています。 2. **プラットフォームのカスタマイズ阻害**: 特性が不明なため、プラットフォームは保守的な運用を強いられ、リソース最適化やコスト削減の機会を逃しています。 3. **最適化の機会損失**: ワークロードはプラットフォーム側のイベントや最適化の機会（例：オーバークロックの利用可能性）を知ることができず、自律的な適応ができません。 #### 提案手法 **Workload Intelligence (WI) アーキテクチャ**: WIは、ワークロードとプラットフォーム間の動的な双方向通信を実現するフレームワークです。以下の3つのコンポーネントで構成されます。 1. **Local Manager**: 各サーバー上で動作し、そのサーバー上のVMからのヒント収集や、VMへの通知配信を行います。 2. **Global Manager**: リージョンごとに論理的に集中管理（物理的には分散）され、ヒントの集約や、クラウド最適化機能との連携を行います。 3. **Cloud Optimization Managers**: 各最適化機能（例：Spot VM管理、電力管理）がWIと連携するためのマネージャです。 **Hints（ヒント）とNotifications（通知）**: - **Hints**: ワークロードが自身の特性や要件をプラットフォームに伝えるための情報です。「ベストエフォート」として扱われます。 - 例: スケール可否、デプロイ時間、可用性要件（9の数）、プリエンプト耐性（%）、遅延耐性（ms）、リージョン非依存性など。 - **Notifications**: プラットフォームが今後のイベントや最適化の機会をワークロードに伝えるための情報です。 - 例: Spot VMの退避警告、オーバークロックによるCPU周波数向上など。 **実装**: 通信には[[Kafka]]（PubSub）と分散データベース（CloudDB）を使用し、スケーラブルで耐障害性のある双方向通信を実現しています。 #### 新規性既存の手法との比較は以下の通りです。 - **汎用性と拡張性**: 既存のインターフェース（VMタイプや個別のフラグ）はアドホックで複雑化しやすいのに対し、WIはワークロードの「特性」を記述する汎用的なインターフェースを提供し、特定の最適化技術（Spot, Harvest, Overclockingなど）から分離しています。 - **動的な更新**: 多くの既存手法がデプロイ時の静的な設定に留まるのに対し、WIは実行時に動的にヒントや通知をやり取りできます。 - **明示的な契約**: プラットフォームによる不正確な推論に頼るのではなく、ワークロードが明示的に要件を伝えることで、プラットフォームは保守性を排除し、より積極的な最適化が可能になります。 #### 実験設定 - **データセット**: 大手クラウドプロバイダ（Microsoft）の**188の実運用ワークロード**の特性を分析・使用しています。これらは全ワークロードの19%を占め、140万コア、40万VM以上の規模に及びます。 - **評価対象**: 検索、コラボレーションツール、リアルタイム通信など、世界48リージョンに展開される多様なアプリケーションを含みます。 - **評価指標**: 主にワークロード所有者の**コスト削減率**を評価しています。 #### 実験結果 WIを導入することで、平均して**48.8%のコスト削減**が可能であると試算されました。各最適化技術における具体的な削減効果は以下の通りです。 - **Spot VMs**: 85% 削減 - **Harvest VMs**: 91% 削減 - **VM Rightsizing**: 50% 削減 - **Multi-AZ Datacenters**: 40% 削減 - **Region Agnostic**: 22% 削減 - **Auto-scaling**: 19% 削減 - **VM Oversubscription**: 15% 削減 - **Overclocking**: 11% 削減これらの結果は、WIによる双方向通信が、プラットフォームの効率性とユーザーのコストメリットの両方を大幅に向上させることを示しています。 ## Abstract 今日、クラウドワークロードはクラウドプラットフォームに対して大部分が不透明です。通常、プラットフォームが受け取る情報はVMタイプと、おそらくタイプへの修飾（例：VMが退避可能であること）のみです。同様に、ワークロードがプラットフォームから受け取る情報も最小限であり、通常はVMからのテレメトリや、時折のシグナル（例：VMが退避される直前）のみです。ワークロードとプラットフォーム間のこの狭いインターフェースには、いくつかの欠点があります。（1）パブリッククラウドプラットフォームにおけるVMタイプと修飾の急増は、顧客の選択を複雑にします。（2）主要なワークロード特性（例：低い可用性要件、高いレイテンシ耐性）が指定されていないことが多く、リソース使用量の最適化やコスト削減のためのプラットフォームのカスタマイズを妨げています。（3）ワークロードは潜在的な最適化に気づいていないか、プラットフォームのイベントに反応するための十分な時間がない可能性があります。これらの問題を解決し、クラウドの効率を向上させるために、本論文では、クラウドワークロードとクラウドプラットフォーム間の動的な双方向通信のためのフレームワークであるWorkload Intelligence (WI)を提案します。WIを通じて、ワークロードは主要な特性、要件、さらにはVMの優先順位のような動作を動的にプログラムで調整できます。逆方向では、WIにより、プラットフォームは今後のイベントや最適化の機会についてワークロードにプログラムで通知することができます。このアプローチにより、クラウドプラットフォームはその提供内容を劇的に簡素化し、ワークロードの要件に違反することなくコストを削減し、顧客への価格を削減できる可能性があります。