2025__CSUR__Public Datasets for Cloud Computing - A Comprehensive Survey

## Memo ![[Pasted image 20250824112317.png]] ## Memo with LLM ### 論文情報 - **論文のタイトル**: Public Datasets for Cloud Computing: A Comprehensive Survey - **著者と所属**: - Guozhi Liu (South China University of Technology) - Weiwei Lin (South China University of Technology) - Haotong Zhang (South China University of Technology) - Jianpeng Lin (South China University of Technology) - Shaoliang Peng (South China University of Technology) - Keqin Li - **カンファレンス/ジャーナル名**: ACM Computing Surveys (CSUR) - **発表年**: 2025 ### 論文概要本論文は、クラウドコンピューティング分野で公開されているデータセットに関する包括的なサーベイを提供している。6つの科学データベースから968本の科学論文を体系的にマッピング分析し、42のクラウドコンピューティング関連データセットを特定・分類している。研究者がそれぞれの研究ニーズに適したデータセットを迅速に見つけられるよう、11の特性に基づく分類体系を構築し、12の主要データセットについて詳細な比較分析を行っている。 ### 詳細解説 #### 問題設定 **入力**: クラウドコンピューティング分野で利用可能な公開データセット **出力**: データセットの包括的な分類・分析・比較評価 **必要なデータ**: - 6つの科学データベース（具体名は論文内で詳述）から収集した968本の学術論文 - エネルギー効率予測、ワークロード解析、異常検知ソリューション設計に使用される実際のクラウドクラスタからの負荷トレースとネットワークトレース #### 提案手法著者らは以下の4段階アプローチを採用している： 1. **体系的マッピング手法**: 6つの科学データベースから968本の論文を分析し、42のクラウドコンピューティング関連データセットを抽出 2. **分類体系の構築**: 11の特性（パブリッシャー、サイズ、マシン数、期間、収集方法論等）に基づくデータセット分類 3. **詳細記述の提供**: 各データセットの特性をより明確に理解できるよう詳細説明を記載 4. **比較分析**: 12の主要データセットを選定し、それらの特性について包括的な分析と比較を実施 GitHub上で「Awesome-CloudComputing-Datasets」リポジトリを公開し、Google、Microsoft、Alibaba、SenseTime等からのデータセット情報を含む包括的なリソースを提供している。 #### 新規性先行研究との比較において、本研究の新規性は以下の点にある： - クラウドコンピューティングデータセットに特化した初の包括的なサーベイ - 968本の論文という大規模な文献調査に基づく体系的分析 - 11の特性による多角的なデータセット分類体系の構築 - 実用的なGitHubリポジトリの公開による研究コミュニティへの継続的な価値提供 - 既存データセットの課題特定と将来の発展方向に関する具体的提言 #### 実験設定 **使用したデータセット**: - 6つの科学データベースから収集した968本の学術論文 - 最終的に42のクラウドコンピューティング関連データセットを特定 **評価指標の定義**: - データセット分類の包括性（11の特性による多面的評価） - 主要データセット12個の特性比較分析 - 実世界でのデータ収集方法論の評価 - データセットサイズ、期間、マシン数等の定量的指標 #### 実験結果論文中で報告されている具体的な成果： - **42のデータセット**: Google Cluster Data (V1, V2, V3)、Alibaba Cluster Traces、Azure Public Dataset、Philly GPU Traces等を含む - **データセットサイズ範囲**: 33KBから2.4TBまでの幅広い規模 - **期間範囲**: 7時間から9年間までの多様な観測期間 - **マシン数範囲**: 単一マシンから96,000台までの大規模クラスタ - **分類結果**: GPU、電力、LLM推論・事前学習等のカテゴリ別分類を実現既存データセットの弱点として、長期的な維持・更新の困難さ、標準化された収集方法論の欠如、特定ドメインでのデータセット不足等を特定し、将来の新しいクラウドコンピューティングデータセット作成に向けた具体的な推奨事項を提示している。 ## Abstract 公開されているデータセットは、様々な条件下での新しいアルゴリズムのテストを可能にし、科学実験の検証可能性と再現性を保証するため、研究者にとって極めて重要である。クラウドコンピューティング研究においては、エネルギー効率予測、ワークロード分析、および異常検知ソリューションの設計に使用される、実際のクラウドコンピューティングクラスタからの負荷トレースとネットワークトレースの取得への特別な依存がある。クラウドコンピューティングデータセットの包括的な概観と徹底的な分析の現在の不足に対処し、それらの現在の状況と将来の傾向に関する洞察を得るため、この論文では、既存の公開されたクラウドコンピューティングデータセットの包括的なサーベイを提供する。