## Memo
![[Pasted image 20250824112317.png]]
## Memo with LLM
### 論文情報
- **論文のタイトル**: Public Datasets for Cloud Computing: A Comprehensive Survey
- **著者と所属**:
- Guozhi Liu (South China University of Technology)
- Weiwei Lin (South China University of Technology)
- Haotong Zhang (South China University of Technology)
- Jianpeng Lin (South China University of Technology)
- Shaoliang Peng (South China University of Technology)
- Keqin Li
- **カンファレンス/ジャーナル名**: ACM Computing Surveys (CSUR)
- **発表年**: 2025
### 論文概要
本論文は、クラウドコンピューティング分野で公開されているデータセットに関する包括的なサーベイを提供している。6つの科学データベースから968本の科学論文を体系的にマッピング分析し、42のクラウドコンピューティング関連データセットを特定・分類している。研究者がそれぞれの研究ニーズに適したデータセットを迅速に見つけられるよう、11の特性に基づく分類体系を構築し、12の主要データセットについて詳細な比較分析を行っている。
### 詳細解説
#### 問題設定
**入力**: クラウドコンピューティング分野で利用可能な公開データセット
**出力**: データセットの包括的な分類・分析・比較評価
**必要なデータ**:
- 6つの科学データベース(具体名は論文内で詳述)から収集した968本の学術論文
- エネルギー効率予測、ワークロード解析、異常検知ソリューション設計に使用される実際のクラウドクラスタからの負荷トレースとネットワークトレース
#### 提案手法
著者らは以下の4段階アプローチを採用している:
1. **体系的マッピング手法**: 6つの科学データベースから968本の論文を分析し、42のクラウドコンピューティング関連データセットを抽出
2. **分類体系の構築**: 11の特性(パブリッシャー、サイズ、マシン数、期間、収集方法論等)に基づくデータセット分類
3. **詳細記述の提供**: 各データセットの特性をより明確に理解できるよう詳細説明を記載
4. **比較分析**: 12の主要データセットを選定し、それらの特性について包括的な分析と比較を実施
GitHub上で「Awesome-CloudComputing-Datasets」リポジトリを公開し、Google、Microsoft、Alibaba、SenseTime等からのデータセット情報を含む包括的なリソースを提供している。
#### 新規性
先行研究との比較において、本研究の新規性は以下の点にある:
- クラウドコンピューティングデータセットに特化した初の包括的なサーベイ
- 968本の論文という大規模な文献調査に基づく体系的分析
- 11の特性による多角的なデータセット分類体系の構築
- 実用的なGitHubリポジトリの公開による研究コミュニティへの継続的な価値提供
- 既存データセットの課題特定と将来の発展方向に関する具体的提言
#### 実験設定
**使用したデータセット**:
- 6つの科学データベースから収集した968本の学術論文
- 最終的に42のクラウドコンピューティング関連データセットを特定
**評価指標の定義**:
- データセット分類の包括性(11の特性による多面的評価)
- 主要データセット12個の特性比較分析
- 実世界でのデータ収集方法論の評価
- データセットサイズ、期間、マシン数等の定量的指標
#### 実験結果
論文中で報告されている具体的な成果:
- **42のデータセット**: Google Cluster Data (V1, V2, V3)、Alibaba Cluster Traces、Azure Public Dataset、Philly GPU Traces等を含む
- **データセットサイズ範囲**: 33KBから2.4TBまでの幅広い規模
- **期間範囲**: 7時間から9年間までの多様な観測期間
- **マシン数範囲**: 単一マシンから96,000台までの大規模クラスタ
- **分類結果**: GPU、電力、LLM推論・事前学習等のカテゴリ別分類を実現
既存データセットの弱点として、長期的な維持・更新の困難さ、標準化された収集方法論の欠如、特定ドメインでのデータセット不足等を特定し、将来の新しいクラウドコンピューティングデータセット作成に向けた具体的な推奨事項を提示している。
## Abstract
公開されているデータセットは、様々な条件下での新しいアルゴリズムのテストを可能にし、科学実験の検証可能性と再現性を保証するため、研究者にとって極めて重要である。クラウドコンピューティング研究においては、エネルギー効率予測、ワークロード分析、および異常検知ソリューションの設計に使用される、実際のクラウドコンピューティングクラスタからの負荷トレースとネットワークトレースの取得への特別な依存がある。クラウドコンピューティングデータセットの包括的な概観と徹底的な分析の現在の不足に対処し、それらの現在の状況と将来の傾向に関する洞察を得るため、この論文では、既存の公開されたクラウドコンピューティングデータセットの包括的なサーベイを提供する。