## Memo - クラウド事業者目線でのワークロードパターン分析。 ## Abstract クラウドシステム上でデータベースサービスをホスティングすることが一般的になってきた。その結果、データベースの作業負荷が増大し、パターン分析の機会が提供されている。ビジネスロジックの観点からワークロードパターンを発見することは、データベースシステムの傾向や特性をより良く理解するために不可欠である。しかし、既存の作業負荷パターン発見システムは、業界で一般的に採用されている大規模なクラウドデータベースには適していません。なぜなら、大規模クラウドデータベースの作業負荷パターンは、一般的に通常のデータベースよりもはるかに複雑だからである。 本論文では、複雑な大規模ワークロードのワークロードパターンを発見するためのリアルタイムシステムであるAlibaba Workload Miner (AWM)を提案する。AWMは、ユーザリクエストから記録されたSQLクエリパターンを符号化して発見し、発見されたパターンに基づいてクエリ処理を最適化する。まず、データ収集と前処理モジュールは、ストリーミングクエリログを収集し、豊富なセマンティックコンテキストと実行特徴を持つ高次元特徴埋め込みにエンコードする。次に、オンラインワークロードマイニングモジュールは、エンコードされたクエリをビジネスグループごとに分離し、各グループのワークロードパターンを発見する。一方、オフライン学習モジュールはラベルを収集し、ラベルを使用して分類モデルを学習する。最後に、パターンベースの最適化モジュールが、発見されたパターンを利用することで、クラウドデータベースにおけるクエリ処理を最適化する。1つの合成データセットと2つの実データセット(Alibaba Cloudデータベースから抽出)を用いた広範な実験結果は、AWMがパターン発見の精度を66%向上させ、オンライン推論の待ち時間を22%短縮することを示している。