## Memo ## Abstract Apache HiveやSparkなどの分散クエリ処理システムは、大規模データ分析のために多くの組織で広く利用されている。これらのシステムのクエリ実行プロセスを分析し理解することは、エンジニアの日常業務であり、パフォーマンス上の問題を特定し、システム構成を最適化し、エラーを修正するために極めて重要である。しかしながら、分散クエリ実行のための既存の可視化ツールは、(i)クエリパフォーマンスを理解し、根本的な実行異常について推論するために重要な、きめ細かな可視化(すなわち、アトミックタスクレベル)を提供しないため、不十分である。これらの限界に対処するため、我々は、異なる粒度に焦点を当て、互いに補完し合う複数のビューを用いて、分散クエリ実行プロセスを可視化するQEVISを提案する。具体的には、まず、クエリ論理計画のレイアウトアルゴリズムを考案し、クエリ実行の全体的な進捗をコンパクトかつ明瞭に可視化する。次に、クエリ実行中のジョブとマシンの異常度を要約する2つの新しいスコアリング手法を提案し、異常スコアを直感的に可視化することで、ユーザが注意を払う価値のあるコンポーネントを容易に特定できるようにする。さらに、散布図ベースのタスクビューを考案し、大量のアトミックタスクを表示することで、タスクの分布パターンが実行問題に有益であることを示す。また、QEVISに一連の補助的なビューとインタラクション手法を装備し、簡単で効果的なクロスビュー探索をサポートすることで、実行問題の原因を追跡するのに便利にしている。QEVISは我々の業界パートナーの本番環境で使用されており、その有効性を実証するために、実世界のアプリケーションからの3つのユースケースとユーザーインタビューを紹介する。QEVISは[GitHub - DBGroup-SUSTech/QEVIS](https://github.com/DBGroup-SUSTech/QEVIS) でオープンソース化されている。