2024__Dissertation__Machine Learning for Out of Distribution Database Workloads

## Memo - MITの博士学位論文。 ## Abstract DBMSのクエリオプティマイザは、カーディナリティ推定における単純化された仮定や、クエリの待ち時間を予測するためのコストモデルの仮定など、いくつかのヒューリスティックを用いて決定を下すように設計されている。クラウドファーストDBMSアーキテクチャの台頭により、実行されたクエリに関する大量のデータを収集することが可能になりました。これにより、この実行履歴を利用するモデルを使用して、DBMSのヒューリスティックを改善する方法が得られます。特に、このようなモデルは特定の作業負荷に特化させることができるため、ある結合がいつも予想外に遅いとか、あるテーブルがいつも予想以上に大きいといったパターンを学習することで、平均よりもはるかに良い結果を出すことができるかもしれない。しかし、MLシステムを実世界に導入することには問題がある。実際のワークロードでOoD（Out of Distribution）シナリオを避けるのは難しい。OoDシナリオでは、MLモデルはしばしば驚くべき失敗をする。本論文では、このようなOoDシナリオをデータベースのワークロードの文脈でいくつか紹介し、MLモデルがこのようなケースで簡単に壊滅的な失敗をすることを示す。これらのシナリオは、新しいカラムや新しい結合などの新しいクエリパターンから、異なるハードウェアやシステム負荷における実行時間のばらつきまで多岐にわたる。それぞれのケースにおいて、OoD設定においてより信頼性が高く、ロバストな性能を持つMLモデルを得るためのテクニックを開発するために、データベース固有の知識を利用する。