## Memo カルフォルニア大学の博士論文。 ## Memo with LLM ## Abstract クラウド・コンピューティングは、今日の世界にとって不可欠な要素である。クラウド・コンピューティングは主に、個人や企業がボタンをクリックするだけで、ニーズに合わせてコンピュートやストレージなどのリソースをプロビジョニングし、管理することを可能にする。ソフトウェア開発へのモジュラー・アプローチにより、クラウド・プロバイダーは急速に進化し、クラウドをミッション・クリティカルなものにしているユーザーに、より多くのサービスを提供できるようになった。このアキレス腱であるクラウドをインシデントに直面することなく迅速にサービスできるようにするため、クラウド・プロバイダーは多大な人的資源を投入している。しかし、クラウドが提供するサービスの数が増え続け、機械学習ワークロードの急増などワークロードの種類が増加している昨今、クラウドの迅速なサービス性を確保するために、クラウドプロバイダーが人的リソースをこのペースで拡大することはもはや不可能である。 本論文では、現在3大クラウドで採用されている実際のデバッグワークフローの経験から得た洞察を活用し、クラウドのサービス性を向上させるための私の研究を紹介する。機械学習と自然言語処理から、クラウドの膨大な過去のデバッグデータを活用し、エンジニアを支援するツールを開発するテクニックを紹介する。一元化されたデバッグプレーンへの移行を可能にする「粗化」フレームワークを紹介し、このフレームワークを用いて構築されたツールの実用的な評価について議論する。 システム全体のログデータに対してエンジニアが実行できるデバッグクエリを生成できるツール「Revelio」を紹介し、その結果、インシデントの根本的な原因を知るヒントになる可能性が高い。また、多くのテクニックのベンチマークを可能にするため、サービスに故障を注入し、人間のユーザーとインターフェースし、システム全体の実行ログを収集できる分散システム・デバッグ・テストベッドを構築した。AutoARTSは、クラウド上のインシデントの長いポストモーテムレポートに、広範な分類法からすべての根本原因をタグ付けし、ポストモーテムから重要な情報をハイライトして分析を容易にするツールである。PerfRCAは、パフォーマンス劣化を推論するために、原因究明をプロダクション・スケールの遠隔測定に拡張できるツールである。最後に、クラウド全体のエンジニアのために、一般化可能なデバッグ支援を自動的に抽出する集中型アプローチに関する私のビジョンを紹介する。