Doctor of Philosophy in Computer Science in the Graduate College of the University of Illinois Urbana-Champaign, 2024 ## Memo ## Memo with LLM ## Abstract 大規模なクラウドコンピューティングシステムは、リソース割り当て、ジョブスケジューリング、電力管理などの重要なシステム管理タスクの意思決定アルゴリズムに大きく依存している。多様なワークロード、ハードウェアプラットフォーム、動作条件にまたがる複雑な相互作用により、すべてのシナリオでうまく機能する固定的なヒューリスティックスを考案することは非常に困難であるためだ。最適化されたシステム管理ポリシーを自動的に学習する機械学習技術が提案されているが、既存のアプローチは実用的な限界に直面しており、本番グレードのクラウドシステムに必要な堅牢性に欠けている。本論文は、効率的でロバストな[[オンライン学習]]という新しい抽象化駆動型のパラダイムを開拓し、大規模なクラウドシステム管理を根本的に変革する。我々は、クラウド環境とのその場でのインタラクションを通じて、継続的に最適化された管理ポリシーを探索・改良することにより、最適化された管理ポリシーを発見するために、システムドメイン知識を中核とした深層強化学習を活用する一般的なフレームワークを開発する。(1)分散学習されたポリシーを調整し、[[マルチエージェント]]の干渉を解決し、システム全体の目標に安定的に収束させる仮想エージェントの抽象化、(2)異種クラウドアプリケーションやプラットフォームに迅速に適応できる一般化可能なポリシーの埋め込みを抽出するメタ学習者の抽象化である。この抽象化駆動型アプローチは、広範なオンライン学習アルゴリズムと多様なシステム管理タスクを実用的かつ拡張可能にサポートする。 FIRM[1](マイクロサービス向け)、SIMPPO[2](サーバーレス・コンピューティング向け)、μ-Serve[3](ディープラーニング・モデル・サービング向け)のようなシステムでインスタンス化された我々の革新的なフレームワークは、従来のヒューリスティック駆動型アプローチと比較して、リソース効率、性能分離、電力最適化、汎化において桁違いの改善を実現している。より深いところでは、実用的で堅牢な自律的クラウドシステム管理の基盤を確立している。我々の貢献は、数学的モデルや最適化からシステム設計、実装、展開に至るまで、あらゆるスタックに及んでいる。