スタンフォード大学の分散システムの研究グループ。 ## Cloud Computing [Resource efficient cloud computing | Multiscale Architecture & Systems Team](https://web.stanford.edu/group/mast/cgi-bin/drupal/content/resource-efficient-cloud-computing) 私たちの研究は、主にウェアハウス規模のデータセンター、つまりパブリッククラウドやプライベートクラウドに電力を供給し、私たちが携帯電話やその他の組み込みデバイスを通じて利用している数多くのサービスをホストしている巨大なコンピュータに集中しています。クラスタ管理レイヤは、ワークロードが何万台ものサーバで構成される共有プールからリソースを取得する方法を決定します。開発者は、ユーザー向けサービスでは低レイテンシーと高スループット、アナリティクスでは高速な実行時間など、ワークロードが高いQoS(Quality-of-Service)を達成するために十分なリソースを受け取ることを期待する。オペレーターは、固定されたリソースセットができるだけ多くのワークロードをホストできるよう、高いリソース利用率を期待しています。残念ながら、両方の期待に応えることは難しい。現在、ほとんどのデータセンターでは、QoS制約を満たすためにワークロードが過剰なリソース割り当てで実行されているため、低い利用率で運用されています。 我々は、クラスタ管理を改善するために機械学習技術の使用を提唱した[ASPLOS'13, TOCS'13, ICAC'13, IISWC'13, ASPLOS'14, SOCC'15, ASPLOS'16, ASPLOS'17]。具体的には、リソースの種類や速度によって性能がどのように変化するか、スケールアップとスケールアウトの動作、さまざまなリソース上の干渉に対する感度、リソース自身が生成する干渉パターン、さまざまな設定パラメータに対する感度など、ワークロードの特性を深く理解するために分類技術を使用しました。このような詳細な知識は、各ワークロードからの少量のプロファイリング情報と、過去に実行されたワークロードからの大量のデータを組み合わせることによって、実用的に導き出せることを示した。この知識を利用して、利用率を向上させ、ワークロードのQoSを保護する新しいクラスタ管理機能を構築しました。オンプレミスとクラウドの両方のデプロイメントに対するワークロードの自動ライツサイジング、異種リソースへのワークロードの最適化マッピング、干渉の影響を最小化する共有リソース上のワークロードの効率的なビンパッキング、データセンターのワークロードに対するQoSを意識したアドミッション制御、QoSの統計的保証によるワークロードの高速スケジューリングなどです。これらの機能により、開発者はワークロードが必要とするもの(QoS目標)に集中することができ、目標を達成する方法(詳細なリソースの割り当てとスケジューリング)に集中する必要はありません。 また、クラスタ管理におけるフィードバックベースの制御とオンライン最適化の利用を提唱した[HPCA'14、ISCA'14、ISCA'15、TOC'16]。具体的には、ウェブ検索のような何千台ものサーバーにまたがってスケールする複雑なサービスに焦点を当てました。エンドツーエンドのパフォーマンスメトリクスを使用して、コアやメモリの使用量、キャッシュやI/O帯域幅の割り当て、クロック周波数や電圧設定などの低レベルのハードウェアやシステムパラメータを動的に管理しました。一般に信じられているのとは異なり、オンライン・サービスはエネルギーに比例した方法で動作できることを実証しました。また、同じクラスタ上で実行されているオンラインサービスのスループットやテールレイテンシに影響を与えることなく、クラスタ内の一時的にアイドリングしているリソースで機械学習ワークロードを実行する方法も示しました。この2つの機能をGoogle検索の本番クラスタで実証し、エネルギーコストやサーバー増設のための資本コストを数百万ドル削減する方法を紹介した。クラスタ管理に関する我々の研究の主要なアイデアは、現在オープンソースおよびプロプライエタリのクラスタマネージャに統合されている。