2024__CLOUD__Intent-Driven Multi-Engine Observability Dataflows for Heterogeneous Geo-Distributed Clouds

## Memo ## Memo with LLM ## Abstract パブリッククラウド、エッジ、オンプレミスの異種基板を横断するマルチクラウド・コンピューティングの成長に伴い、大規模な地理分散システムの可用性とパフォーマンスの状態を把握する上で、[[Observability]]が重要性を増している。複数の地理的に分散したクラウドから観測可能性データを収集、処理、分析することは、連鎖した関数からなるデータフローとして自然にモデル化することができます。これらの観測可能性フローは、($a$)コスト予算、リソースのオーバーヘッド、消費されるネットワーク帯域幅、およびレイテンシを低く保つこと、(b)多数のクラスタへのスケーリング、(c)リソースの制約とサービスレベルの目標を満たすための観測可能性データ量の適応、(d)フローの各処理機能に応じてデータフローごとに多様なエンジンをサポートすること、(e)クローズドループのオーケストレーションを含む観測可能性処理機能の配置の自動化と最適化、などのユニークな一連の課題を提起する。この目的に向けて、我々はマルチクラウド・マルチエンジンの観測可能性処理フレームワークであるOctopusを提案する。 Octopusでは、宣言型観測可能性データフロー（DOD）は、サイト信頼性エンジニア（[[notes/sre/SRE]]）が自己駆動型の観測可能性データフローを指定するための、インテント駆動型の抽象化として機能します。 Octopusのデータフローエンジンは、これらのDODをオーケストレーションし、複数のクラウドやクラスタにまたがる大規模なファブリック上で観測可能性データフローを自動的にデプロイし、自己管理します。 Octopusは、ストリーミングとバッチ機能をミックスしてサポートし、プラグイン可能なランタイムエンジンをサポートすることで、複数のエンジンによる観測可能性フローを柔軟に構成することができる。 Octopusの初期導入経験は有望である。大陸にまたがる1つのクラウドと10のエッジクラスタにわたって、本番レベルのメトリクス分析とログ処理のデータフローを、客観的に最適化された方法で展開することに成功しました。その結果、データ量とWAN帯域幅をそれぞれ$2.3mathrm{x}$と56 %節約でき、入力負荷の変化に応じてDODの自動スケーリングをサポートでき、レイテンシ目標を損なうことなくクラスタ間で機能を柔軟に再配置できることが分かりました。