## Memo
- Google Alertより
- [[ベイジアンネットワーク]]で依存関係把握
- Graphical Variational Autoencoder
- [[反実仮想機械学習]]を用いる。
## Abstract
クラウドアプリケーションは、大規模なモノリシックサービスから、疎結合のマイクロサービスの複雑なグラフにますますシフトしています。マイクロサービスは、モジュール性と弾力性という利点がありますが、階層間の依存関係が背圧やQoS違反の連鎖を引き起こすため、クラスタ管理とパフォーマンスデバッグが複雑になります。クラウドサービスのパフォーマンスデバッグに関する先行研究は、経験的な手法に依存するか、パフォーマンス問題の根本原因を診断するために教師あり学習を使用していますが、これは重要なアプリケーションインスツルメンテーションを必要とし、実際に展開することが困難です。
本発表では、実用性と拡張性を重視した、対話型クラウドマイクロサービスのための機械学習駆動型根本原因分析システム「Sage」を紹介します。Sageは、トレースラベリングのオーバーヘッドを回避するために教師なしMLモデルを活用し、オンラインで予測できないパフォーマンスの根本原因を決定するためにマイクロサービス間の依存性の影響をキャプチャし、クラウドサービスのQoSを回復するために是正措置を適用します。専用のローカルクラスタとGoogle Compute Engine上の大規模クラスタの両方で行った実験では、Sageが一貫して93%以上の精度でQoS違反の根本原因を正確に特定し、パフォーマンスの予測可能性を向上させることを示しました。
[[2021__ASPLOS__Sage―Practical and Scalable ML-Driven Performance Debugging in Microservices__translations]]