## Memo 研究室の先生から教えてもらった今年のSIGCOMMの論文。インシデントを関連のあるチームにルーティングするというあまり見かけない問題で、Microsoftらしい多数のチームに分散した大規模な環境を想定している。 [Scouts: Improving the Diagnosis Process Through Domain-customized Incident Routing - Microsoft Research](https://www.microsoft.com/en-us/research/publication/scouts-improving-the-diagnosis-process-through-domain-customized-incident-routing/) ## Abstract インシデントのルーティングは、クラウドにおけるサービスレベル目標を維持する上で非常に重要です。ルーティングを誤ると、診断までの時間が10倍になることもあります。 インシデントを適切にルーティングすることは、今日のデータセンター(DC)のアプリケーションとその依存関係が複雑であることから、困難を伴います。例えば、VM上で動作するアプリケーションは、機能しているホストサーバ、リモートストレージサービス、仮想および物理ネットワークコンポーネントに依存している場合があります。このような複雑さを完全に学習し、インシデントルーティング問題を解決することは、1つのチームやルールベースのシステム、あるいは機械学習ソリューションでは困難です。私たちは、チームごとのスカウトを使った別のアプローチを提案します。各チームのスカウトはゲートキーパーの役割を果たし、関連性のあるインシデントをチームにルーティングし、関連性のないインシデントをルーティングしないようにします。私たちは、これらのスカウトの集合体によって問題を解決します。現在、本番環境に導入されているPhyNet Scoutだけでも、65%の誤ルーティングされたインシデントの解決までの時間を短縮しています。削減することができました。 ## 1. Introduction