## Memo
## Memo with LLM
## Abstract
大規模なオンラインサービスシステムにおいて、サービスの品質を向上させるため、エンジニアは多様なモニタリングデータを収集し、アラートをトリガーする多くのルールを定義する必要があります。しかし、アラートの数は、オンコールエンジニアが適切に調査できる範囲をはるかに超えています。そのため、実践ではアラートを手動のルールに基づいて複数の優先度レベルに分類し、オンコールエンジニアは主に最高優先度レベル(つまり重大なアラート)のアラート対応に注力しています。残念ながら、オンラインサービスの複雑で動的な性質のため、このルールベースのアプローチは重大なアラートの見逃しや、非重大なアラートへのトラブルシューティング時間の無駄遣いを引き起こします。本論文では、重大なアラートを自動的に特定する適応型フレームワーク「AlertRank」を提案します。具体的には、AlertRankは強力な解釈可能な特徴量(テキストと時間軸のアラート特徴量、監視メトリクスの単変量および多変量異常特徴量)を抽出します。[[XGBoost]]ランキングアルゴリズムを採用し、すべての受信アラートから重大なアラートを特定し、トレーニングとテストの両方用のラベルを取得するための新規手法を用います。世界有数の商業銀行のデータを対象にした実験結果から、AlertRankは有効であり、平均F1スコア0.89を達成し、すべてのベースラインを凌駕しています。実践からのフィードバックでは、AlertRankがオンコールエンジニアの手動作業を大幅に削減できることが示されています。