## Memo - [[NetManAIOps]]の論文。 - 貢献 - アラートデータに基づいて一般的なインシデントをリアルタイムで予測する、効果的で解釈可能な手法(eWarn)を提案。 - 11の実世界のオンラインサービスシステム(エンジニアが各システムの3年間のアラートデータとインシデントを提供してくれた)に基づいて、警告データに基づいてインシデントを予測する最新のインシデント予測アプローチと現在の実践を比較する。実験結果は、eWarnの有効性を示すとともに、eWarnの主要コンポーネントの貢献度を確認した。 - 1億人以上のユーザーを抱える2つの大手商業銀行にeWarnを適用し、実際に大きな効果を得ることができた。また、eWarnを実際に使用した際の4つの具体的な事例を紹介した。 - [[LIME]]を使っている。 ## Abstract オンラインサービスシステムにおけるインシデントは、システムの可用性を劇的に低下させ、ユーザーエクスペリエンスを破壊する可能性があります。サービスの品質を保証し,経済的損失を低減するためには,インシデントの発生を事前に予測し,エンジニアがインシデントを未然に防ぐための行動をとることが重要である.本研究では、効果的で解釈可能なインシデント予測手法であるeWarnを提案する。eWarnは、過去のデータを利用して、近い将来にインシデントが発生するかどうかを、リアルタイムのアラートデータに基づいて予測する。具体的には、eWarnはまず、前兆警報のパターンを表現するための効果的な特徴(テキスト特徴と統計的特徴を含む)のセットを、慎重な特徴エンジニアリングによって抽出する。次に、(インシデントの発生とは関係のない)ノイズの多いアラートの影響を減らすために、eWarnはマルチインスタンス学習の手法を取り入れます。最後に、eWarnは機械学習によって分類モデルを構築し、最先端の説明技術([[LIME]])によって予測結果を解釈可能なレポートとして生成します。このようにして、早期警戒信号とその解釈可能なレポートをエンジニアに送信することで、インシデントの発生に対するエンジニアの理解と対処を容易にすることができます。大手商業銀行の11のオンラインサービスシステムを対象とした広範な研究により、eWarnの有効性が実証され、最先端の警告に基づくインシデント予測アプローチや、警告によるインシデント予測の実践を上回る結果が得られました。特に、私たちはeWarnを2つの大規模商業銀行に実際に適用し、実際の展開から得られた成功例と教訓を共有しました。 [[2020__ESEC-FSE__Real-Time Incident Prediction for Online Service Systems__translations]]