@2023__ICSE-SEIP__An Empirical Study on Change-induced Incidents of Online Service Systems

> [!abstract] 概要(原文 abstract の和訳) > 本研究では、ソフトウェアシステムにおいてシステム変更によって引き起こされるインシデント——変更起因インシデント——を体系的に調査する。大規模な産業的オンラインサービスシステムにおける 161 件の変更起因インシデントのデータセットを収集し、インシデントの特性、変更の特性、根本原因、緩和措置を分析する。調査の結果、変更起因インシデントは通常のインシデントよりも重篤度が高く、解決に時間がかかることが分かった。また、変更起因インシデントの調査において 4 つの課題を特定した。これらの課題は、将来の変更起因インシデントの解決の効率性と精度を向上させる機会を提供する。 ## 論文情報 - **タイトル**: An Empirical Study on Change-induced Incidents of Online Service Systems - **著者**: [[Yifan Wu]](北京大学)、Bingxu Chai([[Ant Group]])、[[Ying Li]](北京大学、責任著者)、Bingchang Liu([[Ant Group]])、Jianguo Li([[Ant Group]]、責任著者)、Yong Yang(北京大学)、Wei Jiang([[Ant Group]]) - **媒体**: IEEE/ACM 45th International Conference on Software Engineering: Software Engineering in Practice (ICSE-SEIP 2023) - **発表**: 2023年5月(ICSE-SEIP 2023) - **DOI**: 10.1109/ICSE-SEIP58684.2023.00027 - **PDF**: [[.raw/papers/An_Empirical_Study_on_Change-induced_Incidents_of_Online_Service_Systems.pdf]] - **所属**: [[Peking University]]・[[Ant Group]] ## 概要アント・グループ(Ant Group)の大規模マイクロサービス環境(3000 以上のマイクロサービス、100 万以上のコンテナ、毎分 100 万以上のリクエスト、1 日に数万件の変更)での 161 件の変更起因インシデントを実証分析した論文。変更起因インシデントの特性を通常インシデントと比較し、4 つの課題を抽出した。 **Figure 3: 図** ![[_attachments/An_Empirical_Study_on_Change-induced_Incidents_of_Online_Service_Systems/fig3-figure.png]] (Figure 3. Workﬂow of change management を示す。) ## 実験設定 - **対象システム**: Ant Group のオンラインサービスシステム(超大規模マイクロサービス環境) - **データセット**: 161 件の変更起因インシデント(手動分類・ポストモーテム分析) - **比較対象**: 同システムの通常インシデントとの比較 - **分析軸**: 重篤度・解決時間(TTD/TTF)・変更カテゴリ・根本原因・緩和策・4 課題の特定 **Figure 2: 図** ![[_attachments/An_Empirical_Study_on_Change-induced_Incidents_of_Online_Service_Systems/fig2-figure.png]] (Figure 2. Lifecycle of change-induced incidents を示す。) **Figure 4: 分布** ![[_attachments/An_Empirical_Study_on_Change-induced_Incidents_of_Online_Service_Systems/fig4-distribution.png]] (Figure 4. Distribution of incident severity level に関する分布を示す。) **Figure 5: 分布** ![[_attachments/An_Empirical_Study_on_Change-induced_Incidents_of_Online_Service_Systems/fig5-distribution.png]] (Figure 5. Distribution of incident resolution time に関する分布を示す。) **Figure 1: アーキテクチャ** ![[_attachments/An_Empirical_Study_on_Change-induced_Incidents_of_Online_Service_Systems/fig1-architecture.png]] (Figure 1. example of the online service system architecture in Ant Group に関するアーキテクチャを示す。) ## インシデント特性の比較 ### 重篤度(変更起因 vs 通常) | 重篤度 | 変更起因 | 通常 | |-------|--------|------| | High/Critical | **13%** | 5% | → 変更起因インシデントは **2.6 倍**多くの High/Critical 重篤度インシデントを生む。 ### 解決時間(TTD/TTF の 75 パーセンタイル比較) | 指標 | 変更起因 | 通常 | 倍率 | |-----|--------|------|------| | TTD(検知時間) 75th pct | 変更起因が長い | 通常 | **26.8 倍** | | TTF(修正時間) 75th pct | 変更起因が長い | 通常 | **1.4 倍** | → 変更起因インシデントは特に検知が遅れやすい(ロングテール分布)。 ## 変更カテゴリと根本原因 ### 変更カテゴリ | カテゴリ | 比率 | |--------|------| | コード変更 | 54.7% | | アプリ構成変更 | 22.4% | | インフラ変更 | 10.6% | | データ変更 | 9.3% | | トラフィック変更 | 3.1% | ### 根本原因(主要カテゴリ) | 根本原因 | 割合 | |---------|------| | コード欠陥 | 最多 | | 構成エラー | 19.3% | | 不適切な変更操作 | — | | 変更制約問題 | — | | キャパシティ問題 | — | | 想定内の原因 | — | ## 緩和戦略 - **ロールバック**: すべての変更カテゴリで最も一般的な緩和策 - **ホットフィックス**: 2 番目に多い手段 - **インフラ変更・トラフィックスイッチ**: コード変更起因のインシデントで使用 - **無操作**: 軽微インシデントまたは自己回復ケースで発生 ## 4 つの主要課題 ### 課題 1: 不足したモニタリング指標(Inadequate Monitoring Metrics) 変更後に異常を示すべきメトリクスが定義されていない、またはカバレッジが不十分。変更の影響を直接反映する指標が欠けているため、異常の早期検知が困難になる。 ### 課題 2: 不正確な変更モニタリング(Inaccurate Change Monitoring) 変更の影響範囲とモニタリングの対象がずれており、実際に影響を受けるサービスやコンポーネントが監視されていない。変更の伝播が複雑なマイクロサービス環境でとくに顕在化する。 ### 課題 3: 低ビジネストラフィック(Low Business Traffic) 変更直後はトラフィックが少なく、性能劣化や機能障害が顕在化しにくい。問題が本番トラフィック増大後に初めて現れるケースがあり、カナリアリリースだけでは捉えきれない。 ### 課題 4: 非効率な異常変更箇所特定(Inefficient Abnormal Change Localization) 多数の変更が同時進行する環境で、問題を引き起こした特定の変更を絞り込むことが難しい。変更の因果関係特定にエンジニアの手動調査が必要となりコストが高い。 ## 新規性 - 超大規模産業環境(Ant Group)での実証データに基づいた変更起因インシデントの特性分析 - 変更起因インシデント固有の 4 課題の体系的整理(将来の研究・ツール設計の指針) - [[@2023__ISSRE__How to Manage Change-Induced Incidents - Lessons from the Study of Incident Life Cycle|Zhao+, ISSRE2023]] と補完的: こちらは Ant Group 環境を対象に、特性比較と課題を重視 ## 関連ページとの比較 > [!note] 同年 ISSRE 論文([[@2023__ISSRE__How to Manage Change-Induced Incidents - Lessons from the Study of Incident Life Cycle]])との比較 > - **Zhao+ (ISSRE2023)**: 北京大学/アリババ、231 件、ライフサイクル全体(RaIC/RbIC)の分析に注力 > - **本論文 (ICSE-SEIP2023)**: 北京大学/Ant Group、161 件、変更起因インシデントの特性と 4 課題の特定に注力 > - 両論文ともに 2023 年に PKU の [[Ying Li]] らが共著として関与しており、相補的な研究として位置づけられる ## 強み / 弱点・課題 **強み**: - 超大規模プロダクション環境(日に数万件の変更)の実データに基づく - 通常インシデントとの定量比較により変更起因インシデントの特殊性を明確化 - 4 課題が具体的で実践的なロードマップを提示 **弱点・課題**: - 単一企業(Ant Group)のデータであり、他環境への一般化に注意が必要 - 根本原因の詳細内訳の数値が一部のカテゴリのみ公開 - 課題の定量的な影響度が示されておらず、優先度づけの根拠が弱い ## 関連ページ - **概念**: [[wiki/concepts/インシデント管理|インシデント管理]]、[[wiki/concepts/変更起因インシデント|変更起因インシデント]]、[[wiki/concepts/AIOps|AIOps]] - **関連論文**: [[@2023__ISSRE__How to Manage Change-Induced Incidents - Lessons from the Study of Incident Life Cycle]] - **著者**: [[Yifan Wu]]、[[Ying Li]] - **所属**: [[Ant Group]]、[[Peking University]]