## Memo
- 15件のインシデント分析
## Abstract
本論文は,生産中のソフトウェアシステムをより良く進化させ,維持し,サポートする方法を理解することを目的として,ソフトウェアシステムの障害に関する調査研究の結果を提示する.我々は、エンジニアへの詳細なインタビューを通じて収集した15件のインシデントと、一般に公開されているインシデントレポート(通常、[[ポストモーテム|Postmortem]]の一部として作成される)から抽出した15件のインシデント、合計30件を定性的に分析した。この分析では、故障がどのように発生し、どのように検出、調査、軽減されたかを理解し、分類することに重点を置きました。また、実務の現状と関連する課題に関する分析的洞察を、11の主要な見解という形でまとめました。例えば、故障はシステム全体に連鎖し、大規模な機能停止につながる可能性があること、また、エンジニアは自分たちがサポートしているシステムのスケーリング限界を、その限界を超えるまで理解しないことが多いこと、などが挙げられます。私たちが特定した課題は、システムの設計とサポート方法の改善につながるものであると、私たちは主張しています。
[[2020__ICSME__Failures and Fixes - A Study of Software System Incident Response__translations]]