7月7日 15:00~ ## スライド ![[okabelab_meeting_202207.pdf]] ## アウトライン [[DICOMO 2022 招待講演アウトライン]]より - リスクの受容の考え方の変化 - ハードウェアは壊れるまでの期間 - SREは、期間内に発生する失敗イベントの個数で信頼性を評価。 期間はスライドしていく。 ## 文献 - [[信頼性]] - [[エンジニアのための信頼性工学]] - [[Practical Reliability Engineering]] - [[信頼性工学 電氣學會雜誌 - 1970]] - [[AGREEレポート]] - [[高速マルチメディア通信ネットワーク]] - [[The VOID Report 2021]] - [[SRE Workbook 障害トリガーと根本原因]] - [[LeanとDevOpsの科学 - ソフトウェアのデリバリーのパフォーマンス]] - [[Effective DevOps]] - [[ソフトウェア開発の歴史]] - [[10+ Deploys Per Day - Dev and Ops Cooperation at Flickr]] - [[Verification VS Validation]] - [[Reliability-Driven AIOps for Cloud Resilience - ICSE21 Keynote]] - 論文 - [[Handbook of Software Reliability Engineering]] - [[Software Reliability Engineering|ソフトウェア信頼性工学]]の1990sの書籍 - [[2007__FOSE__Software Reliability Engineering - A Roadmap]] - ソフトウェア信頼性工学を整理した論文 - [[2004__TDSC__Basic Concepts and Taxonomy of Dependable and Secure Computing]] - [[ディペンダビリティ]]とセキュリティの定義の論文 - [[2006__Reliability Engineering and System Safety__Highlights from the Early (and pre-) History of Reliability Engineering]] - [[信頼性工学]]の歴史 - [[信頼性という言葉の初出]] - 1970sぐらいのソフトウェアの時代の信頼性の考え方まで - [[2013__JCSS__A Survey on Reliability in Distributed Systems]] - 分散システムの信頼性に関するサーベイ論文 - [[2009__PRDC__Cloud Service Reliability - Modeling and Analysis]] - クラウドシステムのモデル化を試みている - [[2003__USENIX Symposium__Why do Internet services fail, and what can be done about it?]] - 今で言うクラウドの障害データに関するまとまった論文。めちゃ長い。 - [[2020__ICSME__Failures and Fixes - A Study of Software System Incident Response]] - いろんなポストモーテムの分析 - [[2021__TIST__A Survey of AIOps Methods for Failure Management]] - [[AIOps]]のサーベイ論文