[LINE DEVELOPER DAY 2021](https://linedevday.linecorp.com/2021/ja/sessions/175) LINE Platformのサーバーは、最高の信頼性(Reliability)を目指し運営しています。この目標を達成するために、LINEのサーバプラットフォーム組織で実行する内容を紹介します。 10年間継続的に改善された障害への対応プロセスについて、障害から学び改善点を見つける文化と実際の事例を紹介します。 [Outage Handling Process and Culture of the LINE Platform Server - Speaker Deck](https://speakerdeck.com/line_devday2021/outage-handling-process-and-culture-of-the-line-platform-server) ## Outage Handling Process ![[Pasted image 20211111161559.png]] 1. DETECT & CONTACT 2. CLASSIFY - Outage levelの設定(1~5) - 分類軸 - Coverage: DAU percentage affected by outage - Seriousness (空間軸だけで、インシデントレベルを決めている?) ![[Pasted image 20211111161701.png]] 3. BROADCAST - Slackチャンネルの明示 - 共有テンプレート - Outage notice - Outage level: - Outage product: - Detectiton time: - Issues: - Cause: - Service affected: - Status: 4. REPAIR 5. WRITE REPORT 6. RETROSPECTIVE - Actio itemsの管理 - イシューチケット登録 - OKRでイシューをトラッキング