[LINE DEVELOPER DAY 2021](https://linedevday.linecorp.com/2021/ja/sessions/175)
LINE Platformのサーバーは、最高の信頼性(Reliability)を目指し運営しています。この目標を達成するために、LINEのサーバプラットフォーム組織で実行する内容を紹介します。
10年間継続的に改善された障害への対応プロセスについて、障害から学び改善点を見つける文化と実際の事例を紹介します。
[Outage Handling Process and Culture of the LINE Platform Server - Speaker Deck](https://speakerdeck.com/line_devday2021/outage-handling-process-and-culture-of-the-line-platform-server)
## Outage Handling Process
![[Pasted image 20211111161559.png]]
1. DETECT & CONTACT
2. CLASSIFY
- Outage levelの設定(1~5)
- 分類軸
- Coverage: DAU percentage affected by outage
- Seriousness
(空間軸だけで、インシデントレベルを決めている?)
![[Pasted image 20211111161701.png]]
3. BROADCAST
- Slackチャンネルの明示
- 共有テンプレート
- Outage notice
- Outage level:
- Outage product:
- Detectiton time:
- Issues:
- Cause:
- Service affected:
- Status:
4. REPAIR
5. WRITE REPORT
6. RETROSPECTIVE
- Actio itemsの管理
- イシューチケット登録
- OKRでイシューをトラッキング