[[SRE NEXT 2022]]のウォッチリスト。
[Schedule | SRE NEXT 2022](https://sre-next.dev/2022/schedule/)
スライドリスト [SRE NEXT 2022 スライドまとめ(非公式) - Google スプレッドシート](https://docs.google.com/spreadsheets/d/1VIi_0-94W06A5s7GDn3_-AqDe6v2NFFOLOiscn3gqpY/edit#gid=0)
## 5/14
## How We Foster "Reliability" in Diversity
スライド [How We Foster Reliability in Diversity - Speaker Deck](https://speakerdeck.com/nari_ex/how-we-foster-reliability-in-diversity)
- 組織コンテキストの多様性を踏まえたSREの深堀り
- 5つのステップ
- 組織の氷山モデル
![[Pasted image 20220514124839.png]]
- SREのMVVを定義する
- 企業の活動の全体像
- 企業方針のコンテキストの把握
- 信頼性のマインドセット
- カルチャーの醸成に関するKPI
-
## SREの歩き方・進め方
## 1年間のポストモーテム運用と、そこから生まれたツールsre-advisor
- ポストモーテムを書く基準 エラーバジェット消費量
- sre-advisor クラウドインフラ上の設定を取得、問題がある内容を検出
- SREが外形的にわかることを書く。
[一人から始めるプロダクトSRE / How to start SRE in a product team, all by yourself - Speaker Deck](https://speakerdeck.com/vtryo/how-to-start-sre-in-a-product-team-all-by-yourself)https://speakerdeck.com/vtryo/how-to-start-sre-in-a-product-team-all-by-yourself
- Steps toward self-service operations in eureka
- [Steps toward self-service operations in eureka - Speaker Deck](https://speakerdeck.com/fukubaka0825/steps-toward-self-service-operations-in-eureka?slide=31)
[heyにおけるSREの大切さ~マルチプロダクト運用の「楽しさ」と「難しさ」および今後の展望~ - Speaker Deck](https://speakerdeck.com/fufuhu/heyniokerusrefalseda-qie-sa-marutipurodakutoyun-yong-false-le-sisa-to-nan-sisa-oyobijin-hou-falsezhan-wang?slide=10)
- より意味のある監視を目指して、外形監視の有効活用
## LINEスタンプの実例紹介:小さく始める障害検知・対応・振り返りの改善プラクティス
- ヒロイズム
- Day1クロージング
## 5/15
### SRE bridge the gap: Feature development to Core API / 機能開発チームとコアAPIチームの架け橋としてのSRE
- Incident Manager On Callか。コアとなるSLOが違反したときのハンドリング?
- IMOC
- レイヤのつながりの部分 cracks
- Edge, Ingress, Routing, Application
- 今リスクになっているかを評価
- Resiliency はトップダウンで前から言われていた。
- shockが必要なもの。時間限定セール。スロットリングはしない。
- 34M r/m
- 11M QPS
### Sensible Incident Management for Software Startups
### プロダクション環境の信頼性を損ねず観測する技術
[プロダクション環境の信頼性を損ねず観測する技術 - Speaker Deck](https://speakerdeck.com/egmc/purotakusiyonhuan-jing-falsexin-lai-xing-wosun-nesuguan-ce-suruji-shu)
- ログエージェント負荷
- KVS 高負荷で接続エラー
- エラーログが起きている cron ログチェックおわらない マッチ行 サーバリソースを逼迫し
- リーク可視化
- case3
- アラートを処理するためのキューが詰まる
- 配送遅延のSLOは10分まで > over
- 似ているアラートはdrop
case1: NATがつまった -> NWチームへエスカレ -> GCP宛で再送 -> どうやらGrafana Cloudの障害かも? (ここまで30分から1時間)
case2: サーバ単位ですぐわかったので、sshしてすぐわかった (30分以内)。
### メルカリグループにおけるSREs
[Embedded SRE at Mercari - Speaker Deck](https://speakerdeck.com/tcnksm/embedded-sre-at-mercari)
- ROAD
[The ROAD to SRE. There are many ways to introduce Site… | by Bruce Dominguez | Medium](https://medium.com/@bruce_25864/the-road-to-sre-ad4c73df78b8)
- Embeded SRE
- ローテーションが決まっている。
- 検索システム SRE
- Search or
- Future
- DeivisionへのEmbed
- SREナレッジのツール化
- Merpay SRE
- 70+ microservices
- 1000+ pods
### SRE NEXT 2020 → 2022 Conference Chair トーク