[[SRE NEXT 2022]]のウォッチリスト。 [Schedule | SRE NEXT 2022](https://sre-next.dev/2022/schedule/) スライドリスト [SRE NEXT 2022 スライドまとめ(非公式) - Google スプレッドシート](https://docs.google.com/spreadsheets/d/1VIi_0-94W06A5s7GDn3_-AqDe6v2NFFOLOiscn3gqpY/edit#gid=0) ## 5/14 ## How We Foster "Reliability" in Diversity スライド [How We Foster Reliability in Diversity - Speaker Deck](https://speakerdeck.com/nari_ex/how-we-foster-reliability-in-diversity) - 組織コンテキストの多様性を踏まえたSREの深堀り - 5つのステップ - 組織の氷山モデル ![[Pasted image 20220514124839.png]] - SREのMVVを定義する - 企業の活動の全体像 - 企業方針のコンテキストの把握 - 信頼性のマインドセット - カルチャーの醸成に関するKPI - ## SREの歩き方・進め方 ## 1年間のポストモーテム運用と、そこから生まれたツールsre-advisor - ポストモーテムを書く基準 エラーバジェット消費量 - sre-advisor クラウドインフラ上の設定を取得、問題がある内容を検出 - SREが外形的にわかることを書く。 [一人から始めるプロダクトSRE / How to start SRE in a product team, all by yourself - Speaker Deck](https://speakerdeck.com/vtryo/how-to-start-sre-in-a-product-team-all-by-yourself)https://speakerdeck.com/vtryo/how-to-start-sre-in-a-product-team-all-by-yourself - Steps toward self-service operations in eureka - [Steps toward self-service operations in eureka - Speaker Deck](https://speakerdeck.com/fukubaka0825/steps-toward-self-service-operations-in-eureka?slide=31) [heyにおけるSREの大切さ~マルチプロダクト運用の「楽しさ」と「難しさ」および今後の展望~ - Speaker Deck](https://speakerdeck.com/fufuhu/heyniokerusrefalseda-qie-sa-marutipurodakutoyun-yong-false-le-sisa-to-nan-sisa-oyobijin-hou-falsezhan-wang?slide=10) - より意味のある監視を目指して、外形監視の有効活用 ## LINEスタンプの実例紹介:小さく始める障害検知・対応・振り返りの改善プラクティス - ヒロイズム - Day1クロージング ## 5/15 ### SRE bridge the gap: Feature development to Core API / 機能開発チームとコアAPIチームの架け橋としてのSRE - Incident Manager On Callか。コアとなるSLOが違反したときのハンドリング? - IMOC - レイヤのつながりの部分 cracks - Edge, Ingress, Routing, Application - 今リスクになっているかを評価 - Resiliency はトップダウンで前から言われていた。 - shockが必要なもの。時間限定セール。スロットリングはしない。 - 34M r/m - 11M QPS ### Sensible Incident Management for Software Startups ### プロダクション環境の信頼性を損ねず観測する技術 [プロダクション環境の信頼性を損ねず観測する技術 - Speaker Deck](https://speakerdeck.com/egmc/purotakusiyonhuan-jing-falsexin-lai-xing-wosun-nesuguan-ce-suruji-shu) - ログエージェント負荷 - KVS 高負荷で接続エラー - エラーログが起きている cron ログチェックおわらない マッチ行 サーバリソースを逼迫し - リーク可視化 - case3 - アラートを処理するためのキューが詰まる - 配送遅延のSLOは10分まで > over - 似ているアラートはdrop case1: NATがつまった -> NWチームへエスカレ -> GCP宛で再送 -> どうやらGrafana Cloudの障害かも? (ここまで30分から1時間) case2: サーバ単位ですぐわかったので、sshしてすぐわかった (30分以内)。 ### メルカリグループにおけるSREs [Embedded SRE at Mercari - Speaker Deck](https://speakerdeck.com/tcnksm/embedded-sre-at-mercari) - ROAD [The ROAD to SRE. There are many ways to introduce Site… | by Bruce Dominguez | Medium](https://medium.com/@bruce_25864/the-road-to-sre-ad4c73df78b8) - Embeded SRE - ローテーションが決まっている。 - 検索システム SRE - Search or - Future - DeivisionへのEmbed - SREナレッジのツール化 - Merpay SRE - 70+ microservices - 1000+ pods ### SRE NEXT 2020 → 2022 Conference Chair トーク