[[2021-06-16_Wed]] #sre
[Cookpad Lounge #4 「クックパッド SRE座談会」 - YouTube](https://www.youtube.com/watch?v=CzS8AKcGkwE)
クックパッドマートの話 SLI/SLO
2020年の課題
1. SREチームが信頼性トラッキングできていない
2. 合意形成
ALBのリクエスト成功率 p90
ゆるやかに変化していく負荷には機能しない。
[Web アプリケーションを把握するためのコンソール - クックパッド開発者ブログ](https://techlife.cookpad.com/entry/2018/04/02/140846)
Grafana SLI/SLO ダッシュボード
![[Pasted image 20210616205733.png]]
- 赤い部分が違反部分
- 定期的にみる仕組み
[インフラにかかるコストを正しく「説明」するための取り組み - クックパッド開発者ブログ](https://techlife.cookpad.com/entry/how-to-describe-infra-cost)
[インフラのコスト最適化の重要性と RI (リザーブドインスタンス) の維持管理におけるクックパッドでの取り組み - クックパッド開発者ブログ](https://techlife.cookpad.com/entry/cost-and-ri-optimization-in-cookpad)
技術部でコストを管理
EC2転送料金は分類していない。
1 AWSアカウントで、やりきっている。
共有リソースが少ない。プロジェクトが共用。
---
ほとんどECS。リバースプロキシ、Rails、Go/Java/Python Chatbot
海外チームはEKSをいれつつある。
ECSコンテナインスタンス
- ほとんどがEC2
- 一部 Fargate (Spot)
- 機械学習系
- ファイルシステムのI/Oが非常に激しい
- Fargate はI/Oが隔離されている(ようにみえる)
[ECS を利用したオフラインジョブの実行環境 - クックパッド開発者ブログ](https://techlife.cookpad.com/entry/2016/09/09/235007)
オートスケールの運用負荷。
ほとんどのワークロードは、コンテナ。
-> EKSに移行したいとかはない。
-> サーバーレス化 #serverless
Lambdaだと15分制限。長時間バッチどうするか。
サーバレスアプリの運用
- CDKに注目している。
- モニタリング
- ピタゴラスイッチ CloudWatch Logs観るの大変
- 主要なメトリックを一覧できるダッシュボードが自動でほしい
- ECS環境では、hako-consoleでできている。
[Grafana の scripted dashboards を利用してダッシュボードを自動生成する - クックパッド開発者ブログ](https://techlife.cookpad.com/entry/2019/07/24/113835)o
- Lambda Runtime Interface Emulator (RIE)
- SAM CLIがSDKサポート
Hashicorp のVault 本番アカウントがあって、vaultにアクセスしたいけど、devからは動作確認できない。
マイクロサービスは砂場。