[[2021-06-16_Wed]] #sre [Cookpad Lounge #4 「クックパッド SRE座談会」 - YouTube](https://www.youtube.com/watch?v=CzS8AKcGkwE) クックパッドマートの話 SLI/SLO 2020年の課題 1. SREチームが信頼性トラッキングできていない 2. 合意形成 ALBのリクエスト成功率 p90 ゆるやかに変化していく負荷には機能しない。 [Web アプリケーションを把握するためのコンソール - クックパッド開発者ブログ](https://techlife.cookpad.com/entry/2018/04/02/140846) Grafana SLI/SLO ダッシュボード ![[Pasted image 20210616205733.png]] - 赤い部分が違反部分 - 定期的にみる仕組み [インフラにかかるコストを正しく「説明」するための取り組み - クックパッド開発者ブログ](https://techlife.cookpad.com/entry/how-to-describe-infra-cost) [インフラのコスト最適化の重要性と RI (リザーブドインスタンス) の維持管理におけるクックパッドでの取り組み - クックパッド開発者ブログ](https://techlife.cookpad.com/entry/cost-and-ri-optimization-in-cookpad) 技術部でコストを管理 EC2転送料金は分類していない。 1 AWSアカウントで、やりきっている。 共有リソースが少ない。プロジェクトが共用。 --- ほとんどECS。リバースプロキシ、Rails、Go/Java/Python Chatbot 海外チームはEKSをいれつつある。 ECSコンテナインスタンス - ほとんどがEC2 - 一部 Fargate (Spot) - 機械学習系 - ファイルシステムのI/Oが非常に激しい - Fargate はI/Oが隔離されている(ようにみえる) [ECS を利用したオフラインジョブの実行環境 - クックパッド開発者ブログ](https://techlife.cookpad.com/entry/2016/09/09/235007) オートスケールの運用負荷。 ほとんどのワークロードは、コンテナ。 -> EKSに移行したいとかはない。 -> サーバーレス化 #serverless Lambdaだと15分制限。長時間バッチどうするか。 サーバレスアプリの運用 - CDKに注目している。 - モニタリング - ピタゴラスイッチ CloudWatch Logs観るの大変 - 主要なメトリックを一覧できるダッシュボードが自動でほしい - ECS環境では、hako-consoleでできている。 [Grafana の scripted dashboards を利用してダッシュボードを自動生成する - クックパッド開発者ブログ](https://techlife.cookpad.com/entry/2019/07/24/113835)o - Lambda Runtime Interface Emulator (RIE) - SAM CLIがSDKサポート Hashicorp のVault 本番アカウントがあって、vaultにアクセスしたいけど、devからは動作確認できない。 マイクロサービスは砂場。