# Alex Palcuie ## 概要 [[Google]] の Site Reliability Engineer。GCE(Google Compute Engine)Compute API チームに 5 年以上在籍し、GCE の制御プレームフレームワーク(Google Cloud の 20 以上のプロダクトが利用)の構築に携わった。20% プロジェクトとして Tech IRT(Tech Incident Response Team)に参加し、データセンターの過熱時のコンピュータシャットダウン等の大規模インシデント対応を担当する。Twitter: @AlexPalcuie。 ## 主な貢献 - GCE の SLO を 30 個 → 約 1,000 個 → 3,000 万個(顧客単位)へ 6 年間で拡張した設計・実装の当事者(SREcon22 EMEA 発表)。 - **5 エラーのルール**: 少トラフィック顧客への公平な SLO ターゲット設定として `target = 1 - 5 / total_requests` を提案。 - レイテンシ SLO を「ターゲット以内の良いリクエスト率」として実装し、可用性 SLO と共通カウンタ基盤で管理する手法を実践。 ## 関連ソース - [[@2022__SREcon22EMEA__Going-from-30-to-30-Million-SLOs]] — SREcon22 EMEA 発表スライド ## 出典 - [[@2022__SREcon22EMEA__Going-from-30-to-30-Million-SLOs]]