Alex Palcuie - yuuk1's Digital Garden

# Alex Palcuie ## 概要 [[Google]] の Site Reliability Engineer。GCE（Google Compute Engine）Compute API チームに 5 年以上在籍し、GCE の制御プレームフレームワーク（Google Cloud の 20 以上のプロダクトが利用）の構築に携わった。20% プロジェクトとして Tech IRT（Tech Incident Response Team）に参加し、データセンターの過熱時のコンピュータシャットダウン等の大規模インシデント対応を担当する。Twitter: @AlexPalcuie。 ## 主な貢献 - GCE の SLO を 30 個 → 約 1,000 個 → 3,000 万個（顧客単位）へ 6 年間で拡張した設計・実装の当事者（SREcon22 EMEA 発表）。 - **5 エラーのルール**: 少トラフィック顧客への公平な SLO ターゲット設定として `target = 1 - 5 / total_requests` を提案。 - レイテンシ SLO を「ターゲット以内の良いリクエスト率」として実装し、可用性 SLO と共通カウンタ基盤で管理する手法を実践。 ## 関連ソース - [[@2022__SREcon22EMEA__Going-from-30-to-30-Million-SLOs]] — SREcon22 EMEA 発表スライド ## 出典 - [[@2022__SREcon22EMEA__Going-from-30-to-30-Million-SLOs]]