# Cloudflare グローバルエッジネットワーク・CDN・DNS・DDoS 防御・セキュリティサービスを提供するアメリカのインターネットインフラ企業。Cloudflare Workers、Cloudflare Pages など開発者向けプラットフォームも展開。 ## SRE / モニタリング - [[Prometheus]] を 2017 年から使用。以前は Nagios カスタム構成。Nagios は新規アラート追加の複雑さ、バージョン管理の欠如、グループ化機能の欠如が移行動機。([[@2017__SREcon17 Europe__Monitoring Cloudflare's Planet-Scale Edge Network]]) - 2017 年時点で 116 の PoP それぞれに独立した Prometheus を配置し、コアデータセンターへフェデレーションで集約するアーキテクチャ。各 PoP 内は高可用性のため複数 Prometheus インスタンスが同一サーバー群を並行スクレイプ。([[@2017__SREcon17 Europe__Monitoring Cloudflare's Planet-Scale Edge Network]]) - 単一 Prometheus で時系列数ピーク約 3,000 万。1 時系列 ≈ 4 KiB のメモリが目安。([[@2022__Cloudflare-Blog__Monitoring-our-Monitoring]]) - [[pint]](Prometheus ルールリンター)を開発し OSS 公開(2022)。([[@2022__Cloudflare-Blog__Monitoring-our-Monitoring]]) ## OSS プロジェクト - **[[pint]]**: Prometheus ルールリンター。CI 統合・デーモンモード対応。 - karma: Alertmanager ダッシュボード(https://github.com/prymitive/karma) - jiralert: アラートから Jira チケット作成(https://github.com/prometheus-community/jiralert) ## 関連 - ソース: [[@2017__SREcon17 Europe__Monitoring Cloudflare's Planet-Scale Edge Network]] / [[@2022__Cloudflare-Blog__Monitoring-our-Monitoring]] - 人物: [[Matt Bostock]] - ツール: [[pint]] / [[Prometheus]]