# 差分可観測性 ## 定義 差分可観測性(differential observability)は、[[グレイ障害]]の核心的特性として Huang+ 2017([[@2017__HotOS__Gray Failure - The Achilles' Heel of Cloud-Scale Systems]])が定式化した概念である。あるシステムの障害検知器(Observer)とそのシステムを利用するアプリ(App)が、**同一のシステム状態に対して異なる観測結果を持つ**状況を指す。 具体的には、Observer がシステムを「健全」と判断している一方で、少なくとも 1 つの App がシステムを「不健全」と観測している状態を**グレイ障害**と定義し、差分可観測性はその根本的なメカニズムとされる。 Observer の観測は多くの場合、粗い粒度のシグナル(ハートビート、ping 応答、上位レイヤーのメトリクス)に依存するのに対し、App の観測はエンドツーエンドの実用メトリクス(クエリレイテンシ、リモート I/O 完了率、スループット)に基づく。この粒度と視点の差異が観測ギャップを生む。(Source: [[@2017__HotOS__Gray Failure - The Achilles' Heel of Cloud-Scale Systems]] §3.2) ## 発生パターン 差分可観測性が生じる典型的な状況(いずれも Azure 本番、Source: §2): 1. **粗い粒度の障害検知**: Observer がハートビートのみ監視しており、VM 内部のネットワーク接続不能を見逃す(§2.2) 2. **冗長性による隠蔽**: Clos ネットワークのコアスイッチがランダムパケットロスを起こしても、ルーティングプロトコルはスイッチが停止していないため再ルーティングしない(§2.1) 3. **リソース報告バグ**: データサーバが容量制約を Observer に正しく報告できず、Observer は健全と判断して書き込みを継続(§2.3) 4. **複数サブシステムの境界**: ストレージ/ネットワーク障害を原因にした VM クラッシュが、コンピュート側の観測でのみ検知され根本原因に辿れない(§2.4) ## 解決アプローチ Huang+ 2017 が提案する 4 方向(Source: §4): 1. **観測ギャップを埋める**: ハートビート等の単一シグナルから多次元ヘルス監視へ転換。在VM 性能カウンタで内部状態を観測する 2. **アプリ視点を近似する**: Pingmesh のようにサーバ間レイテンシを測定して「共通アプリの観測」を模倣する 3. **規模の力を活用する**: 多数コンポーネントの観測を集約・推論し、個別 Observer では見えないパターンを検知する 4. **時間パターンを活用する**: 潜在障害(グレイ障害の前兆)の時間パターンを学習して早期警告する ## 横断的知見 - **Pingmesh は差分可観測性解消の早期実装例**: Chuanxiong Guo ら(SIGCOMM 2015)が開発した Pingmesh はサーバ間プロービングでネットワークの「アプリ視点」を近似する。Huang+ 2017 §4.2 はこれをグレイ障害対処の具体例として挙げており、観測ギャップを埋める実装が論文以前から存在していたことがわかる。(Source: [[@2017__HotOS__Gray Failure - The Achilles' Heel of Cloud-Scale Systems]] §4.2) - **GrayScope はサーバ OS レベルで観測ギャップを埋める**: [[@2024__FSE__Illuminating the Gray Zone - Non-Intrusive Gray Failure Localization in Server Operating Systems]] は、KPI 異常検知後にサーバ OS の多次元メトリクス(CPU・メモリ・ネットワーク・ディスク・TCP)を因果グラフで分析し、根本原因メトリクスを箇所特定する。Observer(KPI モニタ)とアプリ(ワークロード)の観測ギャップを OS メトリクス層で橋渡しするアプローチと見なせる。 ## 未解決の問い - Observer の観測カバレッジと App の観測カバレッジの「差分」を定量化する指標は設計可能か。 - アプリ視点の近似(§4.2)において、過剰プロービングが劣化システムに追加負荷をかける問題をどのトレードオフで設計するか。 - 複数サブシステムにまたがる差分可観測性(§2.4 の blame game)を、どのシステム境界での集約・推論で最も効果的に解消できるか。 ## 関連 - 上位概念: [[グレイ障害]] - 関連概念: [[フォールトトレランス]] / [[Fault Localization]] / [[プロアクティブ検証]] - ソース: [[@2017__HotOS__Gray Failure - The Achilles' Heel of Cloud-Scale Systems]] / [[@2024__FSE__Illuminating the Gray Zone - Non-Intrusive Gray Failure Localization in Server Operating Systems]] - 著者: [[Peng Huang]] / [[Lidong Zhou]] / [[Chuanxiong Guo]] ## 出典 - [[@2017__HotOS__Gray Failure - The Achilles' Heel of Cloud-Scale Systems]] §3(概念定義と形式モデル)