# 差分プライバシー ## 定義 差分プライバシー(Differential Privacy, DP)は、データ解析アルゴリズムの出力から個々のレコードが存在したかどうかを確率的に推定困難にする情報理論的プライバシー保証の枠組みだ。ランダム化アルゴリズム M が (ε, δ)-DP を満たすとは、隣接するデータベース X と X' に対して全ての出力事象 E について `P(M(X) ∈ E) ≤ e^ε · P(M(X') ∈ E) + δ` が成立することをいう。ε(プライバシー予算)が小さいほど強いプライバシー保護を意味し、δ は失敗確率だ。GDPR・CCPA 等のプライバシー規制に対応する形式的保証として機械学習・データ解析の分野で広く採用されている。(Source: [[@2026__NSDI__PrvTel - Lightweight Models for Private and Accurate Telemetry Data Retention]]) **後処理不変性**: DP アルゴリズムの出力に任意の後処理を行ってもプライバシー損失は増加しない。これにより、DP 機構の出力を基に学習したモデルも同等の DP 保証を継承できる。 **合成可能性**: ε₁-DP と ε₂-DP を合成するとε₁+ε₂-DP になる。これは複数の DP ステップを組み合わせる際にプライバシー予算の消費を追跡する基礎となる。 ## 横断的知見 - **テレメトリ保持における DP 強制の方法論が「勾配時注入(DP-SGD)」から「事前データ摂動」へ移行する**: 従来の DP-SGD は確率的勾配降下の各更新ステップでノイズを追加するため、プライバシー損失が積み重なり訓練が不安定化する。PrvTel は訓練前に一回限り PrivBayes でノイズを注入し、後処理不変性定理で ε-DP を証明する。これはデータの低次統計量のみを摂動し高次元テーブル全体を摂動しないことで、同一予算で少ないノイズを実現する。(Source: [[@2026__NSDI__PrvTel - Lightweight Models for Private and Accurate Telemetry Data Retention]]) - **IP マスクだけでは再識別を防げない——フィールド組み合わせが依然として個人を識別する**: GDPR は IP 等の明示的識別子だけでなく行動推定を可能にするフィールド(トラフィックパターン・CPU/メモリ使用率)も対象とする。PrvTel のメンバーシップ推論攻撃(MIA)実験で、IP のみマスクした場合は MIA の AUC が 1.0(完全再識別可能)になることを示した。ε = 2 の DP 下では AUC が 0.491(ランダム推定と同等)に抑制される。(Source: [[@2026__NSDI__PrvTel - Lightweight Models for Private and Accurate Telemetry Data Retention]]) ## 未解決の問い - プライバシー予算 ε の適切な設定値はドメインや運用コンテキストによって異なる。テレメトリ保持で「ε ≤ 4 を推奨」とする PrvTel の示知と、一般的な DP アプリケーション(Apple macOS の実装では ε ≈ 8 が知られる)との間のギャップをどう解釈するか。 - PrivBayes の 256 フィールド制限は多くの実ワールドデータセットには十分だが、将来の高次元テレメトリ(IoT センサ群の大規模統合等)にはスケールしない。高次元ベイジアンネットワーク構築のコストを下げながら DP を維持する手法はあるか。 - 合成データからの派生統計で DP を証明するアプローチと、統計集計を直接DP 機構で算出するアプローチ(例:スケッチへのノイズ注入)を比較すると、クエリ汎用性と精度の間でどういうトレードオフがあるか。 ## 関連 - ソース: [[@2026__NSDI__PrvTel - Lightweight Models for Private and Accurate Telemetry Data Retention]] - 概念: [[テレメトリ]] / [[近似クエリ処理]] - 関連 MOC: [[LLM4SRE - MOC]] ## 出典 - [[@2026__NSDI__PrvTel - Lightweight Models for Private and Accurate Telemetry Data Retention]](§3.1 DP 定義、§4.3 DP 強制方法論、§5.6 MIA 実験、Theorem 2 後処理不変性による ε-DP 証明)