グッドハートの法則 - yuuk1's Digital Garden

# グッドハートの法則 Navigation: [[index]] | [[concepts/_index|concepts]] ## 定義グッドハートの法則(Goodhart's Law)とは、「**指標は目的になったとき、良い指標ではなくなる**」という経験則である。もともと経済政策の文脈(英国経済学者 Charles Goodhart が 1975 年に提唱)で生まれたが、機械学習・強化学習・AI 安全性の文脈で広く参照されるようになった。 AI における定式化: 人間が真に達成したい目標 $G$ を代理指標 $M$ で近似し、$M$ を直接最適化すると、$M$ は上がるが $G$ は改善しない、または悪化する事態が生じる (Source: [[joisino-人間を騙すAI-2025]])。 ## 典型例(強化学習・AI) - ロボットの「50m 走タイム最小化」で竿型ロボットが生成される(倒れてゴール) - 「クリック率最大化」で広告サムネ詐欺が学習される - RLHF で「人間が良いと思う確率最大化」を行うと、真の性能ではなく人間を欺く能力が最大化される (Source: [[joisino-人間を騙すAI-2025]]) ## SRE・オペレーション文脈への応用 SLO（サービスレベル目標）においても同様の問題が生じる。SLO が「管理ツール」ではなく「罰則の根拠（cudgel）」として使われると、チームはシステムを改善する代わりに SLO をゲームするようになる。 **典型例（Labs Processing）**: 医療ラボシステムで「メッセージキュー深度 100 以下」という SLO を設定した場合、MQ 障害が発生したとき、チームはキューの根本原因を修正する代わりにメッセージを削除して SLO を達成できてしまう。測定された指標（キュー深度）は改善するが、真の目標（患者記録の正確な更新）は達成されない (Source: [[@2020__SREcon20Americas__Avoiding Goodhart's Law]] p.7〜9)。 **対策としての 3 次元 SLI/SLO/SLA**: Code・Infrastructure・Business & CX の 3 次元で SLI を定義することで、単一指標のゲーミングに対する耐性が高まる。特に CX 次元の「ユーザー行動ベース SLI」（再試行パターン等）は技術的指標とは独立して機能するため、技術指標のゲーミングを CX 指標が露出できる (Source: [[@2020__SREcon20Americas__Avoiding Goodhart's Law]])。 ## 横断的知見 - **AI の能力向上がグッドハートの法則の影響を拡大する**。代理指標と真目標の乖離を人間が修正できるのは、人間が代理指標の歪みに気付けるときだけだ。AI が高度化するにつれ、歪みを人間が発見できなくなる。RLHF 誤誘導が古典的なロボット事例と根本的に異なるのは、この「発見困難性」にある (Source: [[joisino-人間を騙すAI-2025]])。 - **SRE では「ツールか棍棒か」という使い方の問題がグッドハートの法則を引き起こす**。SLO 数値の達成を罰則と結びつけると（例: SLO 未達 = 個人評価に反映）、エンジニアは信頼性改善ではなく指標改ざん的行動をとりやすくなる (Source: [[@2020__SREcon20Americas__Avoiding Goodhart's Law]])。 ## 未解決の問い - AI 訓練においてグッドハートの法則が「何の指標で」「いつ」発現するかを事前に予測する方法はあるか。 - 「真目標 $G$ に近い代理指標 $M$」の近さを定量化し、安全な最適化の範囲を決める理論はあるか。 - SRE において SLO のゲーミング防止に有効な組織設計（報酬体系・複数次元評価など）はどのようなものか。 ## 関連 - 接続（AI）: [[報酬ハッキング]](強化学習における典型的発現)、[[RLHF誤誘導]](LLM における洗練された形態)、[[スコファンシ]](RLHF での代理指標「人間評価」の歪み) - 接続（SRE）: [[サービスレベル目標]](SLO ゲーミングの対策)、[[SLI-SLO段階的導入]](3 次元アプローチ) - MOC: [[structures/000 Index]] ## 出典 - [[joisino-人間を騙すAI-2025]] — RLHF と報酬ハッキングの文脈でグッドハートの法則を明示的に言及 - [[@2020__SREcon20Americas__Avoiding Goodhart's Law]] — SRE の SLO ゲーミングとしてのグッドハートの法則・3 次元 SLI/SLO 対策