# 本番接地型ベンチマーク
## 定義
本番接地型ベンチマーク(Production-Grounded Benchmarks)とは、AI エージェントや自動化システムの評価・最適化のために使うベンチマークを合成的に設計するのではなく、**実際の本番システムのテレメトリ(プロファイル・トレース・メトリクス・実際の入力データ)から生成**する設計原則である。合成ベンチマークでは入力分布・実行形状・システム状態が本番と乖離し、エージェントがベンチマーク人工物を最適化してしまう問題に対処するために導入される。
代表的な実装は [[DODO]](Datadog Observability-Driven Optimizer)で、CPU プロファイルと Live Debugger の実関数呼び出しを組み合わせて Go マイクロベンチマークを生成し、類似度 ≥98% を目標指標とする。(Source: [[@2026__Datadog__Production-Grounded Benchmarks for AI Code Optimization]])
## 問題の本質: 合成ベンチマークとの乖離
合成ベンチマークには以下の 3 種の乖離が生じる:
1. **データ分布の乖離**: 合成入力が本番の統計的特性を反映しない。[[DODO]] の NormalizeTags 事例では入力タグの約 25% が大文字を含むという本番固有の特性が鍵だった。均一な合成入力ではこの特性が失われ、大文字比率依存の高速パスという最適化機会が不可視になる。
2. **実行形状の乖離**: ベンチマークの実行プロファイルが本番の CPU 時間配分と異なり、エージェントが実際のボトルネックでなくベンチマーク人工物を最適化する。
3. **検証ギャップ**: ベンチマーク上の改善が本番でのメリットに繋がらない。
## 実装パターン
本番接地型ベンチマークを実現する主要な技術的要素:
- **CPU プロファイリング**: 本番フレームグラフを類似度スコアのグランドトゥルースとして使用(プロファイル類似度 ≥98% を収束基準とする)
- **本番呼び出しキャプチャ**: Live Debugger 等で実際の関数引数・受信オブジェクト状態を取得(合成再構築では複雑な設定オブジェクトを正確に模倣できない)
- **ベンチマーク凍結**: 最適化フェーズ中はベンチマークを不変に保ち、メトリクスのゲーミングを防止
- **密なフィードバック**: スカラースコアでなく乖離タプルのリストを提供し、エージェントがボトルネックを特定しやすくする
## 横断的知見
- **本番接地は「訓練-テスト環境一致」原則の評価側への拡張**: [[エージェント型コーディング]] の文脈では、Composer 2 や DeepSWE が「本番と同一環境で訓練する」ことを核心原則とする。[[DODO]] はこれを評価・ベンチマーク生成側にも適用する試みであり、「本番で動くエージェントは本番に近いベンチマークで訓練・評価すべき」という統一的設計思想として位置づけられる。(Source: [[@2026__Datadog__Production-Grounded Benchmarks for AI Code Optimization]])
- **同型設計思想が AIOps ベンチマークにも存在**: AIOps 領域の [[SREGym]]・[[AIOpsLab]] が「ライブ環境での評価」を追求するのと構造的に同型。コーディング最適化と SRE エージェント評価が共通の「本番接地」原則を独立に発見している点は横断的に注目に値する。
- **入力分布の重要性が最適化機会の可視性を決定する**: DODO の NormalizeTags 事例は、ベンチマーク品質が単なる速度測定精度の問題でなく「どの最適化機会が発見可能か」という探索空間の構造を根本的に規定することを実証した。
## 未解決の問い
- 本番接地型ベンチマーク生成の収束保証はあるか。プロファイル類似度 ≥98% という目標に達しないケースのハンドリング方法は?
- Go 以外の言語(Python・JVM 系・Rust)への拡張はどの程度素直にできるか。特に動的型付き言語での実引数キャプチャは複雑さが増す。
- 本番接地型ベンチマークは入力分布を固定するため、分布シフト後の最適化効果を過大評価するリスクがあるか(例: タグ大文字比率が時間とともに変化する場合)。
- LLM コード最適化以外の用途(例: SRE エージェントの本番接地型評価、回帰テスト生成)への応用パターンはどのように体系化できるか。
## 関連
- [[DODO]] — 本概念の主要実装
- [[エージェント型コーディング]] — LLM コード最適化エージェントの文脈
- [[継続的プロファイリング]] — CPU プロファイルシグナルの源泉
- [[agentic SRE]] — 同型の「本番接地型評価」設計思想を持つ SRE 自動化
## 出典
- [[@2026__Datadog__Production-Grounded Benchmarks for AI Code Optimization]]