本番接地型ベンチマーク - yuuk1's Digital Garden

# 本番接地型ベンチマーク ## 定義本番接地型ベンチマーク(Production-Grounded Benchmarks)とは、AI エージェントや自動化システムの評価・最適化のために使うベンチマークを合成的に設計するのではなく、**実際の本番システムのテレメトリ(プロファイル・トレース・メトリクス・実際の入力データ)から生成**する設計原則である。合成ベンチマークでは入力分布・実行形状・システム状態が本番と乖離し、エージェントがベンチマーク人工物を最適化してしまう問題に対処するために導入される。代表的な実装は [[DODO]](Datadog Observability-Driven Optimizer)で、CPU プロファイルと Live Debugger の実関数呼び出しを組み合わせて Go マイクロベンチマークを生成し、類似度 ≥98% を目標指標とする。(Source: [[@2026__Datadog__Production-Grounded Benchmarks for AI Code Optimization]]) ## 問題の本質: 合成ベンチマークとの乖離合成ベンチマークには以下の 3 種の乖離が生じる: 1. **データ分布の乖離**: 合成入力が本番の統計的特性を反映しない。[[DODO]] の NormalizeTags 事例では入力タグの約 25% が大文字を含むという本番固有の特性が鍵だった。均一な合成入力ではこの特性が失われ、大文字比率依存の高速パスという最適化機会が不可視になる。 2. **実行形状の乖離**: ベンチマークの実行プロファイルが本番の CPU 時間配分と異なり、エージェントが実際のボトルネックでなくベンチマーク人工物を最適化する。 3. **検証ギャップ**: ベンチマーク上の改善が本番でのメリットに繋がらない。 ## 実装パターン本番接地型ベンチマークを実現する主要な技術的要素: - **CPU プロファイリング**: 本番フレームグラフを類似度スコアのグランドトゥルースとして使用(プロファイル類似度 ≥98% を収束基準とする) - **本番呼び出しキャプチャ**: Live Debugger 等で実際の関数引数・受信オブジェクト状態を取得(合成再構築では複雑な設定オブジェクトを正確に模倣できない) - **ベンチマーク凍結**: 最適化フェーズ中はベンチマークを不変に保ち、メトリクスのゲーミングを防止 - **密なフィードバック**: スカラースコアでなく乖離タプルのリストを提供し、エージェントがボトルネックを特定しやすくする ## 横断的知見 - **本番接地は「訓練-テスト環境一致」原則の評価側への拡張**: [[エージェント型コーディング]] の文脈では、Composer 2 や DeepSWE が「本番と同一環境で訓練する」ことを核心原則とする。[[DODO]] はこれを評価・ベンチマーク生成側にも適用する試みであり、「本番で動くエージェントは本番に近いベンチマークで訓練・評価すべき」という統一的設計思想として位置づけられる。(Source: [[@2026__Datadog__Production-Grounded Benchmarks for AI Code Optimization]]) - **同型設計思想が AIOps ベンチマークにも存在**: AIOps 領域の [[SREGym]]・[[AIOpsLab]] が「ライブ環境での評価」を追求するのと構造的に同型。コーディング最適化と SRE エージェント評価が共通の「本番接地」原則を独立に発見している点は横断的に注目に値する。 - **入力分布の重要性が最適化機会の可視性を決定する**: DODO の NormalizeTags 事例は、ベンチマーク品質が単なる速度測定精度の問題でなく「どの最適化機会が発見可能か」という探索空間の構造を根本的に規定することを実証した。 ## 未解決の問い - 本番接地型ベンチマーク生成の収束保証はあるか。プロファイル類似度 ≥98% という目標に達しないケースのハンドリング方法は？ - Go 以外の言語(Python・JVM 系・Rust)への拡張はどの程度素直にできるか。特に動的型付き言語での実引数キャプチャは複雑さが増す。 - 本番接地型ベンチマークは入力分布を固定するため、分布シフト後の最適化効果を過大評価するリスクがあるか(例: タグ大文字比率が時間とともに変化する場合)。 - LLM コード最適化以外の用途(例: SRE エージェントの本番接地型評価、回帰テスト生成)への応用パターンはどのように体系化できるか。 ## 関連 - [[DODO]] — 本概念の主要実装 - [[エージェント型コーディング]] — LLM コード最適化エージェントの文脈 - [[継続的プロファイリング]] — CPU プロファイルシグナルの源泉 - [[agentic SRE]] — 同型の「本番接地型評価」設計思想を持つ SRE 自動化 ## 出典 - [[@2026__Datadog__Production-Grounded Benchmarks for AI Code Optimization]]