o11y-bench - Open Benchmark for Observability Agents

## 概要 [[Grafana]]社がオープンソース化したAIエージェント評価フレームワーク。実際の[[Grafana]]スタックとGrafana MCPサーバーを用いて、Observabilityワークフロー上のエージェント性能を標準的に計測する。 ## 背景と課題従来のエージェントベンチマークはObservabilityタスクに不十分である。 - メトリクス・ログ・トレース・保存状態の複雑な相互作用が存在する - クエリが構文的に正しくても、誤ったシリーズを選択しうる - ダッシュボードが描画されても、不正な保存が起きうる - 流暢な説明ではなく、実際の結果の検証が必要 ## アーキテクチャ **Harbor**（Terminal Bench作者によるOSSフレームワーク）上に構築。 - タスク数: **63タスク**（複数カテゴリ） - 環境: 合成データを含む実際のGrafana Dockerコンテナ - 評価: LLM-as-a-judgeとヒューリスティックスコアリング - 再現性・検査可能な結果 ### クイックスタート例 ```bash mise run bench:job -- --model openai/gpt-5.4-nano --task-name query-cpu-metrics --agent opencode ``` ## タスクカテゴリ - [[Prometheus]]/PromQL クエリ - [[Grafana Loki|Loki]]/LogQL タスク - [[Grafana Tempo|Tempo]]/TraceQL ワークフロー - マルチステップのインシデント調査 - ダッシュボードの編集・修復 ## 評価指標 2つのスコアリング方式を採用。 | 指標 | 説明 | 用途 | |------|------|------| | **Pass^3** | 3回実行の平均（一貫性） | 主要ランキング指標 | | **Pass@3** | 3回中1回以上成功 | 最大性能の参考値 | 信頼性こそが実用ツールと不安定ツールを分ける基準とする設計思想。 ## 初期結果（29モデルバリアント・5,481試行） **Pass^3上位モデル:** 1. Claude Opus 4.7（reasoning無効） 2. Claude Opus 4.7（high reasoning） 3. Qwen 3.6 Plus（オープンソース最強） **カテゴリ別難易度:** - Grafana API タスク: ほぼ飽和状態 - [[Prometheus]]: 比較的高性能 - Loki/Tempo: 中程度 - ダッシュボードタスク: 最難（状態・変数配線・クエリ正確性の複合） ## 主要な知見「1回正解できる」と「常に正解できる」は根本的に異なる信頼性レベルである。Observabilityにおける微妙な誤りは、インシデント調査中のエンジニアを誤誘導しうる。 ## 参考 - GitHubリポジトリよりタスク実行・比較レポート生成・HuggingFaceリーダーボードへの結果提出が可能