## 概要
[[Grafana]]社がオープンソース化したAIエージェント評価フレームワーク。実際の[[Grafana]]スタックとGrafana MCPサーバーを用いて、Observabilityワークフロー上のエージェント性能を標準的に計測する。
## 背景と課題
従来のエージェントベンチマークはObservabilityタスクに不十分である。
- メトリクス・ログ・トレース・保存状態の複雑な相互作用が存在する
- クエリが構文的に正しくても、誤ったシリーズを選択しうる
- ダッシュボードが描画されても、不正な保存が起きうる
- 流暢な説明ではなく、実際の結果の検証が必要
## アーキテクチャ
**Harbor**(Terminal Bench作者によるOSSフレームワーク)上に構築。
- タスク数: **63タスク**(複数カテゴリ)
- 環境: 合成データを含む実際のGrafana Dockerコンテナ
- 評価: LLM-as-a-judgeとヒューリスティックスコアリング
- 再現性・検査可能な結果
### クイックスタート例
```bash
mise run bench:job -- --model openai/gpt-5.4-nano --task-name query-cpu-metrics --agent opencode
```
## タスクカテゴリ
- [[Prometheus]]/PromQL クエリ
- [[Grafana Loki|Loki]]/LogQL タスク
- [[Grafana Tempo|Tempo]]/TraceQL ワークフロー
- マルチステップのインシデント調査
- ダッシュボードの編集・修復
## 評価指標
2つのスコアリング方式を採用。
| 指標 | 説明 | 用途 |
|------|------|------|
| **Pass^3** | 3回実行の平均(一貫性) | 主要ランキング指標 |
| **Pass@3** | 3回中1回以上成功 | 最大性能の参考値 |
信頼性こそが実用ツールと不安定ツールを分ける基準とする設計思想。
## 初期結果(29モデルバリアント・5,481試行)
**Pass^3上位モデル:**
1. Claude Opus 4.7(reasoning無効)
2. Claude Opus 4.7(high reasoning)
3. Qwen 3.6 Plus(オープンソース最強)
**カテゴリ別難易度:**
- Grafana API タスク: ほぼ飽和状態
- [[Prometheus]]: 比較的高性能
- Loki/Tempo: 中程度
- ダッシュボードタスク: 最難(状態・変数配線・クエリ正確性の複合)
## 主要な知見
「1回正解できる」と「常に正解できる」は根本的に異なる信頼性レベルである。Observabilityにおける微妙な誤りは、インシデント調査中のエンジニアを誤誘導しうる。
## 参考
- GitHubリポジトリよりタスク実行・比較レポート生成・HuggingFaceリーダーボードへの結果提出が可能