# トレース品質
## 定義
トレース品質(trace quality)は、分散トレーシング([[分散トレーシング]])のデータが自動分析に耐えるかを評価する概念。[[@2021__J Grid Computing__Automated Analysis of Distributed Tracing - Challenges and Research Directions]] は、Huawei Cloud OpenStack の本番トレースに [[OpenTracing Processor]] と Isolation Forest を適用した経験から、分析の天井がアルゴリズムではなくトレースデータの品質にあると診断し、品質の限界を 3 カテゴリで類型化した(Fig. 9)。
- **Data sufficiency(データ十分性)**: コードベースの計装カバレッジ(unit test 的意味) と temporal coverage の両方を確保すべき。Sampling は adaptive で、オーバーヘッドが問題化するまで 100% を保つのが理想。
- **Ontological(オントロジー)**: spec の厳格さ。span パラメータの記述・命名・validation(タイムスタンプ単位は 64bit 数値 + 単位の複合型、end > start のアサーション、annotation の archetype)を持つべき。
- **Tools(ツール)**: 品質評価ツール・多次元フィルタの可視化・他テレメトリ(ログ・インフラメトリクス)との相関(spanId をログに含める / 時刻と物理マシンで結ぶ / unified observability standard)が必要。
加えて Bento+ 2021 は **temporal coverage**(ルートスパンの時間幅に占める子スパン群の合計時間の割合)を品質の定量指標として導入した。例: ルートが 100ms で子が 50ms と 40ms なら coverage = (50+40)/100 = 90%。サービス別 histogram(Fig. 8)で可視化する。
## 横断的知見
- 単一ソース段のため、複数ソースを並べた横断観察はまだない。Bento+ 2021 の trace quality 類型(data sufficiency / ontological / tools)が、後続 ingest で他のサンプリング・計装研究([[Hindsight]]・[[TraStrainer]]・[[Astraea]]・[[Mint]]・[[Tracezip]]・[[DeepFlow]]・[[ChainScope]])と並んだ時に「品質定義の起点」と「実装側の対応戦略」がどう対応づくかを観察する基点になる。
## 未解決の問い
- **temporal coverage は trace 単位の品質指標として有用か**: Bento+ 2021 自身が「高い coverage でも自動異常検知の十分条件ではない」と認めている。span 単位の coverage や、annotation の semantic 品質を組み合わせた多次元品質メトリクスは、より良い予測指標になるか。
- **OpenTelemetry の testability driver 化はどう進んだか**: Bento+ 2021 が 2021 年時点で「[[OpenTelemetry]] は OpenTracing+OpenCensus の merge 努力が主で、testability を driver にした再設計は不十分」と批判した。2026 年時点で OpenTelemetry の Spec/SIG はトレース品質の量的メトリクスを規定したか。
- **計装の coverage を CI/CD に組み込む実装はどこまで普及したか**: Bento+ 2021 は CI/CD に trace 品質チェックを組み込み、bad data の ingest を拒否する設計を提言した。実際の本番環境で trace lint / trace contract testing を運用している事例は。
- **trace quality の改善が下流分析に与える定量効果**: 「コードカバレッジ + temporal coverage」の改善が、異常検知/RCA/障害箇所特定の精度をどれだけ押し上げるかの定量実験はあるか。Bento+ 2021 は work-flow 深掘りができなかった事例で「精緻なアルゴリズムより品質改善が先」と結論したが、品質と精度の関数形は未解明。
- **annotation 任意性の式爆発を抑える設計**: error code・関数戻り値・URL・user-defined log 等が span 間で異なる表現を取る問題に対し、semantic conventions の strict 化(OpenTelemetry Semantic Conventions 群)は十分な解か。
## 関連
- ソース: [[@2021__J Grid Computing__Automated Analysis of Distributed Tracing - Challenges and Research Directions]]
- 関連概念: [[分散トレーシング]] / [[オブザーバビリティ]]
- 関連エンティティ: [[OpenTracing]] / [[OpenTelemetry]] / [[OpenTracing Processor]]
- 関連 MOC: [[AIOps - Failure Detection - MOC]]
## 出典
- [[@2021__J Grid Computing__Automated Analysis of Distributed Tracing - Challenges and Research Directions]] §4.2 Trace Quality Analysis・§5 Tracing Standard Limitations and Mitigations(Fig. 8・Fig. 9)