トレース品質 - yuuk1's Digital Garden

# トレース品質 ## 定義トレース品質(trace quality)は、分散トレーシング([[分散トレーシング]])のデータが自動分析に耐えるかを評価する概念。[[@2021__J Grid Computing__Automated Analysis of Distributed Tracing - Challenges and Research Directions]] は、Huawei Cloud OpenStack の本番トレースに [[OpenTracing Processor]] と Isolation Forest を適用した経験から、分析の天井がアルゴリズムではなくトレースデータの品質にあると診断し、品質の限界を 3 カテゴリで類型化した(Fig. 9)。 - **Data sufficiency(データ十分性)**: コードベースの計装カバレッジ(unit test 的意味) と temporal coverage の両方を確保すべき。Sampling は adaptive で、オーバーヘッドが問題化するまで 100% を保つのが理想。 - **Ontological(オントロジー)**: spec の厳格さ。span パラメータの記述・命名・validation(タイムスタンプ単位は 64bit 数値 + 単位の複合型、end > start のアサーション、annotation の archetype)を持つべき。 - **Tools(ツール)**: 品質評価ツール・多次元フィルタの可視化・他テレメトリ(ログ・インフラメトリクス)との相関(spanId をログに含める / 時刻と物理マシンで結ぶ / unified observability standard)が必要。加えて Bento+ 2021 は **temporal coverage**(ルートスパンの時間幅に占める子スパン群の合計時間の割合)を品質の定量指標として導入した。例: ルートが 100ms で子が 50ms と 40ms なら coverage = (50+40)/100 = 90%。サービス別 histogram(Fig. 8)で可視化する。 ## 横断的知見 - 単一ソース段のため、複数ソースを並べた横断観察はまだない。Bento+ 2021 の trace quality 類型(data sufficiency / ontological / tools)が、後続 ingest で他のサンプリング・計装研究([[Hindsight]]・[[TraStrainer]]・[[Astraea]]・[[Mint]]・[[Tracezip]]・[[DeepFlow]]・[[@2026__CoNEXT__ChainScope - Balancing Accuracy and Overhead in Non-intrusive Distributed Tracing of Microservices|ChainScope]])と並んだ時に「品質定義の起点」と「実装側の対応戦略」がどう対応づくかを観察する基点になる。 ## 未解決の問い - **temporal coverage は trace 単位の品質指標として有用か**: Bento+ 2021 自身が「高い coverage でも自動異常検知の十分条件ではない」と認めている。span 単位の coverage や、annotation の semantic 品質を組み合わせた多次元品質メトリクスは、より良い予測指標になるか。 - **OpenTelemetry の testability driver 化はどう進んだか**: Bento+ 2021 が 2021 年時点で「[[OpenTelemetry]] は OpenTracing+OpenCensus の merge 努力が主で、testability を driver にした再設計は不十分」と批判した。2026 年時点で OpenTelemetry の Spec/SIG はトレース品質の量的メトリクスを規定したか。 - **計装の coverage を CI/CD に組み込む実装はどこまで普及したか**: Bento+ 2021 は CI/CD に trace 品質チェックを組み込み、bad data の ingest を拒否する設計を提言した。実際の本番環境で trace lint / trace contract testing を運用している事例は。 - **trace quality の改善が下流分析に与える定量効果**: 「コードカバレッジ + temporal coverage」の改善が、異常検知/RCA/障害箇所特定の精度をどれだけ押し上げるかの定量実験はあるか。Bento+ 2021 は work-flow 深掘りができなかった事例で「精緻なアルゴリズムより品質改善が先」と結論したが、品質と精度の関数形は未解明。 - **annotation 任意性の式爆発を抑える設計**: error code・関数戻り値・URL・user-defined log 等が span 間で異なる表現を取る問題に対し、semantic conventions の strict 化(OpenTelemetry Semantic Conventions 群)は十分な解か。 ## 関連 - ソース: [[@2021__J Grid Computing__Automated Analysis of Distributed Tracing - Challenges and Research Directions]] - 関連概念: [[分散トレーシング]] / [[オブザーバビリティ]] - 関連エンティティ: [[OpenTracing]] / [[OpenTelemetry]] / [[OpenTracing Processor]] - 関連 MOC: [[AIOps - Failure Detection - MOC]] ## 出典 - [[@2021__J Grid Computing__Automated Analysis of Distributed Tracing - Challenges and Research Directions]] §4.2 Trace Quality Analysis・§5 Tracing Standard Limitations and Mitigations(Fig. 8・Fig. 9)