## Memo ## Memo with LLM ## Abstract 本論文では、メトリクスやログなどの従来のモニタリング手法ではシステムの複雑性を把握できない、異種サービスベースの分散システムにおける統一された[[Observability|可観測性]]の実現という課題に取り組んでいます。本研究では、分散トレーシングに焦点を当てた既存の可観測性アプローチを調査し、多様な分散環境向けに設計された拡張可観測性フレームワークを提案しています。分散システムにおける可観測性の現状を分析し、主要な要件を特定するために、文献レビュー、専門家へのインタビュー、技術プロトタイプの組み合わせが採用されました。可観測性とは、システム動作に関するさまざまな利害関係者からの重要な質問に答えられる能力と定義され、開発者や運用者だけでなく、さまざまな優先順位を持つ役割も対象としています。よく知られた「3つの柱」モデル(メトリクス、ログ、トレース)は厳しく評価され、代替案としてより包括的なイベントベースのデータモデルが推奨されています。 提案されたフレームワークは、構造化された広範なイベントによる[[Distributed Tracing|分散トレーシング]]を基盤とし、インストルメンテーション、収集、保存、分析といった可観測性のすべてのフェーズを組み込んでいます。ホワイトボックス・インストルメンテーションを[[OpenTelemetry]]によるインバンド・コンテキスト伝搬とプッシュベースの収集モデルで実現し、効率的な保存と分析戦略に関するガイダンスを提供しています。 このフレームワークは、総合ベンチマークと実環境での統合を通じて評価され、メンタルとランタイムという2つの主要なオーバーヘッドに焦点が当てられました。専門家へのインタビューにより、このフレームワークがシステムの可観測性を大幅に改善することが明らかになりましたが、インストルメンテーションとデータ分析における人間工学に関連する課題が特定されました。ベンチマークの結果、ランタイムのオーバーヘッドが大幅に増加し、レイテンシとリソース消費の増加という形で現れたため、最適化の必要性が浮き彫りになりました。今後の課題として、これらの制限に対処し、フレームワークの実用性をさらに向上させるための取り組みが提案されています。