# ログ重複排除プロセッサ ## 概要 [[OpenTelemetry]] Collector のログ重複排除プロセッサ。ログの約 80% を占める反復的ノイズ(接続リトライ、ヘルスチェック、ハートビートメッセージ)を集約し、ストレージ削減とシグナル明確化を図る。 ## 動作原理 以下の要素のハッシュでログの同一性を判定する: - リソース属性 - スコープ情報 - メッセージ本文 - 関連属性 - 重大度レベル - イベント名 **タイムスタンプはチェックから除外**(自然に異なるため)。設定可能な時間窓内で集約し、インターバル満了時に以下を含む単一エントリを出力する: - `log_count`(重複頻度) - `first_observed_timestamp` - `last_observed_timestamp` ## サンプリングとの違い サンプリングはデータを恒久的に破棄するのに対し、重複排除は「何が起きたか」「どの頻度で」「いつからいつまで」の情報を保持しつつ冗長なストレージを排除する。 ## 設定 `conditions` フィールドに OTTL(OpenTelemetry Transformation Language)式を用いて対象ログをフィルタする。`exclude_fields` で `request_id` 等の高基数フィールドを同一性判定から除外し、意味的に同一のログが異なるエントリとして扱われることを防ぐ。 ## トレードオフ - **遅延**: インターバル(既定 1 秒)が満了するまでログは保持される。リアルタイムアラートには調整が必要 - **コンプライアンス**: 監査ログ・セキュリティイベント・規制ログは原本タイムスタンプ付きの完全記録が必要なため、重複排除の対象外とすべき ## 出典 - [Reducing Log Volume with the OpenTelemetry Log Deduplication Processor](https://opentelemetry.io/blog/2026/log-deduplication-processor/)