# ログ重複排除プロセッサ
## 概要
[[OpenTelemetry]] Collector のログ重複排除プロセッサ。ログの約 80% を占める反復的ノイズ(接続リトライ、ヘルスチェック、ハートビートメッセージ)を集約し、ストレージ削減とシグナル明確化を図る。
## 動作原理
以下の要素のハッシュでログの同一性を判定する:
- リソース属性
- スコープ情報
- メッセージ本文
- 関連属性
- 重大度レベル
- イベント名
**タイムスタンプはチェックから除外**(自然に異なるため)。設定可能な時間窓内で集約し、インターバル満了時に以下を含む単一エントリを出力する:
- `log_count`(重複頻度)
- `first_observed_timestamp`
- `last_observed_timestamp`
## サンプリングとの違い
サンプリングはデータを恒久的に破棄するのに対し、重複排除は「何が起きたか」「どの頻度で」「いつからいつまで」の情報を保持しつつ冗長なストレージを排除する。
## 設定
`conditions` フィールドに OTTL(OpenTelemetry Transformation Language)式を用いて対象ログをフィルタする。`exclude_fields` で `request_id` 等の高基数フィールドを同一性判定から除外し、意味的に同一のログが異なるエントリとして扱われることを防ぐ。
## トレードオフ
- **遅延**: インターバル(既定 1 秒)が満了するまでログは保持される。リアルタイムアラートには調整が必要
- **コンプライアンス**: 監査ログ・セキュリティイベント・規制ログは原本タイムスタンプ付きの完全記録が必要なため、重複排除の対象外とすべき
## 出典
- [Reducing Log Volume with the OpenTelemetry Log Deduplication Processor](https://opentelemetry.io/blog/2026/log-deduplication-processor/)