RAGノイズ除去 - yuuk1's Digital Garden

# RAGノイズ除去 ## 定義 RAGノイズ除去は、検索拡張生成(RAG)で LLM に渡す検索結果から、推論に役立たない、または推論を誤らせる情報を、インデックス作成・検索・文脈組み立て・検証・閉ループ訓練の各段で抑える設計である。Dai らはノイズを、トークン・レイテンシ・注意予算を消費するだけでなく、モデルを誤誘導する取得内容として定義し、LLM 向け IR の主要ボトルネックは raw recall ではなく利用可能な証拠密度であると主張する。(Source: [[@2026__SIGIR__LLM-Oriented Information Retrieval - A Denoising-First Perspective]]) ## 横断的知見 - **「多く取得するほどよい」は、運用系 RAG でもコーディングエージェントでも崩れている**: Dai らの NQ 実験では金パッセージが存在してもノイズ 9 件が加わると EM が 22.2〜26.6% まで落ちる。[[OpenRCA]] や [[LogPilot]]、[[LLM4Log - A Systematic Review of Large Language Model-based Log Analysis|LLM4Log]] が示すように、運用診断でも raw テレメトリやログをそのまま LLM に渡すのではなく、候補窓・代表リクエスト・知識断片を先に絞る設計が成功パターンになっている。RAGノイズ除去は、検索 QA だけでなく AIOps/RCA の入力選別と同型の問題である。(Source: [[@2026__SIGIR__LLM-Oriented Information Retrieval - A Denoising-First Perspective]], [[@2026__arXiv__LLM4Log - A Systematic Review of Large Language Model-based Log Analysis]], [[RCA入力選別]]) - **ノイズ除去は安全性境界でもある**: Dai らは間接プロンプトインジェクションと検索汚染を文脈構成ノイズの一部として扱う。[[エージェント運用安全性]] は、運用成果物を authoritative / advisory / untrusted に分け、untrusted 入力で書き込みを駆動しない規律を要求する。RAGノイズ除去は品質改善だけでなく、検索チャネルを攻撃面として扱う安全設計でもある。(Source: [[@2026__SIGIR__LLM-Oriented Information Retrieval - A Denoising-First Perspective]], [[エージェント運用安全性]]) ## 未解決の問い - 文脈圧縮・再ランキング・矛盾解決・引用検証を組み合わせたとき、どの段が最も効くかを分解評価する標準実験はまだ不足している。 - 検索結果の「ノイズ」はタスク依存である。QA では無関係な文書がノイズでも、ディープリサーチでは反対意見や古い情報が必要な証拠になる場合がある。タスクごとのノイズ定義をどう型付けするか。 - セキュリティ目的の強いフィルタは、探索的リサーチに必要な多様性を削る可能性がある。来歴・信頼度・多様性・新規性を同時に最適化する実装が必要である。 ## 関連 - [[LLM向け情報検索]] - [[RCA入力選別]] - [[エージェント運用安全性]] - [[LLMアプリケーション信頼性]] ## 出典 - [[@2026__SIGIR__LLM-Oriented Information Retrieval - A Denoising-First Perspective]]