# LLM向け情報検索 ## 定義 LLM向け情報検索は、人間ではなく LLM が検索結果を消費し、取得文書を生成・推論・行動の入力として使うことを前提にした情報検索である。従来の IR が関連文書を人間へ提示することを主目的にしたのに対し、LLM 向け IR は文脈ウィンドウ内で利用可能な証拠密度と検証可能性を最大化することを主目的にする。Dai らはこの転換を、IR の支配的制約が「到達不能」から「発見不能」「意味不整合」を経て「検証不能な文脈過負荷」へ移ったものとして整理する。(Source: [[@2026__SIGIR__LLM-Oriented Information Retrieval - A Denoising-First Perspective]]) ## 横断的知見 - **LLM エージェント領域で繰り返し観測されてきた「推論より文脈制御が律速」という知見を、IR 側から一般化する**: [[Bian Que]] は O&M エージェントのボトルネックを適切なデータ・知識の選択に置き、[[LLM4Log - A Systematic Review of Large Language Model-based Log Analysis|LLM4Log]] は「情報を絞ってから LLM を選択的に呼ぶ階層設計」をログ解析全体の成功パターンとして整理した。Dai らは同じ構造を IR 全体の目的関数変化として定式化し、検索器をノイズゲートとして扱う。(Source: [[@2026__SIGIR__LLM-Oriented Information Retrieval - A Denoising-First Perspective]], [[@2026__arXiv__Bian Que - An Agentic Framework with Flexible Skill Arrangement for Online System Operations]], [[@2026__arXiv__LLM4Log - A Systematic Review of Large Language Model-based Log Analysis]]) - **評価対象が「検索順位」から「生成への因果的効用」へ移る**: [[LLM評価]] は HLE や Chatbot Arena のようにモデル出力の正しさ・人間嗜好を測る。一方、LLM 向け IR では、取得文書が生成結果を改善したか、幻覚を減らしたか、引用と主張を支えたかを測る必要がある。RAGAS/RAGChecker/SePer などの分解評価は、検索評価と生成評価の中間層として位置づく。(Source: [[@2026__SIGIR__LLM-Oriented Information Retrieval - A Denoising-First Perspective]], [[LLM評価]]) ## 未解決の問い - NDCG や Recall@k のような順位指標と、生成結果の忠実性・効用・安全性の間の因果関係をどう測るか。Dai らは utility-centric evaluation を将来方向に挙げるが、標準ベンチマークはまだ固まっていない。 - インデックス作成時の来歴・時間的妥当性・C2PA 等の信頼メタデータを、検索器と文脈組み立てが実際に使える形式へどう統合するか。 - LLM が検索消費者になると、コーパス側に AI 生成コンテンツが増える「再帰的汚染」が起きる。検索システムは人間由来の洞察、AI 生成要約、コピー、低品質スパムをどの粒度で区別すべきか。 ## 関連 - [[RAGノイズ除去]] — LLM 向け IR の中心的な設計問題 - [[LLM評価]] — 生成側の評価軸 - [[エージェント型強化学習]] — 検索・推論ループを方策として学習する方向 ## 出典 - [[@2026__SIGIR__LLM-Oriented Information Retrieval - A Denoising-First Perspective]]