LLM向け情報検索 - yuuk1's Digital Garden

# LLM向け情報検索 ## 定義 LLM向け情報検索は、人間ではなく LLM が検索結果を消費し、取得文書を生成・推論・行動の入力として使うことを前提にした情報検索である。従来の IR が関連文書を人間へ提示することを主目的にしたのに対し、LLM 向け IR は文脈ウィンドウ内で利用可能な証拠密度と検証可能性を最大化することを主目的にする。Dai らはこの転換を、IR の支配的制約が「到達不能」から「発見不能」「意味不整合」を経て「検証不能な文脈過負荷」へ移ったものとして整理する。(Source: [[@2026__SIGIR__LLM-Oriented Information Retrieval - A Denoising-First Perspective]]) ## 横断的知見 - **LLM エージェント領域で繰り返し観測されてきた「推論より文脈制御が律速」という知見を、IR 側から一般化する**: [[Bian Que]] は O&M エージェントのボトルネックを適切なデータ・知識の選択に置き、[[LLM4Log - A Systematic Review of Large Language Model-based Log Analysis|LLM4Log]] は「情報を絞ってから LLM を選択的に呼ぶ階層設計」をログ解析全体の成功パターンとして整理した。Dai らは同じ構造を IR 全体の目的関数変化として定式化し、検索器をノイズゲートとして扱う。(Source: [[@2026__SIGIR__LLM-Oriented Information Retrieval - A Denoising-First Perspective]], [[@2026__arXiv__Bian Que - An Agentic Framework with Flexible Skill Arrangement for Online System Operations]], [[@2026__arXiv__LLM4Log - A Systematic Review of Large Language Model-based Log Analysis]]) - **評価対象が「検索順位」から「生成への因果的効用」へ移る**: [[LLM評価]] は HLE や Chatbot Arena のようにモデル出力の正しさ・人間嗜好を測る。一方、LLM 向け IR では、取得文書が生成結果を改善したか、幻覚を減らしたか、引用と主張を支えたかを測る必要がある。RAGAS/RAGChecker/SePer などの分解評価は、検索評価と生成評価の中間層として位置づく。(Source: [[@2026__SIGIR__LLM-Oriented Information Retrieval - A Denoising-First Perspective]], [[LLM評価]]) - **Retrieval-as-Reasoning が「知識組織化の設計がクエリ時の推論品質を規定する」という命題を実証した**: LLM-Wiki は文書をフラットチャンクでなく双方向リンク付き Wiki ページにコンパイルし、エージェントが推論と連動して検索を制御する Retrieval-as-Reasoning パラダイムを提案・実装した。HotpotQA・MuSiQue・2WikiMultiHopQA で LightRAG・HippoRAG 2・GraphRAG を 2.0–8.1 F1 ポイント上回り、改善が特定アンサーモデルでなく知識組織化から来ることを GPT-4o 切り替え実験で確認した。これは Dai らが定義する「LLM 向け IR の目的関数は検索順位でなく生成への因果的効用」という命題の具体的な実証例として解釈できる。(Source: [[@2026__arXiv__Retrieval as Reasoning]], [[@2026__SIGIR__LLM-Oriented Information Retrieval - A Denoising-First Perspective]]) - **リランキングにおける[[LLMランキング]]の活用がリストワイズ/ペアワイズの設計選択を生む**: 検索結果の再順序付け(リランキング)で LLM を用いる場合、RankGPT 型のリストワイズ法（全件一括・スライディングウィンドウ）とペアワイズ法（クイックソート/KwikSort）が主要な実装パターンとなる。厳密な全体順序が不要で上位精度が重要なリランキングにはスライディングウィンドウが、全体の整列が必要なランキングにはクイックソートが推奨される（Source: [[joisino-LLMでソート-2026]]） - **「検索器の目的関数の転換」は評価軸だけでなく物理層(ストレージ・レイテンシ予算)にも及ぶ**: Dai らはLLM向けIRの目的関数を「検索順位」から「生成への因果的効用」へ転換すると論じるが、[[ベクトル検索インデックス|LEANN]]はこの転換が検索インフラの物理設計にまで波及することを示す実例である。LEANNは「RAGパイプラインでは生成(LLM推論)がレイテンシの99.8%を占め検索は0.24%に過ぎない」という実測(RTX 4090・HNSW構成)に基づき、検索側のわずかなレイテンシ増加とストレージの大幅削減(最大50倍)をトレードする設計を正当化する。これは、LLM向けIRでは検索順位の精緻化よりも「生成のボトルネックに対して検索コストをどう配分するか」という資源配分問題が前景化することを、ストレージ・計算の物理制約の観点から補強する。(Source: [[@2025__arXiv__LEANN - A Low-Storage Vector Index]], [[@2026__SIGIR__LLM-Oriented Information Retrieval - A Denoising-First Perspective]]) ## 未解決の問い - NDCG や Recall@k のような順位指標と、生成結果の忠実性・効用・安全性の間の因果関係をどう測るか。Dai らは utility-centric evaluation を将来方向に挙げるが、標準ベンチマークはまだ固まっていない。 - インデックス作成時の来歴・時間的妥当性・C2PA 等の信頼メタデータを、検索器と文脈組み立てが実際に使える形式へどう統合するか。 - LLM が検索消費者になると、コーパス側に AI 生成コンテンツが増える「再帰的汚染」が起きる。検索システムは人間由来の洞察、AI 生成要約、コピー、低品質スパムをどの粒度で区別すべきか。 - LLM-Wiki のような Retrieval-as-Reasoning システムでは「知識が構造化されているほど推論が深い」というモデルが成立するが、その構造化コスト（コンパイルコスト）を利用側がどう評価・受容するかの経済的フレームワークはまだない。 ## 関連 - [[Retrieval-as-Reasoning]] — LLM 向け IR を推論制御として再定義したパラダイム - [[RAGノイズ除去]] — LLM 向け IR の中心的な設計問題 - [[LLM評価]] — 生成側の評価軸 - [[エージェント型強化学習]] — 検索・推論ループを方策として学習する方向 - [[ベクトル検索インデックス]] — 検索インフラの物理層(ストレージ・レイテンシ)における目的関数転換の実例 ## 出典 - [[@2026__SIGIR__LLM-Oriented Information Retrieval - A Denoising-First Perspective]] - [[@2026__arXiv__Retrieval as Reasoning]] - [[joisino-LLMでソート-2026]] — リランキングにおける LLMランキング手法（リストワイズ/ペアワイズ）の実装解説 - [[@2025__arXiv__LEANN - A Low-Storage Vector Index]] — 検索インフラの物理制約(ストレージ・レイテンシ配分)からLLM向けIRの目的関数転換を補強する一次資料