LLMランキング - yuuk1's Digital Garden

# LLMランキング ## 定義 LLMランキングは、LLM を比較関数(コンパレータ)または採点器として用いてアイテム列に順序を与える手法群の総称である。従来のソートが数値的に測定可能な属性を前提とするのに対し、LLM を介在させることで「好み・優劣・関連性・感情的傾向」などの主観的・曖昧な概念を比較基準にできる点が本質的な特徴である。（Source: [[joisino-LLMでソート-2026]]）主な手法は入力粒度によって 4 つに分類できる。 | 手法 | 一度に入力するアイテム数 | 代表的な呼び出し回数 | |---|---|---| | **ポイントワイズ法** | 1 件ずつ独立 | $n$ 回 | | **ペアワイズ法** | 2 件ずつ比較 | $O(n \log n)$ 回（ソート依存） | | **セットワイズ法** | $c$ 件をまとめて比較 | $O(n \log n / c)$ 程度 | | **リストワイズ法** | 全件または大ウィンドウ | $O(n/w)$ 回（スライディングウィンドウ） | ## 横断的知見 - **LLM のコストモデルは古典的なソートアルゴリズムの想定と異なる**: 古典計算では $c$ 個のアイテムの比較に $\Omega(c)$ コストがかかるため二分比較が最適だが、LLM は 2 件と $c$ 件の比較を同一の 1 呼び出しで処理できる。この差異がセットワイズ法による $(c-1)$ 分ヒープの優位性を生む（Source: [[joisino-LLMでソート-2026]]） - **LLMランキングと[[LLM向け情報検索]]は相補的な観点を持つ**: 情報検索は「どの文書を取得するか」を扱い、LLMランキングは「取得後にどう並べるか」を扱う。リランキングは両者の接合点であり、スライディングウィンドウ法は実装上の標準的折衷手法となっている（Source: [[joisino-LLMでソート-2026]], [[LLM向け情報検索]]） - **LLM 評価の人間嗜好測定と同じ比較構造を持つ**: [[LLM評価]] で Chatbot Arena が採用するペアワイズ勝率集計と、LLMランキングのペアワイズ法は同じ構造を持つ。Chatbot Arena では多数のペア結果を Elo レーティングで集約するのに対し、LLMランキングはソートアルゴリズムで集約する点が異なる（Source: [[joisino-LLMでソート-2026]], [[LLM評価]]） ## 未解決の問い - ペアワイズ法で生じる非推移的な比較結果（フィードバックアーク集合問題）の NP 困難さは、実際のランキング品質にどの程度影響するか。KwikSort の期待近似度 3 は十分な実用上限なのか。 - 位置バイアス（先に置かれた選択肢が有利になる傾向）はモデルサイズや RLHF の程度と相関するか。より新しいモデルでは軽減されているか。 - ポイントワイズ法における確率重みづけ（トークン出力確率の利用）は、API が確率を返さない場合（ e.g. o 系モデル）にどう代替できるか。 - 予測付きソート(Sorting with Predictions)の「汚い比較関数」として使える具体的な安価な基準は何か。BM25・埋め込みコサイン類似度などの既存検索スコアは適切か。 ## 関連 - [[pairwiseランキング]] — LLMランキングの中核技術 - [[LLM比較器]] — 比較器としての LLM の特性と限界 - [[LLM向け情報検索]] — 検索リランキングでの LLMランキング応用 - [[LLM評価]] — Chatbot Arena など同型の比較構造を持つ LLM 評価 ## 出典 - [[joisino-LLMでソート-2026]]