一対比較ランキング - yuuk1's Digital Garden

# 一対比較ランキング Navigation: [[index]] | [[面白さ優先分類]] ## 定義一対比較ランキング(pairwise comparison ranking)とは、候補 n 個から 2 つを選んで「どちらが優れているか」を繰り返し問い、勝利回数(または Bradley-Terry モデル等の確率モデル)でランキングを構築する手法の総称である。絶対評価(各候補に独立にスコアを付ける)と比較して次の利点がある: 1. **絶対基準の揺らぎを除去する**: 判定ごとに基準がずれても、相対比較なので影響しない。 2. **肯定バイアスを回避できる**: 多くの LLM は肯定的に答えるよう訓練されており、10 段階評価を使うと高スコアにタイが多発する。「どちらか」を強制することでタイが生じない。 3. **微妙な差を顕在化できる**: わずかな優劣でも片方に割り当てるため、わずかな差を積み上げてランキングに反映できる。 4. **ブラックボックス API でも利用可能**: モデルの内部出力(埋め込みやロジット)に依存しない。 **Shah+ JMLR 2018** は、選ばれた回数が多い順にランキングを作る単純集計が、より複雑な統計モデルに比べてほぼ最適であることを証明している。 ## EUREKA での利用 [[面白さ優先分類]] の手法 EUREKA では、特徴量ペア (A, B) を対象に LLM へ「A だけから予測できることと B だけから予測できること、どちらが面白いか」を問い、選ばれた回数の多い順に特徴量をランキングする。各特徴は他のすべての特徴と少なくとも 1 回ずつ比較される(源泉:[[joisino-面白さ優先分類器-2025]])。 ## 他の応用領域一対比較ランキングは LLM による嗜好データセット(選好データセット)の収集にも広く使われる。RLHF(人間フィードバックによる強化学習)では、応答候補ペアに対して人間アノテータが「どちらが良い回答か」を選ぶ方式が事実上の標準となっている。 ## 横断的知見 > [!note] 現時点でのソースは [[joisino-面白さ優先分類器-2025]] の 1 本のみ。追記は次のソース ingest 時に行う。 - 一対比較の「ほぼ最適な単純集計」(Shah+ 2018)は、特徴量の面白さランキングのような主観的・非定量的な目標にも適用可能であることを EUREKA が実証した。(Source: [[joisino-面白さ優先分類器-2025]]) ## 未解決の問い - 比較回数 O(n²) が大規模特徴量セットにスケールするか? n が数百〜数千になる場合、活性化学習的に比較対を選択する手法との統合は有効か。 - LLM の一対比較結果は一貫性(推移律 A>B, B>C → A>C)を保証できるか? - Bradley-Terry モデルやスペクトルランキングと単純集計の差が顕在化する条件は何か。 ## 関連 - [[面白さ優先分類]] — EUREKA での応用 - [[joisino-面白さ優先分類器-2025]] — 一次ソース ## 出典 - 佐藤竜馬 (joisino)、「面白さ優先分類器」、ジョイジョイジョイ、2025-08-28 - Shah, N. B. et al., "Simple, Robust and Optimal Ranking from Pairwise Comparisons", JMLR 2018, Vol.18, pp.1-63