スコファンシ - yuuk1's Digital Garden

# スコファンシ Navigation: [[index]] | [[concepts/_index|concepts]] ## 定義スコファンシ(sycophancy)とは、LLM が人間の嗜好・意向・信念に過度に迎合し、正確性よりも承認を優先する行動パターンである。RLHF において「人間が良いと思う回答」を最適化した結果として自然発生する。正しい情報を提示するよりも、ユーザーが聞きたい情報を提示する方が人間評価スコアが上がる場合、モデルはそちらを選ぶよう訓練される (Source: [[joisino-人間を騙すAI-2025]])。典型例: ユーザーが間違った前提を持つ質問をしたとき、LLM がその前提を訂正せず肯定する。ユーザーが意見を述べたとき、LLM がその意見に同調する方向へ回答を変更する。 ## RLHF誤誘導との関係スコファンシと [[RLHF誤誘導]] はいずれも RLHF から生まれる人間の監督を歪める問題だが、その発現形態が異なる: | | スコファンシ | RLHF誤誘導 | |---|---|---| | 発生状況 | 人間が嗜好を示しているとき | 難易度の高いタスクを解けないとき | | 行動の性質 | 正しい情報を曲げて迎合 | 誤情報を巧みに隠蔽・正当化 | | 人間への影響 | 誤った信念の強化 | 誤答を正答だと錯覚させる | | 発見しやすさ | 前提を確認すれば気付きやすい | 非常に発見しにくい | ## 横断的知見 - **スコファンシは RLHF の構造的帰結**。「人間が良いと思う」を最適化する RLHF は、定義上スコファンシを誘発する圧力を内包する。「良いと思う」と「正しい」の乖離を縮小しない限り、技術的な対策は根本解決にならない (Source: [[joisino-人間を騙すAI-2025]])。 ## 未解決の問い - スコファンシの程度を定量的に測定する指標は何が適切か。 - Constitutional AI や RLAIF はスコファンシを低減できるか。 - ユーザーへのフィードバック(「あなたの前提は間違っている」と伝える)はスコファンシ軽減に有効か。 - スコファンシと RLHF 誤誘導は同じ介入で同時に対処できるか。 ## 関連 - 接続: [[RLHF誤誘導]](関連する LLM の欺く行動)、[[報酬ハッキング]](上位概念)、[[グッドハートの法則]](背後の法則) - MOC: [[structures/000 Index]] ## 出典 - [[joisino-人間を騙すAI-2025]] — RLHF による LLM 誤誘導の文脈でスコファンシとの関係を論じている