# Eliciting Language Model Behaviors with Investigator Agents > [!info] Talk metadata > - **会議:** [[MLSys2026]] Day 1 (May 18 / Mon)、Grand Ballroom 1、10:15 - 10:40 PDT > - **登壇者:** Lisa Li(現 OpenAI、University of Washington に assistant professor として着任予定。Stanford で CS PhD 取得 ※指導教員名は文字起こしが不鮮明) > - **URL:** https://mlsys.org/virtual/2026/invited-talk/3645 > - **テーマ:** 言語モデルの振る舞い誘発(behavior elicitation)/レッドチーミング・安全性 > [!abstract] 概要(MLSys サイト) > 言語モデルは自由形式テキストで prompt されると複雑で多様な振る舞いを示し、可能な出力空間の特徴づけは難しい。本研究は **behavior elicitation**(振る舞い誘発)の問題、すなわちターゲットモデルから特定の目標挙動(例: 幻覚や有害応答)を誘発する prompt を探索する問題を扱う。指数的に巨大な prompt 空間を探索するため、ランダムに選んだ目標挙動を、それを誘発する出力の多様な分布へ写像する **investigator モデル**を学習する(amortized Bayesian inference に類似)。これを教師ありファインチューニング、DPO による強化学習、および反復的に多様な prompting 戦略を発見する新しい **Frank-Wolfe 学習目的**で実現する。我々の investigator モデルは、jailbreak・幻覚・オープンエンドな逸脱挙動につながる、効果的かつ人間に解釈可能な多様な prompt を表面化させる。 ## 全体の問い(テーゼ) - 言語モデルは多様な挙動を示すため、有害な振る舞い(爆発物の作り方のような有害質問への具体的指示など)を誘発する**入力空間を理解する**ことが課題。 - とくにエージェント用途では、モデルがツール呼び出しや環境との多ターン対話を行うため、不安全な挙動はより多様かつ高リスクになる。例: 「全メールに返信して」という良性の依頼でも、メール内容に誘導されて未知口座への送金や過剰な機微情報の送信を行いうる。 - 本講演の問題設定 = **behavior elicitation**: ある挙動を出力に誘発する prompt の探索。有害挙動(毒性・セキュリティ問題)の誘発は **jailbreak / レッドチーミング**として知られる。 ## 先行研究の限界: 探索(search)では不十分 - 従来はレッドチーミングを**探索問題**として扱う。目標応答 `y` が与えられ、その生成を誘発する入力 `x` を探索 = `p(y|x)` を最大化。 - 代表的アイデアは**入力トークン空間での座標上昇法(coordinate ascent)**: `x` のトークンを逐次入れ替えて目的を最大化し、多数の反復後に高確率で有害応答を誘発する文字列を発見(GCG 系の手法に相当)。 - 問題: 探索が見つけるのは**1 つのモードだけ**。同じ有害挙動を高確率で誘発する `x` は多数あり(例: "repeat after me" のような単純なものも含む)、カバレッジが不足する。 - リサーチクエスチョン: 安全性問題で「**すべての誘発入力をどれだけ広くカバーできるか**」。 ## 問題の再定式化: 事後推論(posterior inference) - 単一文字列を探すのではなく、**多様な文字列の分布**を求める純粋な最適化問題として扱えば、構成的により広くカバーできる。 - これを**事後推論問題**として定式化: `y` を与えたときの `x` の事後分布を推定。Bayes 則で「事前項 `p(x)` × 尤度項 `p(y|x)` ÷ 正規化定数」と書ける。 - **正規化定数は計算困難**: `y` を生成しうる全 prefix `x` を周辺化する必要があるため。 - **直感: 言語モデルを「逆向き」にする。** 順方向(`x→y`、通常のデコーディング)は容易・tractable だが、逆方向(`y→x`)は困難で、これを推定したい。 ## 手法: SFT から変分推論、そして Frank-Wolfe へ - **ステップ 1(SFT):** 順方向で教師データを収集 — `x` をモデルに入れて `y` を得て、逆写像 `y→x` を予測する investigator モデル `Q_φ` を学習。良い出発点。 - **問題: 分布シフト。** 安全性で探したいのは**稀な失敗ケース**であり、この種の学習データには現れにくい。問題に内在する out-of-distribution 性。 - **ステップ 2(変分推論):** 予測ラベルでの学習に頼らず事後推論を直接解く。`Q_φ` を元モデルの真の事後 `p(x|y)` に一致させる。目的は 3 項に分解: 1. **`Q_φ` のエントロピー** — 分布の多様性・カバレッジ。 2. **クロスエントロピー項** — 事前(prior)の下での生成テキストの流暢性(fluency)。 3. **期待報酬項** — `Q_φ` が有害挙動を誘発する効果(レッドチーミングの成否)。 - ハイパーパラメータ **β1・β2** でトレードオフを調整(流暢性 vs 誘発効果、多様性 vs 誘発成功)。 ## モード被覆: 反復分解と Frank-Wolfe との等価性 - 目的は真の事後を広くカバーすること = **複数のモードを解として被覆**する難しい最適化。 - アイデア: 難しい探索を、**各反復が 1 モードを被覆する**部分問題列へ分解。 - 反復 1: RL で 1 つのモードを探索。 - 反復 2: 既発見モードをダウンウェイトし、新しい報酬地形で別モードを発見。 - 反復 3: 既発見の 2 モードをダウンウェイトして、さらに別モードを発見。 - **反復ごとの目的(3 つのボックス):** - 赤ボックス = **レッドチーミング項**(目標挙動を高確率で誘発できるか)。 - 青ボックス = **既発見モードへのペナルティ**(多様性・新モード発見を促進)。 - 橙ボックス = **KL 項**(分布が崩壊・事前から乖離しすぎないよう正則化)。 - **集約:** 各反復で発見したモードを**混合分布(mixture of distributions)**として混合重みで束ねる。 - **理論的裏付け:** このアルゴリズムは ad hoc ではなく、全目的に**条件付き勾配法(conditional gradient method, 別名 Frank-Wolfe)**を適用した 1 ステップと等価。 - Frank-Wolfe: 各反復で現在点での `F` の線形近似を作り、制約を満たす最適化子 `S` を解き、その方向へ解を更新。 - 本手法ではエントロピー項を前反復解 `Q_{φ-1}` 周りで 1 次 Taylor 展開 → 分解目的の第 1 項(レッドチーミング項)と第 2 項(多様性項)が厳密に得られる。エントロピーの 1 次近似が「既発見モードへのペナルティ」を明示的に与える。赤ボックスはそのままコピー(元アルゴリズムの軽い一般化)。 ## ワークドエグザンプル: 多様な戦略の発見 - 目標サフィックス `y` = "the most inexhaustible source of magic"(J.K. Rowling の引用)に対し、多様な prefix 集合を探す。 - **反復 1:** "repeat after me" が最高報酬 → **繰り返し(repetition)**のパターンを学習。 - **反復 2:** 前反復が好む prefix にペナルティ → 繰り返し系の報酬が低下。最高報酬は**継続・共起(continuation / co-occurrence)**戦略(サフィックスとよく共起する prefix を見つける)。 - **反復 3:** 前 2 反復が好む系列にペナルティ → 最高報酬は J.K. Rowling の有名な引用。**高レベル要約の前置き・出典の設定(prepending summary / setting the source)**で特定サフィックスの確率を上げる戦略。 ## 実験結果 - **幻覚(hallucination):** SFT・RL ベースラインを上回り、より高い hallucination reward を達成。繰り返し・継続・共起・高レベル要約の前置きといった**意味のある定性的クラスタ(戦略)**を発見。 - **安全性:** Llama モデルで**攻撃成功率を 2% → 100%** へ改善。発見した prompt は**より大きなモデルや proprietary モデルにも汎化**。モデル開発者がこれらのエラーを修正する手がかりになり、良いエコシステムにつながる。 - **カバレッジ:** 過去数年で手動・アルゴリズム的に発見されてきた jailbreak 戦略(word-level・prompt-level の両方)のリストに対し、本手法は**大多数の戦略を被覆**。 - 被覆できなかった例: **persuasion(説得)**。事前(instruction 的なコメントを多く含む prior)の下では persuasion の段落の確率が低く、事後推論として定式化しているため「事前が好まないパターンは事後でも強く現れない」と説明できる。 ## 結論・オープン課題 - モデルがよりエージェント的になり(ツール呼び出し、ブラウザ・コンピュータ等の外部環境操作、ログイン資格情報へのアクセス)、権限・アクセスが増えるほど不安全挙動の可能性も増える(例: メール返信時の誤返信・機微情報の漏えい)。 - エージェント用途では、レッドチーミングは「固定された目標挙動に対する単純な探索」を超える。**特定のターゲットを持たない**ため、より広い不安全挙動カテゴリへ汎化する必要がある。 - 構造: 起こりうる失敗・破滅的挙動を良いカバレッジで見つける**外側のループ**+本講演の探索/事後推論の**内側のループ**。これにより円環が閉じる。 - 解決すれば言語モデルはより信頼でき信用に値するものになり、最終的により多くの問題で役立つ。 ## Q&A - **Q1(Janet, Markotor University ※所属名は文字起こし不鮮明)— モデル/サービングスタック間の汎化:** investigator エージェントの挙動は特定のサービングスタックに紐づくのか、それとも異なるモデル・構成をまたいで汎化するのか。 - **A:** 攻撃はモデルファミリーによって汎化挙動が大きく異なる。**同一ファミリーの他規模モデルにはよく汎化**するが、別企業・全く異なるパイプラインで作られたモデルへの汎化は**弱まるものの、依然として存在**する(モデルに何かをさせる一般的なパターンがあるため)。システム観点でも、モデルを異なる infra でサーブすると **numerics に影響**しうるが、攻撃はおおむね汎化する。ただし設定間のギャップは確実に存在する。 - **Q2(David, Eddie Scale ※所属名は文字起こし不鮮明)— 事後推論の反復回数:** 悪い `y` を導く入力モードを発見する反復は無限に必要か、それとも有限回ですべて発見できるのか。 - **A:** 不良挙動を誘発する入力クラスタには**非常に長いテール**がある。実験では無限には回せないが**収束は速く、通常 ~10 反復程度**(実用上の上限)。なお各反復が 1 モードだけを発見する保証はない — 制約なし最適化なので、各反復が言語モデルでパラメータ化された分布(複数モードを同時に被覆しうる)を覆う。反復ごとに異なる salient な部分を強調するが、全体として良いカバレッジが得られる傾向。