マルチエージェント協調 - yuuk1's Digital Garden

# マルチエージェント協調 ## 定義マルチエージェント協調(multi-agent coordination)は、複数のLLMエージェントがそれぞれの専門能力を組み合わせて単一エージェントでは解決が難しい問題を解くアーキテクチャ・手法群の総称である。主な設計次元は「通信トポロジー（チェーン・ツリー・グラフ）」「役割分担（プランナー・実装者・検証者など）」「知識伝達機構（コンテキスト共有・要約・議論）」の3軸からなる。(Source: [[@2026__ICLR__Learning to Orchestrate Agents in Natural Language with the Conductor]] §3・§5) 既存手法は大きく2類型に分かれる。(1) **手設計スキャフォールド**（MoA・Mixture-of-Agents等）: 固定された通信パターンを事前に設計し、各ラウンドでエージェントを並列・直列に呼び出す。(2) **学習型ルーター**（MASRouter・RouterDC・Smoothie等）: 埋め込み空間上で問題をエージェントや人手設計トポロジーにルーティングする分類器を学習する。 2026年のConductor（Nielsen et al., ICLR 2026）は第3の類型として、強化学習で訓練したメタエージェントが自然言語で任意の協調戦略を生成する**エンドツーエンドRL型**を提案した。Conductorは7B LLMとして訓練され、よりはるかに大型のworker LLMを指揮することで全フロンティアモデルを超えるSOTA性能を達成した。(Source: 同上 §3・§4) ## 横断的知見 - **自然言語を媒介にすることで協調戦略の表現力が質的に変わる**: 学習型ルーター（MASRouter等）は事前定義されたトポロジー候補集合の中から選択するだけだが、Conductorは自然言語で「プランナーを2ステップ挟む」「前エージェントの推論を全エージェントに見せる」「反論して洗練させる」等の任意の戦略を記述できる。この表現力の差がConductor vs MASRouterで約20ポイント、Conductor vs MoAで約10ポイントの性能差として現れる。(Source: [[@2026__ICLR__Learning to Orchestrate Agents in Natural Language with the Conductor]] Figure 4・Figure 5) - **マルチエージェント協調は「呼び出し数当たりの性能」という新しい効率軸で評価すべきである**: 従来手法の比較は主に絶対性能で行われてきたが、Conductor（平均3呼び出し）がMoA（8呼び出し）を15ポイント上回る事実は、同じ計算コストで圧倒的な性能差があることを示す。RL型コーディネーターが自律的に「必要最小限のワークフロー」を学習した結果として、効率と性能の正相関が生まれた点が注目に値する。(Source: 同上 Figure 5) - **エージェント選択と指示内容（プロンプトエンジニアリング）はともに重要な協調スキルだが、後者がより大型モデルを要する**: 3B Conductorと7B Conductorは訓練後に同じエージェント分布（Gemini 2.5 Pro・GPT-5・Claude Sonnet 4を優先）に収束するが、7Bは3Bよりも性能が明確に高い。この差はより細かく焦点化されたサブタスク指示（プロンプトエンジニアリング）の質によるものと分析されており、モデルスケールアップが協調戦略の言語表現力に直接変換される軸が存在することを示す。(Source: 同上 §4.5・Figure 7) ## 未解決の問い - Conductorが学習する協調戦略は、workerモデルのセット（プロバイダー・サイズ・専門化）に対してどこまで転移するか。訓練時に含まれないモデルを追加・削除した場合の性能劣化の境界条件は未報告。 - 再帰的トポロジーにおける最適な再帰深さ・コスト上限はどう決定するか。論文は2×までを評価したが、それ以上の再帰でどの程度の収益逓減が生じるか不明。 - 協調戦略の創発はタスクドメイン（数学・コード・科学）によって質的に異なるか。Conductorが数学では「プランナー+実装者+検証者」の順を、コードでは別の構造を学ぶといった分析が付録の例示にとどまっており、定量的な戦略分類は未実施。 - マルチエージェント協調を対象としたRLの探索問題（報酬がスパース・遅延）は、強力なworkerがあることで緩和されると本論文は主張するが、workerが弱い場合（例：Gemma 7Bのみのプール）でRLが収束するかどうかは未検証。 ## 関連 - ソース: [[@2026__ICLR__Learning to Orchestrate Agents in Natural Language with the Conductor]] - 概念: [[テスト時計算スケーリング]] / [[強化学習スケーリング]] / [[LLM推論]] / [[LLM評価]] - エンティティ: [[Sakana AI]] / [[Stefan Nielsen]] / [[Edoardo Cetin]] / [[Yujin Tang]] ## 出典 - [[@2026__ICLR__Learning to Orchestrate Agents in Natural Language with the Conductor]]（§3 手法定義・§4 実験・§4.5 分析・§5 関連研究）