# AgenticCache: Cache-Driven Asynchronous Planning for Embodied AI Agents > [!info] Talk metadata > - **会議:** [[MLSys2026]] Day 2 (May 19 / Tue)、15:00 - 15:15 PDT > - **登壇者:** Hojoon Kim, Yuheng Wu, Thierry Tambe > - **所属:** Seoul National University、Stanford University > - **URL:** https://mlsys.org/virtual/2026/oral/3806 > - **OpenReview:** https://openreview.net/forum?id=UfABxFoSXH > - **Code:** https://github.com/hojoonleokim/MLSys26_AgenticCache > [!abstract] 概要 > 身体性 AI エージェントはプランニングに LLM を多用するが、ステップごとの LLM 呼び出しは深刻なレイテンシとコストを招く。本論文では、身体性タスクが**強いプラン局所性**を示すこと――次のプランが現在のプランから高い確率で予測可能であること――を示す。この性質を活用し、キャッシュされたプランを再利用してステップごとの LLM 呼び出しを回避するプランニングフレームワーク AgenticCache を提案する。AgenticCache では、各エージェントが頻出プラン遷移のランタイムキャッシュに問い合わせ、バックグラウンドの Cache Updater が非同期に LLM を呼び出してキャッシュエントリの検証・修正を行う。4 つのマルチエージェント身体性ベンチマーク、3 つのモデルスケール(計 12 構成)の平均で、タスク成功率を 22% 向上、シミュレーションレイテンシを 65% 削減、トークン使用量を 50% 削減する。 ## 問題設定: エージェントの plan-act ループはなぜ遅いか - 身体性 AI エージェントは Perceive → Plan → Act のループを繰り返す。Plan ステージは LLM が担うため、毎イテレーションで LLM の推論完了を待つ同期的ボトルネックが生じる。 - ベンチマーク横断のレイテンシ内訳では、LLM プランニングが全実行時間の **70% 以上**を占める(TDW-MAT: 71%、TDW-COOK: 95%、TDW-GAME: 96%、BEHAVIOR-1K: 100%)。 - エージェント単位でも同様に、CoELA@TDW-MAT で 56%、COMBO@TDW-COOK,TDW-GAME で 92%、COHERENT-Oracle/Robot@BEHAVIOR-1K で 100% がプランニングに消費される。 - 結果として、1 エピソードあたり数時間のレイテンシ、1 実行あたり数百万トークン、$10--$100 のコストが発生する。 - 目標: **LLM をクリティカルパスから外す**。 ## プラン局所性: コンピュータアーキテクチャからの着想 - プラン遷移の 2-gram 分析により、身体性タスクでは次のプランが少数の後続候補に集中する**強いプラン局所性**が観察される。 - CoELA@TDW-MAT: "go grasp target" → "put into container" が 59.7%、"put into container" → "go grasp target" が 78.6%。 - COHERENT@BEHAVIOR-1K: "go grasp target" → "explore" が 34.8%、"move (Robot Dog)" → "grab" が 34.8%、"move (Quadrotor)" → "land on" が 74.6%。 - この現象は CPU の分岐予測と類似する。CPU 分岐予測器では History(過去の分岐結果)→ Predict(taken/not-taken)→ Speculate(解決前に実行)→ Correct(ミス時にパイプラインをフラッシュ)という流れを踏む。AgenticCache はこれをエージェントのプラン予測に適用する。 - ただし、純粋な局所性だけでは不十分である。静的パターンベースのキャッシュ再利用は、動的な環境変化に適応できずタスク成功率が大幅に低下する(Figure 5: GPT-5 の 81.2% に対しパターンベース静的キャッシュは 22--27.5%)。これがハイブリッド設計の動機となる。 ## 既存キャッシュ手法との差異 | 手法 | 粒度 | 再利用対象 | 制約 | |---|---|---|---| | KV キャッシュ | トークンレベル | アテンション key/value テンソル | 毎ステップ LLM を呼び出す | | コンテキストキャッシュ | プロンプトレベル | プロンプト・レスポンスのペア | 完全一致/近似一致が必要 | | テンプレートキャッシュ | クエリレベル | 構造化されたクエリテンプレート | 毎ステップ LLM を呼び出す | | **AgenticCache** | **プラン遷移レベル** | **2-gram プランパターン + 非同期 LLM** | **オンライン適応(Cache Updater)** | - 既存のキャッシュは LLM 推論内部の冗長計算を削減するが、LLM 呼び出し回数自体は減らさない。AgenticCache はプラン遷移の再利用により LLM 呼び出しそのものを回避する。 ## 提案手法: AgenticCache ### システム概要 - クリティカルパス上にキャッシュ(2-gram ストア)を配置し、LLM をバックグラウンドの Cache Updater プロセスに移動する。 - エージェント(Consumer)は環境から観測を受け取り、AgenticCache に問い合わせてプランを取得し、低レベルアクションとして実行する。 - Cache Updater は非同期に LLM を呼び出し、キャッシュエントリの検証・修正を行う。 ### キャッシュ構造: 状態メタデータ付き 2-gram エントリ - 各エントリは ⟨P_i → P_j⟩ のプラン遷移を格納する。P_i, P_j は高水準プラン(例: GoGrasp → Transport)。 - 遷移統計に加え、タスク状態のメタデータフィールド(ステップ数、保持アイテム数、完了サブゴール数、訪問部屋数など)の観測最小値・最大値の範囲を記録する。 - 2-gram を採用した理由: 局所性を捕捉するのに十分な長さでありながら、キャッシュを極めて小さく保てる。 ### 実行時のクエリとフィルタリング - 制御ループは前回のプラン P_i と現在の状態メタデータをキーとしてキャッシュを検索する。 - メタデータ範囲と矛盾するエントリを除外し、実行可能候補集合を得る: - F(P_i) = { P_j | s_t ∈ [s_ij^min, s_ij^max], h_t ∈ [h_ij^min, h_ij^max] } ### スコアリングと選択 - 実行可能候補の中から複合スコアを最大化するプランを選択する: - P* = arg max_{P_j ∈ F(P_i)} S(P_i → P_j) - **S(P_i → P_j) = C(P_i → P_j) × I(P_j)** - **C(P_i → P_j)**: 遷移カウント(ローカルシグナル)。P_i の直後に P_j が観測された回数。 - **I(P_j)**: 重要度(グローバルシグナル)。P_j がバックグラウンド LLM に正しいプランとして確認された割合。 - I(P_j) = N^conf(P_j) / N^cand(P_j) - この設計は、ローカル履歴とグローバル履歴を組み合わせるハイブリッド分岐予測器(Yeh & Patt, 1993; Smith, 1998)と同型である。 ### Cache Updater: バックグラウンド LLM プロセス - エージェントがアクションを実行している間に、Updater は LLM に「自分ならどのプランを選ぶか」を問い合わせる。 - **確認(Confirm)**: LLM の回答が実行済みプランと一致する場合、遷移カウント C と確認数 N^conf を増加させて補強する。確認抑制を適用し、現プランが終了するまで追加クエリを抑止する。 - **修正(Correct)**: LLM の回答が直近の軌跡に現れない場合、(a) 新しい遷移 p_t → p'_{t+k} を追加/更新、(b) 誤予測遷移のカウントを減少、(c) p'_{t+k} が実行可能であれば進行中のプランを即座に置換する。修正抑制を適用し、置換プランの実行完了まで追加クエリを抑止する。 - **キャッシュミス**: 実行可能なプランが見つからない場合、高水準プランニングを一時停止し、Updater が LLM から新プランを取得して新エントリとして挿入する。 ### オフラインパターンプリフィリング(ウォームスタート) - コールドスタート問題を緩和するため、評価セットとは分離した訓練エピソード(GPT-5 の成功軌跡)からプラン遷移を抽出し、推定条件付き確率とメタデータ範囲を付与してキャッシュを初期化する。 - プリフィリングはエピソード冒頭の数ステップの意思決定を主に改善するものであり、前提条件ではない。コールドスタート評価でもレイテンシ・コスト削減の大部分は維持される。 ## 実験 ### 評価設定 - **プラットフォーム**: NVIDIA GeForce RTX 4090 GPU、AMD Ryzen 9 7950X 16 コア CPU。 - **モデル**: GPT-5、GPT-5-mini、GPT-5-nano(OpenAI API 経由、2025 年 10 月時点の価格で算出)。 ### ベンチマーク | タスク | プランナー | エージェント数 | 協調方式 | 環境 | |---|---|---|---|---| | CoELA@TDW-MAT | LLM | 2 | 分散型 | ThreeDWorld | | COMBO@TDW-COOK | VLM | 2 | 分散型 | ThreeDWorld | | COMBO@TDW-GAME | VLM | 4 | 分散型 | ThreeDWorld | | COHERENT@BHV-1K | LLM | 5 | 集中型 | Graph | - **TDW-MAT**: コンテナを用いた大型オブジェクト搬送タスク(ナビゲーション+操作+通信)。 - **TDW-COOK**: レシピに従う協調調理タスク(時間的依存関係が強い)。 - **TDW-GAME**: VLM 推論とマルチステージ協調を要するパズル組み立てタスク。 - **BEHAVIOR-1K**: 異種ロボット(アーム、犬型、クアッドロータ)による家庭内搬送タスク。 ### ベースライン 1. **同期ベースライン**: CoELA、COMBO、COHERENT を同期 LLM プランナーとして使用。 2. **並列化プランニング・アクティング(Parallelized Planning-Acting)**: 現在のアクション実行中に次プランの LLM クエリを発行。環境変化でプランが無効化されるリスクがある。 3. **投機的プランニング(Speculative Planning)**: 小モデル(GPT-5-nano)が暫定プランを提案し、大モデルが事後検証。現実環境での誤アクションの取り消しが困難。 ### 主要結果(Table 2、スライド 19--21) - **4 ベンチマーク × 3 モデルの 12 構成平均**: - レイテンシ **-65%** - トークン使用量 **-50%** - タスク成功率 **+22%** - GPT-5 での AgenticCache (Ours+) は TDW-COOK で成功率 100%、レイテンシ 12.86h → 1.75h(**7.4 倍高速**)、コスト $21.0 → $4.4(**4.8 倍削減**)を達成。 - GPT-5 での各ベンチマークのレイテンシ削減: - TDW-MAT: 41.34h → 22.27h(**-46%**) - TDW-COOK: 12.86h → 1.75h(**-86%**) - TDW-GAME: 7.88h → 1.11h(**-86%**) - BEHAVIOR-1K: 3.36h → 1.55h(**-54%**) - タスク成功率は全ベンチマークで同期ベースラインと同等以上。TDW-GAME では GPT-5/GPT-5-mini/GPT-5-nano のすべてで 100% を達成(ベースライン: 100%/22.22%/0%)。 ### トークンとコスト(スライド 21) - GPT-5 でのトークン使用量(百万単位): - TDW-MAT: 5.8M → 4.1M、TDW-COOK: 3.3M → 0.675M、TDW-GAME: 2.3M → 0.728M、BEHAVIOR-1K: 3M → 1.9M。 - GPT-5 でのコスト(USD): - TDW-MAT: $40.5 → $27.7、TDW-COOK: $21 → $4.4、TDW-GAME: $14.3 → $4.8、BEHAVIOR-1K: $9.3 → $6.6。 ### コールドスタート評価(Table 3--4) - プリフィリングなしでも AgenticCache はレイテンシを 1.4--1.9 倍、コストを 1.35 倍削減し、成功率を概ね維持する。 - GPT-5-nano の長期エピソードでは成功率が 42.8% → 62.8% に向上。GPT-5 では 82.2% → 80.6% とわずかに低下するが、これは長期エピソードで古くなった遷移や協調コンフリクトの影響である。 ### キャッシュヒット率とフォールバックレイテンシ(Figure 8) - 構造化環境ではキャッシュヒット率が高い: TDW-GAME で 66% 以上、BEHAVIOR-1K で 73% 以上。 - TDW-COOK ではプラン多様性が高いためヒット率は 39--46% に低下する。 - キャッシュミス時のフォールバックレイテンシは TDW ベースのタスクで 9--29 秒(VLM オーバーヘッドのため)、BEHAVIOR-1K で 5.2--7.1 秒。 ### キャッシュサイズとメモリ使用量(Table 5) - キャッシュのメモリフットプリントはエージェントあたり **0.1--1.0 KB** と極めて小さい。 - CoELA@TDW-MAT: N=35 遷移、M=7 メタデータフィールド、1.0 KB。 - COMBO@TDW-COOK: N=37、M=3、0.3 KB。 - COMBO@TDW-GAME: N=35、M=1、0.2 KB。 - COHERENT@BHV-1K (Robot Arm/Quadrotor/Robot Dog): N=5/9/15、M=3/2/2、0.1 KB 各。 - 遷移数はエピソード初期に急速に増加し、約 1,500 ステップ以降は緩やかになる(Table 6)。既存エントリの洗練に移行するためである。 ### アブレーション(Figure 9) - TDW-MAT における 4 つのバリアントの成功率比較: - 静的キャッシュ(更新なし・置換なし): 24%。 - キャッシュ更新のみ: 42%(+12%)。動的な観測への適応を反映。 - プラン置換のみ: 52%(+35% の寄与)。誤予測アクションのオンザフライ修正。 - **フルシステム(更新+置換)**: 84%(静的ベースラインの 24% を大幅に上回る)。 - GPT-5-mini でも同様の傾向: 静的 24% → 更新のみ 42% → 置換のみ 52% → フル 76%。 - 両メカニズムは相補的な故障モードに対処しており、相乗的に機能する。 ### プラン実行精度の時間推移(Figure 10) - 3 モデルすべてで、AgenticCache のプラン実行精度は時間とともに単調に向上する。 - フレーム 3,000 時点の精度: GPT-5 ≈ 0.52、GPT-5-mini ≈ 0.49、GPT-5-nano ≈ 0.31。 - GPT-5-mini は初期フレーム(100--500)で一時的に GPT-5 を上回る。推論レイテンシが短いため、キャッシュ更新サイクルが速く、初期段階でより頻繁にリフレッシュされるためである。 ## 制約と今後の方向 ### 制約 - **マルチエージェント協調の競合**: キャッシュはエージェント単位であり、共有リソースの競合(例: あるエージェントが正しくプラン遷移を辿る一方、別のエージェントがタイミングや観測の違いから逸脱する)によるデッドロックやミスハンドオフが生じ得る。 - **ドメインスコープ**: 構造化された操作・搬送タスクで評価しており、自由探索や創造的問題解決などの非構造化環境ではプラン局所性が弱まり、キャッシュヒット率が低下する可能性がある。 ### 今後の方向 - 3-gram インデキシングや階層的サブルーチンへの高次遷移表現の拡張。 - 優先度ベースの協調プロトコル(リソース予約、軽量コンフリクト解消)。 - スコアリング関数の学習や、LLM への遅延判断の適応的キャッシュポリシー。 - 身体性エージェントを超えた応用: マルチエージェントチーム、コーディングエージェント。 ## まとめ - エージェントは同じ短いプラン遷移を繰り返す(プラン局所性)。これを再計算する必要はない。 - プランニングとアクションを分離し、LLM をバックグラウンドに移動させ、キャッシュを高速なオンパスプランナーとする。 - キャッシュ+ Updater の組み合わせは、エージェント向けの分岐予測器として機能する。予測・投機実行・修正を非同期に行い、レイテンシ -65%・トークン -50%・成功率 +22% を実現する。