@2025__OSR__Cloud Infrastructure Management in the Age of AI Agents

> [!abstract] 概要(ACM SIGOPS OSR abstract の日本語訳) > クラウドインフラは現代 IT 産業の礎石である。しかしこのインフラを効果的に管理するには、DevOps エンジニアリングチームの相当な手作業を要する。我々は、クラウドインフラ管理タスクを自動化するために、大規模言語モデル(LLM)を動力とする AI エージェントを開発すべきだと主張する。予備的な研究として、AI エージェントが SDK・CLI・IaC プラットフォーム・Web ポータルといった異なるクラウド/ユーザインターフェースを用いる可能性を調査した。異なる管理タスクにおける有効性についての知見を報告し、研究上の課題と潜在的な解決策を特定する。 ## 論文情報 - タイトル: Cloud Infrastructure Management in the Age of AI Agents - 著者: Zhenning Yang¹*, Archit Bhatnagar¹*, Yiming Qiu¹²*, Tongyuan Miao¹, Patrick Tser Jern Kon¹, Yunming Xiao¹, Yibo Huang¹, [[Martin Casado]]³, [[Ang Chen]]¹(* は equal contribution) - 所属: ¹[[University of Michigan]] / ²[[University of California, Berkeley]] / ³[[Andreessen Horowitz]] - 媒体: ACM SIGOPS Operating Systems Review(OSR), 2025-08-04, pp.1–8 - DOI: 10.1145/3759441.3759443 ## 概要クラウド管理は煩雑で誤りやすく、DevOps エンジニアに大きな負担を強いる。本論文は LLM ベースの AI エージェントでこれを支援するビジョンを掲げ、4 つの管理モダリティ([[クラウド管理モダリティ|SDK・CLI・IaC・ClickOps]])ごとに予備的なエージェントを実装し、Azure VM 管理タスクで provisioning/updates/monitoring の 3 段階を比較する。結果から各モダリティの向き不向きを抽出し、効果的なクラウドエージェントの設計(3 層アーキテクチャ・exploration/exploitation ワークフロー・guardrail)へ向けた技術ロードマップを提示する。本論文は [[Ang Chen]] 研究室の IaC × LLM エージェント研究群([[Zodiac]]/[[NSync]]/[[Lilac]])を「クラウド管理の 4 モダリティ」という広い枠組みに位置づける、ビジョン/ポジション論文である。 ## 問題設定 - **対象**: テナント(EA Games・Home Depot 等)がクラウドプロバイダ(Amazon・Microsoft・Google)上のインフラを管理する作業。プロバイダは内部を露出せず薄い管理層(shim)だけを公開する。管理はライフサイクル全体(provisioning → runtime monitoring → resource updates)にわたり継続する。 - **4 モダリティ**: いずれも低レベルの RESTful クラウド API(get/post/put/delete で資源をデータオブジェクトとして操作)の上に立つ高レベルインターフェース。(i) SDK(命令型プログラミング)、(ii) CLI(端末組み込み)、(iii) IaC(宣言的・state-centric。[[Terraform]] 等)、(iv) ClickOps(Web ポータルのクリック、no-code/low-code)。 - **問い**: AI エージェントはクラウド DevOps エンジニアの役を担い負担を減らせるか。どのツーリングがクラウド AI エージェントに最適か。克服すべき研究課題と解決策は何か。 - **agentic 設計が適合する理由**: クラウド管理タスクは高度に構造化・反復的で探索空間を制約しやすく、結果の検証も容易([[@2024__SOSP__Unearthing Semantic Checks for Cloud Infrastructure-as-Code Programs|Zodiac の IaC-Eval]] のようにテストケースに頼る code generation より検証が楽)。プログラム可能なインターフェースが揃い、豊富な公式ドキュメント(RAG や Web 検索で蒸留可能)もある。 ## 提案手法ビジョン論文のため、(A) 予備実験による現状把握と (B) 解決スケッチ(§3)の 2 部構成。 ### (A) Battle of the Agents — 予備実験 Azure VM を題材に 4 モダリティのエージェントプロトタイプを実装(Figure 1 にモダリティとコード片を図示)。 - **SDK agent**: Azure Python SDK でコード生成。 - **CLI agent**: Azure "cloud shell" の canned CLI コマンドへ Shell スクリプトを生成。 - **IaC agent**: [[Terraform]] プログラムを生成。 - **ClickOps agent**: スクリーンショットと accessibility tree / AXTree を使い Web UI を操作([[WorkArena]] から採用)。 - **モデル**: SDK/CLI/IaC は [[Azure Copilot]](GPT-4 ベースを Azure 向けに調整)、ClickOps は GPT-4o。各タスクで stochasticity を見るため 8 試行(異なるプロンプト)。100 step を超えたら失敗とみなす。 ### (B) 解決スケッチ(§3) - **3.1 エージェントアーキテクチャ(3 層)**: - **User-agent interface**: クラウド操作は安全クリティカルで、ユーザ意図とエージェント行動の不一致が重大な破壊を招く(例: Azure では VM を standard→spot に変えるには破棄・再作成が要るが、ユーザはライブ更新可能と誤解しうる)。ユーザのプロンプトを受けて意図を明確化する助言メッセージを返し副作用を警告。RLHF で行動を意図に整合させる。 - **Agent-cloud interface**: 事例から CLI=効率、IaC=大規模更新、Web=監視に強い。全モダリティ習熟は人間には過大な負担だが、エージェントはインターフェースを選択・組み合わせて最適化できるはず。併用時は各モダリティ経由の行動を調停する必要があり、不注意だと **resource drift**(ClickOps が IaC 管理リソースを変更しても IaC のローカル状態を更新しない)や **race condition**(CLI と ClickOps が同一リソースを同時更新)が生じる。統一クラウド状態と同期プリミティブ(locking/transaction)を提案。 - **Multi-agent orchestration**: タスク難度を測る **complexity measure**(リソース数・相互接続・single/multi-cloud・既存クラウドデータの規模)を導入し、タスク種別ごとに別モデルの専門「expert」を用意。orchestrator が複雑さ・想定タイムライン・金銭予算に応じてルーティング。 - **3.2 エージェントワークフロー(exploration と exploitation の分離)**: - クラウドタスクは遅く高価な provisioning を含み試行錯誤が非効率。テスト/本番分離の慣行に倣い、サンドボックス(テスト subscription)で大胆に探索 → 知識を **symbolic rule** に articulate した "metaprogram" を作り、型検査・プログラム検証・テストで高い保証を得る。 - **探索の最適化**: データ希少が障壁。シミュレーション環境「gym」が低リスクな探索場を与えるが、既存 gym はゲームプレイ/合成タスク中心。実クラウド実験は高価・高リスクで RL も非現実的なので、リソース・機能・課金モデルの複雑さを再現する **cloud gym とベンチマーク**を提案。 - **exploitation の最適化**: 動的環境(負荷スパイク・障害・価格変動)へ実時間適応。**workflow learning**(過去実行で得た知識を「キャッシュ」)を活用し、検証済みワークフローをエージェントメモリに保存して再利用、cold start を緩和。reasoning + planning と組み合わせ新文脈へ適応。 - **3.3 ガードレール**(自律度に依らず必要): - **自律度の段階**: 完全自律は依然困難。人間を補助する "co-pilot" や多段推論する semi-autonomous は既に手が届く。[[@2024__SOSP__Unearthing Semantic Checks for Cloud Infrastructure-as-Code Programs|fully autonomous は開発すべきでない]]とする立場([22] Mitchell+, 2025)を引く。 - **guardrail で制約**: 行動を最新ポリシー(GDPR・データ主権等の規制、プロバイダ要件、テナントのセキュリティ規約)に照合・検証。自然言語のポリシーを **formal specification にエンコード**し metaprogram を仕様検査。アクセス制御権限の付与。**audit trail**(詳細ログ・レポート)で変更を操作に帰属させ misbehavior を精密に検知。 - **fault tolerance**: 確率的ゆえ失敗は不可避(ClickOps は誤操作のループに陥った)。retry・rollback(失敗した変更の巻き戻し)・error correction。audit trail を rollback/recovery の起点にして known-good 状態へ復帰。blast radius を抑え self-healing を可能にする。 - **Human-in-the-Loop**: 自律と監督の均衡。ルーチンは自律、高リスクはエスカレーション。スタック検知時は制御をユーザへ返す。runtime check で閾値超過時にアラーム。従来の human-cloud インターフェースを fallback として残し、ユーザがいつでも介入・全制御を取り戻せるようにする。 ## 新規性 - 既存研究は code generation(人気言語 Python/C に強いが、SDK/CLI/IaC は low-resource 言語。IaC 生成は [[@2024__SOSP__Unearthing Semantic Checks for Cloud Infrastructure-as-Code Programs|IaC-Eval]] 等で初期進展)や Web 自動化エージェント(オンラインショッピング等)に偏り、いずれもクラウド運用の多層依存・高い失敗影響・長期目標(コスト最適化・セキュリティ・コンプライアンス)を扱えない。 - [[AIOps]] は log 解析・インシデント診断に LLM を当てるが「データ分析」に焦点。本論文のビジョンは**自律的な行動**(tool use・推論)を広いインフラ管理タスクへ広げる点で異なる。 - 4 モダリティを横断して同一タスクでエージェントを比較し、タスク段階(provisioning/updates/monitoring)×モダリティの向き不向きを実証的に切り分けたのが新しい。 ## 実験設定 - **環境**: Microsoft Azure。対象資源は VM(と付随する NIC・disk・load balancer・network)。 - **タスク**: 3 段階・計 11 タスク。 - Provisioning(3): 単一 VM 作成 / 同一ネットワーク下に 3 VM 作成 / 3 VM を load balancer に接続。 - Updates(3): disk 追加(live)/ boot diagnostics 有効化(live)/ VM type を standard→spot に変更(破棄・再作成が必要)。 - Monitoring(5): VM status(running/stopped)取得 / public IP 取得 / 全 attached disk の状態(サイズ・種別)取得ほか。 - **比較対象**: SDK / CLI / IaC / ClickOps の 4 エージェント(上記)。 - **評価指標**: 成功率(SR)と平均 step 数(1 step = コード生成やブラウザクリック 1 アクション)。100 step 超で失敗。 ## 実験結果 Table 1 と Figure 2(レーダーチャート: 軸は success rate / observability / interoperability / level of abstraction / efficiency)が要約。 | Agent | Provisioning SR / steps | Updates SR / steps | Monitoring SR / steps | |---|---|---|---| | SDK | 0.67 / 4.5 | 0.67 / 2.0 | 0.80 / 1.25 | | CLI | **1.0 / 1.6** | 0.67 / 3.0 | 0.80 / 1.0 | | IaC | 1.0 / 2.0 | 0.33 / 5.0 | 0.40 / 2.5 | | Web (ClickOps) | 0.33 / 46.0 | 0.67 / 20.0 | **1.0 / 2.75** | (Table 1: Agent performance (success rate (SR) and the average number of steps) on VM management tasks. 太字は best-performing。) - **Provisioning**: CLI が最効率(1.6 step、多くは 1 step で正しいコマンド生成)。SDK は 4.5 step・約 67%。IaC は 2 step(1 step で IaC 生成 + 1 step でデプロイ)。ClickOps は CLI の約 30× の step を要し、3 VM 同一 VNet のような複雑タスクで正しい手順列を生成できず max step 上限に達して失敗。コーディング系はリソース数に依らず同様にプログラムを生成できる。 - **Updates**: ClickOps はコンソールが既存 VM 構成を自然に提示する恩恵で SR 67% だが平均 20 クリック。IaC は state-centric で過去状態のコピーを持つが、コンテキストウィンドウ制約で全状態をモデルに渡せず SR 33%(より長い文脈なら改善すると仮説)。live 更新(disk 追加・boot diagnostics)は高 SR、再作成を要する更新は失敗を誘発。standard→spot 変更では IaC が優位——属性 1 つの変更で済み、teardown/recreate を [[Terraform]] が自動処理する。SDK/CLI/ClickOps は各 step(VM image 保存 → 破棄 → 再作成)を辿る必要があり失敗率が高い(既存 VM image 保存で失敗)。 - **Monitoring**: 情報取得の複雑さはモダリティで差。disk 情報取得は SDK/CLI=1 step、ClickOps=2 step、IaC=8 step。CLI/SDK は約 80% SR を平均 1 step で達成。IaC は monitoring に不向き(SR 40%)——非 IaC 言語を生成する hallucination や deprecated メソッド呼び出しのバグが多発。リソース依存グラフ取得のような複雑な監視は Web が好適(2 step、視覚表現)で ClickOps はほぼ完璧。real-time service health(Azure Service Health の region 障害・メンテ・過去インシデント)は **Web ポータルでしか得られない**サービスもある。 ### 観察(Observations) - **Obs #1**: 確率的だが小タスクではかなり信頼でき、多 step タスクでエラーが増える。ClickOps はリソース作成で特に遅く脆い。 - **Obs #2**: クラウド状態へアクセスし推論する能力は更新タスクで重要で、相互作用モダリティに強く左右される。 - **Obs #3**: 監視は実時間のリソース/状態情報を要する。IaC の state-centric 設計はインフラ構成は捉えるが runtime telemetry を取り出せず、監視で最も苦戦する。 - **Obs #4**: エラー処理能力はモダリティで差。プログラム可能(SDK/CLI/IaC)は精密なフィードバック(return code・error log)を返すが、Web は解釈が難しい UI レベルのエラーを返す。task-specific ヒント + modality-specific 指示を含む丁寧なプロンプトがタスク完了を助ける。 ### 失敗分析 - コーディング系(SDK/CLI/IaC): 誤ったリソース属性や不正なコマンド列が主因。再試行でエラーログを取得して自己修正できることもある。 - no-code/low-code(ClickOps): 誤クリックと正しいクリック列を見つけられないことが進捗を阻む。早期の誤った step で詰まり、繰り返し失敗のループに陥る。一方 GUI ベース自動化は監視には有効(クリック列が単純でポータルが監視・可視化に最適化)。 **Table 1: 評価結果** ![[_attachments/2026_Unknown_Cloud_Infrastructure_Management_Age_AI/table1-results.png]] (Table 1. 評価結果を示す。) ## 考察 - モダリティ間に明確なトレードオフがある: CLI=効率、IaC=大規模/再作成更新、Web=監視・可視化、SDK=汎用的なバランス。単一モダリティに賭けるのでなく、タスク段階に応じて選択・組み合わせる agent-cloud interface が要る。 - IaC の弱点(monitoring・コンテキスト制約)は本質的に state-centric 設計に由来し、より長い文脈や runtime telemetry の取り込みで緩和しうる。 - 安全クリティカルゆえ、autonomy を上げる前提として guardrail(formal spec によるポリシー検査・access control・audit trail)と fault tolerance(rollback・self-healing)と human-in-the-loop fallback が必須。これは neural(LLM)+ symbolic(検証)の組み合わせという設計思想に通じる。 ## 強み / 弱点・課題 - **強み**: 4 モダリティを同一タスクで横並び比較し、段階×モダリティの向き不向きを実証的に提示した最初期の体系化。IaC × LLM エージェント研究([[Zodiac]]/[[NSync]]/[[Lilac]])を「クラウド管理の 4 モダリティ」という広い地図に位置づけ、agentic SRE/AIOps とも橋渡しする見取り図を与える。 - **弱点・課題(論文が認める / 読み取れる)**: - 予備実験は **Azure・VM・少数タスク(各 3〜5)・8 試行**に限定。SR/step は小標本で、統計的有意性や他クラウド/他資源への一般化は未検証。 - 用いたモデルが [[Azure Copilot]](GPT-4 ベース)と GPT-4o に固定で、モデル世代差・他モデルの影響は不明。 - 解決スケッチ(cloud gym・metaprogram・unified cloud state・complexity measure)は提案にとどまり実装・評価はない。 - 図表番号の不整合: 本文はモダリティ図を "Figure 2(a)–(d)" と参照するが、図のキャプションは "Figure 1"(レーダーチャートが Figure 2、アーキテクチャが Figure 3)。本ノートはキャプション番号に従う。 ## 関連 - 同一研究室の IaC 3 方向(本論文がビジョンとして束ねる): [[@2024__SOSP__Unearthing Semantic Checks for Cloud Infrastructure-as-Code Programs]]([[Zodiac]]・デプロイ前検証) / [[@2025__AIOps__Automated Lifting for Cloud Infrastructure-as-Code Programs]]([[Lilac]]・逆生成) / [[@2025__arXiv__Automated Cloud Infrastructure-as-Code Reconciliation with AI Agents]]([[NSync]]・drift 修復) - agentic SRE / AIOps クラスタ: [[@2025__MLSys2025__AIOpsLab - A Holistic Framework to Evaluate AI Agents for Enabling Autonomous Clouds]](ref [14]、自律クラウド評価) - 概念: [[クラウド管理モダリティ]] / [[Infrastructure as Code]] / [[agentic SRE]] / [[SRE AI Autonomy Levels]] / [[AIOps]] - エンティティ: [[Ang Chen]] / [[Zhenning Yang]] / [[Yiming Qiu]] / [[Martin Casado]] / [[University of Michigan]] / [[Terraform]] / [[Microsoft Azure]] / [[Azure Copilot]] / [[WorkArena]] - 関連 MOC: [[Software Engineering - MOC]] / [[SRE - MOC]] / [[LLM4SRE - MOC]] / [[Network - MOC]]