NetOps - yuuk1's Digital Garden

# NetOps ## 定義 NetOps(Network Operations、ネットワーク運用)は、通信ネットワークに固有の運用ワークフロー——intent(意図)の捕捉・構成合成・トラブルシューティング・トラフィックエンジニアリング・安全なロールアウト——を指す([[@2026__arXiv__Large Language Models for Agentic NetOps and AIOps - Architectures, Evaluation, and Safety]] §I-B)。本サーベイは NetOps のライフサイクルを 5 段——intent の捕捉・デバイス/コントローラ変更の統合・不変条件と運用ポリシーに対する検証・段階的デプロイの実行・必要に応じたロールバックを伴う変更後監視——に整理する(§II-B)。運用上の真実(operational truth)が層になっている点が特徴で、上位の desired states(ポリシー・intent・テンプレート・変更要求)、中位の rendered states(デバイス構成・コントローラ規則・ACL・ルーティングポリシー)、下位の realized states(転送表・ルーティング隣接・カウンタ・アラーム)が一致しないときに運用問題が生じる。 NetOps が AIOps と異なる本質は安全性の閾値の高さにある。単一の誤った構成変更が急速に伝播し、大きな blast radius の障害や収束中の追いにくい過渡的挙動を生みうるため、変更は受理前に検証されるのが通常で(Batfish の deploy 前 what-if 分析、VeriFlow のコントローラとデバイス間の実行時検証など)、「最終状態の正しさ」と「ロールアウト中の正しさ(過渡安全性 `∀t∈[0,T]: I(xt)=1`)」を分けて考える(§V-C)。 ## 横断的知見 - **agentic 運用の「最も鋭いテストベッド」として AIOps と対をなす**: 本 wiki の運用クラスタはこれまで [[AIOps]](クラウド/マイクロサービスの障害対応)に偏ってきたが、本サーベイは NetOps を agentic 安全性主張の最も鋭い試験場と位置づける——(i) チェック可能な不変条件(到達可能性・隔離・waypoint・ループ自由)、(ii) ロールアウト中の過渡的非安全という既知の失敗モード、(iii) テストカバレッジと自律度を結ぶ原理的なリンク、が揃うため(§V-H)。AIOps が「豊富な観測データと曖昧な症状」を扱うのに対し、NetOps は「正しさの伝統(correctness tradition)」を既に持つ点で、両者は同じ evidence-to-action 制御ループ(§II-A、式(4))を共有しつつ補完しあう。これは [[AIOps]] の議論が前提する「症状と根本原因の多対多・観測の不完全性」と対照的に、NetOps では正しさが形式的に検証可能という非対称を示す。(Source: [[@2026__arXiv__Large Language Models for Agentic NetOps and AIOps - Architectures, Evaluation, and Safety]], [[@2025__MLSys2025__AIOpsLab - A Holistic Framework to Evaluate AI Agents for Enabling Autonomous Clouds]]) - **「LLM は真実を決める場所でなくワークフローの制御役」という NetOps 固有の分業が、AIOps の hypothesis-driven 設計と同型**: 本サーベイは NetOps において LLM がネットワーク状態の「真実を決める」のは稀に正しく、intent をクエリへ翻訳し・証拠を verifier へ通し・最小侵襲な diff を提案し・前提条件とロールバックを文書化する「ワークフローの制御役」として最も価値がある、とする(§V)。これは本 wiki の [[根本原因分析]] が AIOps 側で観測した「LLM は単独 reasoner でなく証拠を構造化仮説へ統合するコンポーネント」(LLM4Log サーベイ)、[[Bits AI SRE]] の hypothesis-driven 設計と同型の結論で、ドメイン(ネットワーク対サービス)を超えて「LLM を推論中核でなく証拠仲介・提案生成に限る」設計原理が共有されることを示す。(Source: [[@2026__arXiv__Large Language Models for Agentic NetOps and AIOps - Architectures, Evaluation, and Safety]], [[@2026__Datadog__Building Bits AI SRE - Autonomous Incident Investigation Agent]]) - **因果推論を `T^read` の第一級ツールに据える設計が、本 wiki の統計前処理ハイブリッド論と接続する**: 本サーベイは NetOps の障害が既知の関係(トポロジ・プロトコル依存・コントロールプレーン相互作用・サービス依存・時間順イベント)に沿って伝播するため、因果グラフが仮説空間を絞ってから LLM が要約・比較・提案する分業を推奨し、因果推論を読み取りツール `T^read` の主要な道具とする(§II-B-b、§V-F)。これは本 wiki が [[根本原因分析]]・[[Fault Localization]] で独立に積み上げた「統計前処理([[MetricSifter]] の変化点検知 + 因果探索)→ LLM エージェント」のハイブリッド論、および [[AIOps]] CSUR サーベイが提案した「小規模モデル/ルール + LLM + operator」の分業と同方向。NetOps では因果構造が AIOps より明示的(トポロジ・プロトコルが既知)なため、この分業がより自然に成立する。(Source: [[@2026__arXiv__Large Language Models for Agentic NetOps and AIOps - Architectures, Evaluation, and Safety]], [[@2024__IEEE Access__MetricSifter - Feature Reduction of Multivariate Time Series Data for Efficient Fault Localization in Cloud Applications]]) ## 未解決の問い - NetOps の形式的不変条件(到達可能性・隔離・waypoint・ループ自由)は verification wall の検証対象として明確だが、AIOps 側の安全条件(SLO・error budget・blast radius・依存健全性、式(27)-(30))は同程度に検証可能か。サービス層の不変条件をネットワーク層と同じく機械的にチェックできる粒度で定義できるか。([[@2026__arXiv__Large Language Models for Agentic NetOps and AIOps - Architectures, Evaluation, and Safety]]) - intent の曖昧性(式(23)の ambiguity witness)を満たすとき型付きの明確化質問をすべき、という設計は、本 wiki の [[Infrastructure as Code]] が扱う「設定の semantic gap」とどう関係するか。NetOps の intent-to-config 合成と IaC の宣言的記述は同じ曖昧性問題を別の語彙で扱っているのではないか。 - 本ページの一次ソースは本サーベイ 1 本のみで、横断的知見は本 wiki の AIOps/RCA 系一次ソースとの突き合わせに依存する。NetOps 側の一次ソース(構成検証・SDN・intent-based networking の個別研究)を ingest して、サーベイの一般化を一次資料に遡及できるようにすべき。 ## 関連 - ソース: [[@2026__arXiv__Large Language Models for Agentic NetOps and AIOps - Architectures, Evaluation, and Safety]] - 概念: [[AIOps]] / [[エージェント運用安全性]] / [[根本原因分析]] / [[Fault Localization]] / [[Infrastructure as Code]] / [[SRE AI Autonomy Levels]] - 関連 MOC: [[Network - MOC]] / [[SRE - MOC]] / [[LLM4SRE - MOC]] ## 出典 - [[@2026__arXiv__Large Language Models for Agentic NetOps and AIOps - Architectures, Evaluation, and Safety]](§I-B Scope and definitions, §II-B NetOps workflows and artefacts, §V Agentic NetOps, §V-A/B/C NetOps property definitions/intent/update safety, §V-F causal inference, §V-H why NetOps is the sharpest testbed)