## Memo - [A Holistic View of AI-driven Network Incident Management - Microsoft Research](https://www.microsoft.com/en-us/research/publication/a-holistic-view-of-ai-driven-network-incident-management/) - 先行研究:[[2023__ICSE__Recommending Root-Cause and Mitigation Steps for Cloud Incidents using Large Language Models|Ahmed+, ICSE2023]], [[2024__EuroSys__Automatic Root Cause Analysis via Large Language Models for Cloud Incidents|RCACopilot]] この論文では、インシデント管理におけるLLMの活用に関する先行研究の主な限界点として、以下の3点を指摘しています。 - 一回の予測で対応しようとする制約 先行研究では、インシデントの情報を入力として一回の予測で原因や対策を出力しようとしていた。しかし、実際のインシデントは複雑な原因の連鎖があり、一回の予測では不十分であることが多い。インシデント対応では、仮説を立て、検証し、再評価するような反復的なプロセスが必要である。 - 安全性と信頼性の欠如 先行研究では、LLMヘルパーの出力による潜在的なリスクやダメージを十分に考慮していなかった。ネットワークインシデント対応では、ミスが更なるインシデントを引き起こす可能性があるため、安全性と出力の信頼性が非常に重要である。 - 環境の変化への対応の欠如 ネットワーク環境は常に進化しており、新しいコンポーネントやプロトコルが導入される。先行研究のアプローチでは、このような変化に対応することが難しい。インシデント対応のヘルパーは、環境の変化に適応できる必要がある。 本論文では、具体的なデータセットを用いた実験などは行われていません。しかし、以下のようなデータソースから知見を得ていると述べられています。 1. インシデント管理の経験が5年以上あるオンコールエンジニア(OCE)へのインタビュー 著者らは、大規模パブリッククラウドプロバイダーのOCEにインタビューを行い、インシデント管理の実態や自動化についての試みなどの経験から知見を得ている。 2. 過去のインシデントレポート 本論文では、GoogleクラウドやAWSのインシデントレポートから具体的な事例を引用し、議論を行っている。例えばCasc-1インシデント(GoogleクラウドのWAN障害)やAWS Direct Connect Tokyoの障害事例が挙げられている。 3. OCEのトレーニング資料 OCEがインシデント管理のトレーニングで使用する文書、スライド、動画などのリソースから、ネットワーク関連の知識を得ていると述べられている。 つまり、本論文ではデータセットを用いた定量的な実験は行われておらず、むしろ実務家への直接的なインタビューと、過去のインシデントレポート、トレーニング資料などの定性的なデータソースから知見を得て、提案を行っていることがわかります。 この論文は、ネットワークインシデント管理におけるLLMの活用可能性について、以下のようなネットワーク特有の観点から議論しています。 ネットワークインシデントの複雑さ: 複雑なネットワークインシデントでは、初期情報だけでは根本原因や適切な対処方法を特定するのが難しい場合がある。運用者は、障害の可能性があるリンクの過負荷、監視システムの不具合、設定の不整合など、複数の仮説を立てて検証する必要がある。 ネットワークの進化への適応: ネットワークコンポーネントのソフトウェアとハードウェアは急速に進化しており、それに伴って新しいタイプのインシデントが発生する。過去のインシデント事例だけでは対処できない新しい問題に適応することが求められる。 ネットワーク運用の知識: LLMがネットワークインシデントの管理を効果的に支援するためには、ルーティング、有線・無線メディア、輻輳、RDMA、VM、WAN、Closトポロジ、SDN、NICなどのネットワークの主要コンセプトを理解し、これらのコンポーネント間の相互作用を推論できる必要がある。 ネットワーク運用ツールとの統合: 提案されたフレームワークでは、LLMベースのモジュールが、監視ツールやパケットトレース解析ツールなどの既存のネットワーク運用ツールと連携して仮説の検証を行う。これにより、ネットワークの状態を的確に把握し、適切な対処方法を導き出すことが可能になる。 ネットワークインシデント管理の組織的側面: 100以上の独立したネットワークチームがインシデント管理に携わっており、各チームがそれぞれ固有のインシデントカテゴリ、ツール、ドキュメントを持っている。こうした組織的な多様性を考慮し、各チームが独自にLLMベースのヘルパーをカスタマイズできるような柔軟な設計が求められる。 以上のように、この論文ではネットワークの技術的・組織的な特性を踏まえてLLMの活用方法を議論しており、ネットワークインシデント管理に特化した知見が提示されています。 ## Abstract 我々は、大規模言語モデル([[LLM]])がインシデント管理に提供できる潜在的な改善策と、それが今日のオペレータのインシデント管理方法をどのように見直すことができるかについて議論する。我々は、インシデント管理のためのAIヘルパーを構築するための全体的なフレームワークを提案し、それを達成するために必要な今後の研究のいくつかの道筋について議論する。 そのようなヘルパーを設計する際にコミュニティが考慮すべき基本的な要件を徹底的に分析する。我々の研究は、大規模なパブリッククラウドプロバイダーのオペレーターとの議論と、彼らのインシデント管理における経験と、様々な自動化によってインシデント管理の経験を改善する試みの両方に基づいている。