## Memo
## Memo with LLM
### 論文情報
- **論文タイトル**: Towards LLM-Based Failure Localization in Production-Scale Networks
- **著者と所属**:
- Chenxu Wang (Nanjing University, Alibaba Cloud)
- Xumiao Zhang, Runwei Lu, Xianshang Lin, Xuan Zeng, Xinlei Zhang, Zhe An, Gongwei Wu, Jiaqi Gao, Yuhong Liao, Tao Lin, Dennis Cai, Ennan Zhai (Alibaba Cloud)
- Runwei Lu (New York University Shanghai)
- Chen Tian, Guihai Chen (Nanjing University)
- Guyue Liu (Peking University)
- **カンファレンス**: ACM SIGCOMM 2025
- **発表年**: 2025年9月(ポルトガル・コインブラで開催)
### 論文概要
大規模プロダクションネットワークにおける障害原因特定と故障箇所特定の課題に対し、大規模言語モデル(LLM)を活用した実用的なシステム「BiAn」を提案している。BiAnは、Alibaba Cloudのネットワークインフラに10ヶ月間デプロイされ、オペレータの故障特定作業を効率化し、根本原因特定時間を20.5%短縮(高リスクインシデントでは55.2%短縮)することに成功した。
### 詳細解説
#### 問題設定
- **入力**: ネットワーク監視システムが生成する大量のアラートデータ(平均26.4MB、最大1GB、8,000件のログエントリ)
- **出力**: 故障デバイスのランキングと詳細な説明
- **必要データ**: 11種類の監視ツールからのアラート、ネットワークトポロジ情報、イベントタイムライン
- **課題**: 従来、オペレータは大量の監視データを手動で分析し、根本原因を特定する必要があり、平均10分以上、複雑なケースでは30分以上を要していた
#### 提案手法
BiAnは階層的推論と3つのパイプライン統合を特徴とするLLMベースのフレームワークである。
**階層的推理プロセス**:
1. **監視アラート要約**: 11種類の監視ツールからのアラートをLLMエージェントが要約
2. **単一デバイス異常分析**: 7種類の異常シナリオ(デバイス停止、輻輳、トラフィック低下、フラッピング、ネットワーク変更、Syslogサージ、アラーム数)に基づく分析
3. **統合スコアリング**: 全てのデバイスの異常分析結果を統合し、故障確率スコアを算出
**3つのパイプライン統合**:
- **Pipeline 1**: 標準運用手順(SOP)ベースの分析
- **Pipeline 2**: ネットワークトポロジ情報の活用
- **Pipeline 3**: イベントタイムライン情報の組み込み
**2段階推論フレームワーク**:
- Stage 1: Pipeline 1のみで初期スコア計算
- Stage 2: Top-pフィルタリング後、3つのパイプライン全てを統合した詳細分析
**Rank of Ranks手法**: LLMの出力のランダム性を軽減するため、複数回(N=3)実行し、平均ランクで最終判定
#### 新規性
- **実用性重視**: 学術的な手法ではなく、実際のプロダクション環境で10ヶ月間運用された実証済みシステム
- **階層的アプローチ**: 従来のLLMベースネットワーク運用研究が粗粒度分析に留まっていたのに対し、具体的な故障デバイス特定まで実現
- **継続的学習機能**: プロンプト更新メカニズムにより、過去のインシデントから知識を抽出してシステムを改善
- **最適化手法**: ファインチューニング、早期停止、並列実行など、実用的な最適化技術を組み合わせ
#### 実験設定
- **データセット**: 17ヶ月間の実際のインシデント357件(重要でないケースを除外)
- **評価指標**:
- Top-1/Top-2/Top-3精度(実際の故障デバイスが上位1/2/3位に含まれる割合)
- Time-to-Root-Causing (TTR): 調査開始から根本原因特定までの時間
- **ベースライン**: Hot Device手法(最も多くのアラートを持つデバイスを故障デバイスとする)
- **比較対象**: [[2024__EuroSys__Automatic Root Cause Analysis via Large Language Models for Cloud Incidents|RCACopilot]]など既存のLLMベース根本原因分析ツール
- **使用モデル**: Qwen2.5(ファインチューニング用に7B、複雑タスク用に72B)
#### 実験結果
- **精度**: Top-1精度95.5%(ベースライン86.3%)、Top-2精度98.6%、Top-3精度99.3%
- **時間短縮**: 平均TTR20.5%短縮、高リスクインシデントで55.2%短縮
- **レスポンス時間**: エンドツーエンドで30秒以内
- **コスト効率**: インシデント当たり平均$0.18の推論コスト
- **運用評価**: オペレータによる説明の有用性評価で平均1.5/2.0のスコア
- **汎用性**: Qwen以外のLLM(GPT-4、Claude、Gemini等)でも同等の性能を確認
実験では、インシデントの難易度別(リスクレベル、解決時間、故障タイプ)での性能分析も実施し、特に簡単なケース(≤1分)で95.7%、中程度のケース(1-5分)で92.9%の精度を達成している。
## Abstract
ルート原因分析と故障局所化は、クラウドネットワーク運用における信頼性維持に不可欠である。インシデントが報告された際、ネットワークオペレータは大量の監視データを確認し、できるだけ迅速にルート原因(すなわち、エラーデバイス)を特定する必要があり、経験豊富なオペレータにとっても極めて困難な作業となっている。大規模言語モデル(LLM)は、テキスト理解と推論において大きな可能性を示している。本論文では、オペレータの効率的なインシデント調査を支援するために設計されたLLMベースのフレームワークであるBiAnを紹介する。BiAnは監視データを処理し、詳細な説明と共にエラーデバイスのランキングを生成する。現在まで、BiAnは我々のネットワークインフラに10ヶ月間デプロイされており、オペレータがエラーデバイスをより迅速に特定することに成功し、ルート原因特定時間を20.5%(高リスクインシデントでは55.2%)短縮している。17ヶ月間の実際のケースに基づく包括的な性能評価により、BiAnが正確で高速な故障局所化を実現することがさらに実証されている。ベースライン手法と比較して精度を9.2%向上させている。