# BSODiag **BSODiag**(Batch Servers Outage Diagnosis)は、[[Xi'an Jiaotong University]] MOE KLINNS Lab([[Tao Duan]]・[[Pinghui Wang]]・[[Junzhou Zhao]])と [[Alibaba Cloud]] が共同開発した、大規模クラウドインフラシステムにおけるバッチサーバー障害診断フレームワーク(arXiv 2025)。 ## 概要 マルチソース監視データ(アラート・インシデント・変更)を統合し、歴史的障害知識と現在のデバイス依存性を組み合わせた時空間障害相関モデリングで根本原因を特定する。単一ケースを 24.5 秒で診断し、Alibaba Cloud 実データで PR@3 87.5%・PCR 46.3% を達成した(競合手法 COT 比 +10.2%・+3.7%)。 ## 3 コアモジュール 1. **MFD(Multi-source Failure Detection)**: Alert2TS + SPOT アルゴリズムによるアラート時系列外れ値検知、Change Filter、Event Merge 2. **FCM(Failure Correlation Mining)**: Apriori + 障害ルールツリーによる障害知識グラフ構築 3. **ORCA(Outage Root Cause Analysis)**: イベント原因グラフ + MAPR ランダムウォーク + PPI 伝播パス推論 ## 本番展開 Alibaba Cloud インフラシステムに 2 年間以上展開。初期はデータ不足で精度が限定的だが、障害知識グラフが成熟するにつれ性能が安定する「知識積み上げ型」の成長特性を示した。 ## 関連 - 論文: [[@2025__arXiv__BSODiag - A Global Diagnosis Framework for Batch Servers Outage in Large-scale Cloud Infrastructure Systems]] - 概念: [[クラウドインフラ障害診断]] / [[グラフベースRCA]]