# OptProphet
[[Nankai University]] の AIOps グループが提案した、大規模 LLM 訓練クラスタの**光トランシーバー故障の予測と分類を統合**したフレームワーク(APNet 2025、[[@2025__APNET__Forewarned is Forearmed - Joint Prediction and Classification of Optical Transceiver Failures in Large-Scale LLM Training Clusters]])。特徴量集約(feature aggregation)で時間的依存関係と物理的結合をモデル化し、不均衡なデータ分布を自動的に処理することで、予測の感度と分類の特異度を高める。(Source: [[@2025__APNET__Forewarned is Forearmed - Joint Prediction and Classification of Optical Transceiver Failures in Large-Scale LLM Training Clusters]])
- 故障予測で平均 F1 スコア 0.884、平均 1.11 日前にアラームをトリガー。
- 故障分類で平均 F1 スコア 0.855。
- 2 つの実世界データセットで SOTA ベースラインを凌駕。
> [!note] 一次ノートが Abstract のみで薄く、PDF 未取得のため、内部アーキテクチャの詳細は出典で確認できない。
## 関連
- ソース: [[@2025__APNET__Forewarned is Forearmed - Joint Prediction and Classification of Optical Transceiver Failures in Large-Scale LLM Training Clusters]]
- 所属: [[Nankai University]]
- 著者: [[Sibo Xia]] / [[Shenglin Zhang]] / [[Yongqian Sun]]
- 概念: [[障害予測]] / [[RDMAネットワーク監視]] / [[GPUクラスタ運用]] / [[耐障害LLM訓練]]