L4 - yuuk1's Digital Garden

# L4 [[The Chinese University of Hong Kong]]・[[Sun Yat-sen University]]・[[Huawei Cloud]] が FSE 2025 で提案した、大規模 LLM 訓練の膨大な訓練ログから障害指示情報を自動抽出する診断フレームワーク(Log-based Large-scale LLM training failure diagnosis)。(Source: [[@2025__ESEC-FSE__L4 - Diagnosing Large-scale LLM Training Failures via Automated Log Analysis]]) - 抽出対象は障害を示すログイベント・故障ノード・障害が起きた訓練ステージ・問題のイテレーションの 4 種。 - 従来のログ異常検知が依拠するログレベル・イベント頻度・エラー意味の 3 指標が LLM 訓練ログには通用しないことを実データで示し、LLM 訓練ログ固有の **cross-job・spatial・temporal** の 3 パターンに対応づけた 4 段構成を採る。cross-job フィルタリング(成功ジョブとの差分)、空間パターン比較(Isolation Forest でノード間の逸脱検出)、時間パターン比較(DTW + three-sigma でイテレーション間の逸脱検出)、障害パターン確認(fault library への蓄積)。 - 障害指示ログ特定で F1 **0.873**(適合率 0.786・再現率 0.982)、故障ノード特定で top-5 精度 80.5%・top-8 精度 91.2% を達成し、全ベースラインを上回る。 - 2024 年 6 月から [[Platform-X]] の障害管理システムに実展開済み。 ## 関連 - ソース: [[@2025__ESEC-FSE__L4 - Diagnosing Large-scale LLM Training Failures via Automated Log Analysis]] - 開発機関: [[The Chinese University of Hong Kong]] / [[Sun Yat-sen University]] / [[Huawei Cloud]] - 所属研究者: [[Zhihan Jiang]] / [[Guangba Yu]] / [[Michael R. Lyu]] - デプロイ先: [[Platform-X]] - 概念: [[ログ解析]] / [[LLM学習モニタリング]] / [[Fault Localization]] / [[根本原因分析]]