2025__ESEC-FSE__L4 - Diagnosing Large-scale LLM Training Failures via Automated Log Analysis

## Memo - ![[Pasted image 20250415212629.png|500]] - ![[Pasted image 20250609154638.png]] - ![[Pasted image 20250609154840.png]] ## Memo with LLM https://claude.ai/chat/fb7f04f8-813c-46bb-b670-6f9eb7e7eb06 ## 論文情報 - **タイトル**: L4: Diagnosing Large-scale LLM Training Failures via Automated Log Analysis - **著者と所属**: - Zhihan Jiang (香港中文大学) - Junjie Huang, Guangba Yu (香港中文大学) - Zhuangbin Chen (中山大学) - Yichen Li, Renyi Zhong (香港中文大学) - Cong Feng, Yongqiang Yang, Zengyin Yang (Huawei Cloud) - Michael R. Lyu (香港中文大学) - **カンファレンス名**: FSE Companion '24 (ACM SIGSOFT International Symposium on the Foundations of Software Engineering Companion) - **発表年**: 2025年（カンファレンス開催予定日：2025年6月23-27日） ## 論文概要本論文は、大規模言語モデル（LLM）トレーニング中の失敗を診断するための自動ログ分析フレームワーク「L4」を提案している。著者らは実際の本番環境（Platform-X）から収集した428件のLLMトレーニング失敗レポートの詳細な実証研究を行い、その結果に基づいて、クロスジョブ・空間的・時間的パターンを活用して大量のトレーニングログから障害を示す情報を自動的に抽出する手法を開発した。 ## 詳細解説 ### 問題設定 - **入力**: 大規模LLMトレーニングジョブから生成された膨大なログデータ（平均して1つの失敗ジョブあたり16.92GB） - **出力**: 1. 失敗を示すログイベント 2. 故障したノード 3. 問題が発生したトレーニングステージ 4. 問題が発生したイテレーション - **データ**: 2023年5月から2024年4月までにPlatform-X（大手クラウドベンダーCompany-Xが運営する大規模AI開発プラットフォーム）で発生した428件のLLMトレーニング失敗レポート - 平均モデルサイズ：72.8Bパラメータ - 平均使用アクセラレータ数：941個/ジョブ ### 提案手法 L4（Log-based Large-scale LLM training failure diagnosis framework）と呼ばれる診断フレームワークは、以下の4つの段階から構成されている： 1. **ログ前処理**: - 非構造化の生ログデータを解析し、構造化されたログイベントに変換 - 広く使用されているDrainパーサーを採用してログテンプレートとパラメータを抽出 2. **クロスジョブフィルタリング**: - 同じ設定の成功したジョブと失敗したジョブの両方に存在するログイベントを除外 - 失敗に関係のないノイズを減らし、分析の効率性を向上 3. **空間的・時間的パターン比較**: - **空間的パターン**: LLMトレーニングにおける各ノードの処理は同期的かつほぼ同一であるため、ノード間のログパターンの違いを分析 - 各ノードのログをベクトル化し、Isolation Forest（[[Isolation Forest|iForest]]）アルゴリズムを使用して異常なベクトルを検出 - 故障の可能性があるノードと関連ログイベントを特定 - **時間的パターン**: トレーニングの各ステージと各イテレーションのログシーケンスを分析 - ログを異なるトレーニングステージ（データロード、モデル初期化、反復トレーニングなど）に分類 - Dynamic Time Warping（[[DTW]]）を使用して各イテレーションのログシーケンス間の類似性を評価 - 前のイテレーションと異なるパターンを示すイテレーション（異常）を検出 4. **障害パターン確認**: - 特定された障害指標情報を使用して、SRE（サイト信頼性エンジニア）が障害の根本原因を診断 - 確認された障害パターンを障害ライブラリにアーカイブし、将来の類似障害の診断に活用 ### 新規性 1. **LLMトレーニング失敗の初の実証研究**: - 実際の大規模LLMトレーニング環境における428件の失敗事例を分析 - LLMトレーニング失敗の症状、根本原因、診断方法の包括的な理解を提供 2. **LLMトレーニングログの特有パターンの発見**: - 従来のログ異常検出手法（ログレベル、イベント頻度、エラーセマンティクスに基づく）がLLMトレーニングログに適用できない理由を実証 - LLMトレーニングログ特有の3つのパターン（クロスジョブ、空間的、時間的）を特定 3. **自動化された障害指標抽出手法**: - 大量のログデータから障害を示す情報を自動的に抽出するフレームワークを開発 - 既存の手法と比較して、高い精度で障害指標ログと故障ノードを特定 ### 実験設定 - **データセット**: 実験用に100件のLLMトレーニング失敗ジョブをランダムにサンプリング - 各ジョブは平均632アクセラレータを使用 - 各ジョブの平均ログサイズは12.3GB - 障害指標ログと故障ノードは、失敗レポートに記録された診断手順に基づいて手動でラベル付け - **評価指標**: 1. **障害指標ログの特定**: - Precision（適合率）: 検出された異常ログのうち実際に障害指標であるログの割合 - Recall（再現率）: 実際の障害指標ログのうち検出できた割合 - F1-score: PrecisionとRecallの調和平均 2. **故障ノードの特定**: - Top-k accuracy: 検出された上位k個の疑わしいノードに実際の故障ノードが含まれる割合 - **ベースライン**: 1. 障害指標ログの特定: LogAnomaly、LogRobust、NeuralLog（最先端のログ異常検出手法） 2. 故障ノードの特定: Error_time（最初のエラーログの時間でノードをランク付け）、Error_count（エラーログの数でノードをランク付け） ### 実験結果 1. **障害指標ログの特定**: - L4のF1-score: 0.873（Precision: 0.786、Recall: 0.982） - ベースラインのF1-score: 0.207〜0.366 - L4は既存手法と比較して、最低でも0.507（50.7%）高いF1-scoreを達成 2. **故障ノードの特定**: - L4のTop-5 accuracy: 80.5% - ベースラインのTop-5 accuracy: Error_time（52.1%）、Error_count（43.9%） - L4は既存手法と比較して、最低でも18.5%高い精度を達成 - Top-8では91.2%の精度を達成 3. **実環境での展開**: - 2024年6月からPlatform-Xの失敗管理システムに正式に導入 - ケーススタディによる有効性の実証: - ケース1: 1024ノード・4096アクセラレータを使用する大規模トレーニングジョブにおいて、71GBのログから故障したハードウェアを特定 - ケース2: 反復トレーニング中の異常な繰り返しを検出し、間欠的なネットワーク障害を特定本研究は、大規模LLMトレーニングの信頼性向上に向けた重要な一歩であり、実用的な障害診断ツールを提供することで、LLMトレーニングのコストと時間の削減に貢献している。 ## Abstract 大規模言語モデル（[[LLM]]）が様々なアプリケーションでその能力を発揮するにつれ、カスタマイズされたLLMのトレーニングは現代の企業にとって必要不可欠なものとなっている。しかし、LLMのトレーニングは複雑であり、膨大な計算リソースと膨大なトレーニング時間を必要とするため、トレーニングプロセス中の失敗は避けられません。このような失敗は、リソースと時間の浪費につながるため、LLMトレーニングのコストを削減するためには、効果的かつ効率的な失敗診断が不可欠である。本論文では、2023年5月から2024年4月までの間に、我々のプロダクションPlatform-Xで発生した428件のLLMトレーニングの故障報告に関する最初の実証研究を紹介する。我々の研究により、ハードウェアとユーザーの障害が主な根本原因であり、現在の診断プロセスはトレーニングログに大きく依存していることが明らかになりました。残念ながら、既存のログベースの診断方法は、LLMトレーニングログを扱うには不十分です。LLMトレーニングのユニークな特徴を考慮し、LLMトレーニングログの3つの異なるパターンを特定する。このフレームワークは、膨大な訓練ログから障害を示唆する情報（すなわち、ログイベント、ノード、ステージ、反復）を自動的に抽出することができ、それによって手作業を減らし、障害回復を容易にする。実世界のデータセットを用いた実験の結果、L4は、障害を示唆するログを特定し、その位置を特定することにおいて、既存のアプローチを凌駕することが示された。