XPUTimer - yuuk1's Digital Garden

# XPUTimer 数千台規模の GPU クラスタ上で動く分散 LLM 訓練の異常を実行時に診断するフレームワーク。[[Shanghai Jiao Tong University]]・[[National University of Singapore]]・[[Ant Group]] による研究。(Source: [[@2025__arXiv__XPUTimer - Anomaly Diagnostics for Divergent LLM Training in GPU Clusters of Thousand-Plus Scale]]) > [!note] 改名 > arXiv v1(2025-02)は **XPUTimer**、v2(2026-02)で **Flare** に改名された。検索性のため aliases に両名を残す。 - **非侵入のプラグアンドプレイ計装**: CPython の `PyEval_SetProfile`(Python 側)と C++ の `LD_PRELOAD`(cuBLAS・FlashAttention・[[NCCL]] 等)で、並列バックエンド([[Megatron-LM]]/FSDP/[[DeepSpeed]]/TorchRec)のコードに侵入せず全スタックをトレースする。 - **O(1) 通信ハング箇所特定**: CUDA-GDB で稼働中の ring-allreduce カーネルのレジスタを読む intra-kernel inspecting により、NCCL test の全数探索(thousand-GPU で 30 分超)を回避し、最大 309.2 秒で故障 GPU を特定する。 - **性能回帰の自動診断**: issue latency distribution と void percentage という新規マイクロメトリクスで、巨視メトリクスに表れない微小回帰(2.66%)まで捉える。先行研究がほぼ未踏だった性能回帰に注力する点が最大の独自性。 - [[Ant Group]] の 6,000 GPU 超クラスタで 8 ヶ月以上連続稼働。OSS は自動分散 DL システム [[DLRover]] の中核コンポーネントとして含まれる。 ## 関連 - ソース: [[@2025__arXiv__XPUTimer - Anomaly Diagnostics for Divergent LLM Training in GPU Clusters of Thousand-Plus Scale]] - 開発機関: [[Ant Group]] / [[Shanghai Jiao Tong University]] / [[National University of Singapore]] - 関連プロダクト: [[DLRover]] - 関連技術: [[Megatron-LM]] / [[NCCL]] / [[DeepSpeed]] - 概念: [[LLM学習モニタリング]] / [[ストラグラー]] / [[集合通信]]