# DLRover [[Ant Group]] が開発する OSS の自動分散 DL システム(LF AI & Data Foundation 傘下)。(Source: [[@2025__arXiv__XPUTimer - Anomaly Diagnostics for Divergent LLM Training in GPU Clusters of Thousand-Plus Scale]]) - 異常診断フレームワーク [[XPUTimer]](v2 で Flare に改名)をコア部品として含む。Flare はこの DLRover を通じて OSS 化されている。 - [[Ant Group]] の 6,000 GPU 超クラスタでの本番運用(8 ヶ月以上)に裏打ちされた自動分散学習基盤。 ## 関連 - ソース: [[@2025__arXiv__XPUTimer - Anomaly Diagnostics for Divergent LLM Training in GPU Clusters of Thousand-Plus Scale]] - 開発機関: [[Ant Group]] - 中核部品: [[XPUTimer]] - 概念: [[LLM分散学習]] / [[耐障害LLM訓練]] / [[LLM学習モニタリング]]