# Ant Group 中国の金融テック企業(蚂蚁集团)。大規模な共有 GPU 訓練クラスタを運用し、分散 LLM 訓練の信頼性インフラを研究・運用する。(Source: [[@2025__arXiv__XPUTimer - Anomaly Diagnostics for Divergent LLM Training in GPU Clusters of Thousand-Plus Scale]]) - 異常診断フレームワーク [[XPUTimer]](v2 で Flare に改名)を 6,000 GPU 超の本番訓練クラスタで 8 ヶ月以上連続稼働させた。XPUTimer 論文では Jian Sha が Ant Group 所属として著者に連なる(主たる研究機関は [[Shanghai Jiao Tong University]] と [[National University of Singapore]])。 - OSS の自動分散 DL システム [[DLRover]](LF AI & Data Foundation 傘下)の母体で、Flare をその中核コンポーネントとして含める。 - 海外部門の [[Ant International]](時系列基盤モデル Falcon-X を開発)とは関連する組織体だが、本 wiki では両者を別エンティティとして扱う(Ant International は `@ant-intl.com` ドメイン、本ページは中国本土の Ant Group)。 ## 関連 - ソース: [[@2025__arXiv__XPUTimer - Anomaly Diagnostics for Divergent LLM Training in GPU Clusters of Thousand-Plus Scale]] - 関連プロダクト: [[XPUTimer]] / [[DLRover]] - 関連組織: [[Ant International]] - 共同研究先: [[Shanghai Jiao Tong University]] / [[National University of Singapore]] - 概念: [[LLM学習モニタリング]] / [[耐障害LLM訓練]]