# FFTrainer [[Tsinghua University]]([[Bohan Zhao]] / [[Yuanhong Wang]] / [[Wei Xu]] ほか)が開発した LLM 訓練高速フェイルオーバーシステム。arXiv:2512.03644(2025-12-03)で発表。PyTorch・Megatron・DeepSpeed に対応する。コードはオープンソースで公開予定。(Source: [[@2025__arXiv__FFTrainer Fast Failover in Large Language Model Training with Almost Free State Management]]) ## 主要コンポーネント - **Checkpoint Razor**: データ並列冗長を識別して一意な状態のみ保存するチェックポイント最適化機構 - **Neighboring Redundancy**: データ並列リング内の隣接ワーカーのメモリへ、訓練ネットワーク遊休帯域を使ってチェックポイントを転送する機構 - **LCCL(Lightweight Collective Communication Library)**: `torch.distributed` と API 互換の軽量集合通信ライブラリ。ロックフリー接続構築・グループフリー集合通信・非同期初期化を提供 - **State Controller**: 中央制御プロセス。データインデックス管理・心拍監視・障害時の冗長状態転送を担当 - **Lazy Backup**: 障害復旧時にのみ冗長状態(重みなど)を永続化する遅延バックアップ機構 ## 実績(128 GPU クラスタ) - MTTR: 約 1,000 秒 → 29 秒(97% 削減) - チェックポイントオーバーヘッド: 全モデルで 3% 未満(毎イテレーション) - MFU 損失: 0.27% 以下 ## 関連 - ソース: [[@2025__arXiv__FFTrainer Fast Failover in Large Language Model Training with Almost Free State Management]] - エンティティ: [[Bohan Zhao]] / [[Wei Xu]] / [[Tsinghua University]] - 概念: [[チェックポイント]] / [[耐障害LLM訓練]] / [[LLM分散学習]]