# Unicron [[Alibaba Group]] が開発した LLM 訓練向け自己修復(self-healing)ワークロードマネージャ。[[Megatron-LM]] を基盤とし、非侵入的(non-intrusive)な統合を原則とする。[[@2024__arXiv__Unicron - Economizing Self-Healing LLM Training at Scale]](arXiv 2024、[[Tao He (Alibaba)]]・[[Kun Qian]]・[[Jingren Zhou]] ほか著)。 **三つの核心機構**: 1. **インバンド誤り検知**: CPU 上の専用モニタリングスレッドが各 GPU を監視し、既定 30 分タイムアウトを数十秒〜数分に短縮 2. **動的コスト認識プラン生成**: WAF(Weighted Achieved aggregate FLOP/s)を目標関数とする動的計画法で、複数タスクの最適リソース配分を $O(mn^2)$(事前計算で $O(1)$)で解く 3. **効率的遷移戦略**: グラジェント蓄積の構造を利用した部分結果再利用・近傍原則による状態移行で再計算コストを最小化 **評価結果**: 128 GPU(NVIDIA A800)・Alibaba Cloud 上で、実障害トレース(trace-a)で Megatron 比 1.2× 、高頻度障害トレース(trace-b, 20× 増幅)で **1.9×** の累積 WAF 改善を達成した。 ## 関連 - ソース: [[@2024__arXiv__Unicron - Economizing Self-Healing LLM Training at Scale]] - 開発: [[Alibaba Group]] - 著者: [[Tao He (Alibaba)]] / [[Kun Qian]] / [[Jingren Zhou]] - 基盤: [[Megatron-LM]] - 概念: [[耐障害LLM訓練]] / [[弾性LLM訓練]] / [[LLM分散学習]]