## Memo - Shanghai AI LabのデータセンターAcme ## Memo with LLM ## Abstract 大型言語モデル([[LLM]])は、様々な変換タスクにおいて目覚ましい性能を発揮している。しかし、LLMの開発に大規模なクラスタリソースを効率的に利用することは容易ではなく、ハードウェア障害の頻発、複雑な並列化戦略、リソースの不均衡な利用など、多くの課題に悩まされている。本論文では、GPUデータセンターAcmeから収集した6ヶ月間のLLM開発ワークロードトレースの詳細な特性評価を行う。具体的には、LLMと以前のタスク固有のディープラーニング(DL)ワークロードとの間の矛盾を調査し、リソースの利用パターンを探り、さまざまなジョブの障害の影響を特定する。我々の分析は、我々が遭遇したハードルを要約し、LLM用に調整されたシステムを最適化する潜在的な機会を明らかにする。さらに、我々のシステムの取り組みを紹介する: (1)故障耐性事前トレーニング:LLMが関与する故障診断と自動回復により故障耐性を強化する。(2)評価のためのスケジューリングの分離。試行分解とスケジューリングの最適化により、タイムリーな性能フィードバックを実現する。