HAI-LLM - yuuk1's Digital Garden

# HAI-LLM ## 概要 HAI-LLM は High-Flyer（幻方量化）/ [[DeepSeek-AI]] が開発した、効率的かつ軽量な大規模言語モデルの訓練・評価フレームワークである。[[Megatron-LM]] と同様にデータ並列・テンソル並列・シーケンス並列・1F1B パイプライン並列を統合し、FlashAttention と ZeRO-1 によるメモリ最適化を備える。計算と通信のオーバーラップ、カーネル融合（LayerNorm, GEMM, Adam 更新）、bf16 訓練 + fp32 勾配蓄積、インプレースクロスエントロピーなどの最適化が組み込まれている。 [[DeepSeek LLM]] 7B/67B の事前学習に使用された。 ## 関連 - 開発組織: [[DeepSeek-AI]] - 類似フレームワーク: [[Megatron-LM]] - 概念: [[LLM分散学習]] / [[並列化戦略]] ## 出典 - [[@2024__arXiv__DeepSeek LLM - Scaling Open-Source Language Models with Longtermism]]（§2.4 Infrastructures）