# HAI-LLM
## 概要
HAI-LLM は High-Flyer(幻方量化)/ [[DeepSeek-AI]] が開発した、効率的かつ軽量な大規模言語モデルの訓練・評価フレームワークである。[[Megatron-LM]] と同様にデータ並列・テンソル並列・シーケンス並列・1F1B パイプライン並列を統合し、FlashAttention と ZeRO-1 によるメモリ最適化を備える。計算と通信のオーバーラップ、カーネル融合(LayerNorm, GEMM, Adam 更新)、bf16 訓練 + fp32 勾配蓄積、インプレースクロスエントロピーなどの最適化が組み込まれている。
[[DeepSeek LLM]] 7B/67B の事前学習に使用された。
## 関連
- 開発組織: [[DeepSeek-AI]]
- 類似フレームワーク: [[Megatron-LM]]
- 概念: [[LLM分散学習]] / [[並列化戦略]]
## 出典
- [[@2024__arXiv__DeepSeek LLM - Scaling Open-Source Language Models with Longtermism]](§2.4 Infrastructures)