# GPT-NeoX [[DeepSpeed]] と [[Megatron-LM]] を統合し 3D parallelism(data + tensor + pipeline)を実現する LLM 訓練フレームワーク。(Source: [[@2025__arXiv__Efficient Fine-Grained GPU Performance Modeling for Distributed Deep Learning of LLM]]) - GPUPerf 論文では実装フレームワークとして GPT-NeoX を用い、その全演算(GEMM・アテンション・正規化・通信など)をオペレータ単位に分解してマイクロベンチマークでプロファイルする対象とした。 - 訓練・評価コーパスの [[The Pile]] を GPT-NeoX-20B トークナイザ(語彙 50,257)で処理して現実的なワークロードを構成する。 ## 関連 - ソース: [[@2025__arXiv__Efficient Fine-Grained GPU Performance Modeling for Distributed Deep Learning of LLM]] - 基盤: [[DeepSpeed]] / [[Megatron-LM]] - 関連データセット: [[The Pile]] - 概念: [[LLM分散学習]] / [[並列化戦略]]