@2024__arXiv__DeepSeek LLM - Scaling Open-Source Language Models with Longtermism

# DeepSeek LLM: Scaling Open-Source Language Models with Longtermism > [!abstract] 概要 > オープンソース大規模言語モデル（LLM）の急速な発展は注目に値する。しかし、先行研究で示されたスケーリング則は結論が分かれており、LLM のスケーリングに暗い影を落としている。本研究はスケーリング則を深く掘り下げ、広く使われるオープンソース構成である 7B と 67B の大規模モデルのスケーリングを促進する独自の知見を提示する。スケーリング則に導かれ、長期的視点でオープンソース言語モデルを前進させるプロジェクトとして DeepSeek LLM を導入する。事前学習フェーズを支えるため、現時点で 2 兆トークンから成り継続的に拡張中のデータセットを構築した。さらに DeepSeek LLM ベースモデルに対して教師ありファインチューニング（SFT）と直接選好最適化（DPO）を施し、DeepSeek Chat モデルを作成した。評価結果は、DeepSeek LLM 67B が LLaMA-2 70B を多数のベンチマークで上回ることを示し、特にコード・数学・推論の領域で顕著である。さらに、自由回答形式の評価は DeepSeek LLM 67B Chat が GPT-3.5 より優れた性能を発揮することを示す。 ## 論文情報 - **著者**: DeepSeek-AI（Xiao Bi, Deli Chen, Guanting Chen ほか約 80 名、アルファベット順） - **発表**: arXiv:2401.02954, 2024-01-05 - **カテゴリ**: cs.CL, cs.AI, cs.LG ## 概要 DeepSeek LLM は、[[DeepSeek-AI]] がスクラッチから構築したオープンソース大規模言語モデルシリーズであり、2 兆トークン（中国語・英語主体）のデータセットで事前学習される。本論文の最大の貢献はスケーリング則の再検討にあり、(1) バッチサイズ・学習率の最適値を計算予算の関数として冪乗則でモデル化し、(2) モデルスケールの表現として非埋め込み FLOPS/トークン $M$ を導入して最適配分戦略を精緻化し、(3) データ品質がスケーリング配分に影響することを示した。 ## 問題設定先行研究（Kaplan et al., 2020; Hoffmann et al., 2022（Chinchilla））のスケーリング則は、計算予算に対するモデル/データの最適配分について矛盾する結論を示していた。OpenAI（Kaplan）はモデルスケーリング指数 $a=0.73$、データスケーリング指数 $b=0.27$ とし、Chinchilla は $a=0.49$, $b=0.51$ とした。両者のハイパーパラメータ設定の記述も不完全であり、異なる計算予算下でモデルが最適性能に達したかが不明確であった。この不確実性を解消し、オープンソース LLM を効率的にスケールアップするための信頼できる指針を得ることが課題である。 ## 提案手法 ### アーキテクチャ DeepSeek LLM は LLaMA のアーキテクチャ設計を踏襲する。Pre-Norm 構造に RMSNorm を採用し、FFN の活性化関数として SwiGLU（中間層次元 $\frac{8}{3} d_{model}$）を使用する。位置符号化には Rotary Embedding（RoPE）を用いる。7B モデルは 30 層・$d_{model}=4096$・32 ヘッドの Multi-Head Attention、67B モデルは 95 層・$d_{model}=8192$ で推論コスト削減のため 8 KV ヘッドの Grouped-Query Attention（GQA）を採用する（表2）。67B モデルは FFN の中間幅を広げる代わりにネットワーク深度（層数）を増やし、パイプライン並列の分割にも好都合な設計とした。 ### 訓練データ 2 兆トークンの中国語・英語バイリンガルコーパスを構築した。前処理は重複排除・フィルタリング・リミキシングの 3 段階で構成される。重複排除は Common Crawl の 91 ダンプを横断して実施し、単一ダンプ内のみの場合と比べ 4 倍の重複文書を除去した（重複排除率：単一ダンプ 22.2% → 91 ダンプ 89.8%、表1）。トークナイザには BBPE（Byte-level Byte-Pair Encoding）を用い、語彙サイズは 100,015（訓練時は 102,400 に設定）。 ### ハイパーパラメータとスケジューラ AdamW オプティマイザ（$\beta_1=0.9$, $\beta_2=0.95$, weight\_decay=0.1）を使用。学習率スケジューラにはコサインスケジューラの代わりにマルチステップスケジューラを採用した。具体的には、2,000 ステップのウォームアップ後に最大値に達し、訓練トークンの 80% 処理後に最大値の 31.6% へ、90% 処理後に 10% へ減衰する。マルチステップスケジューラはコサインスケジューラと最終的な性能がほぼ同等であり（図1(a)）、第 1 フェーズの訓練を再利用できるため継続学習に有利である。 ### インフラストラクチャ HAI-LLM フレームワーク上で訓練を実施し、データ並列・テンソル並列・シーケンス並列・1F1B パイプライン並列を統合する。FlashAttention と ZeRO-1 を活用し、計算と通信のオーバーラップ、LayerNorm・GEMM・Adam 更新のカーネル融合を適用する。精度は bf16 で訓練し勾配は fp32 で蓄積、クロスエントロピーはインプレースで計算して GPU メモリ消費を削減する。チェックポイントは 5 分ごとに非同期保存し、最悪時でも 5 分分の訓練損失に抑える。 ### スケーリング則 **ハイパーパラメータのスケーリング則（§3.1）**: 1e17 から 2e19 の計算予算で多数のモデルを訓練し、最適バッチサイズ $B$ と学習率 $\eta$ を計算予算 $C$ の関数として冪乗則でフィッティングした: $\eta_{\text{opt}} = 0.3118 \cdot C^{-0.1250}, \quad B_{\text{opt}} = 0.2920 \cdot C^{0.3271}$ 汎化誤差が最小値から 0.25% 以内のパラメータを準最適とし、広い帯域内に収まることを確認した（図3）。 **モデル/データのスケーリング則（§3.2）**: モデルスケールの表現として、従来の非埋め込みパラメータ $N_1$ や全パラメータ $N_2$ に代わり、非埋め込み FLOPS/トークン $M$ を導入した: $M = 72 \cdot n_{\text{layer}} \cdot d_{\text{model}}^2 + 12 \cdot n_{\text{layer}} \cdot d_{\text{model}} \cdot l_{\text{seq}}$ $M$ はアテンション演算のオーバーヘッドを含みつつ語彙計算を除外するため、$6N_1$（アテンション無視）や $6N_2$（語彙計算込み）より正確である（表3：小規模モデルでは $6N_1/M$ が 0.43 まで乖離）。IsoFLOP プロファイル法で 1e17 から 3e20 の 8 予算で最適配分を求め、フィッティングした結果: $M_{\text{opt}} = 0.1715 \cdot C^{0.5243}, \quad D_{\text{opt}} = 5.8316 \cdot C^{0.4757}$ 小規模実験で 1000 倍の計算予算を持つモデル（DeepSeek LLM 7B/67B）の性能を正確に予測できた（図5）。 **データ品質の影響（§3.3）**: 初期社内データ（$a=0.450$）、現行社内データ（$a=0.524$）、OpenWebText2（$a=0.578$）の 3 つのデータセットでスケーリング則を比較し、データ品質が向上するほどモデルスケーリング指数 $a$ が増大しデータスケーリング指数 $b$ が減少することを示した（表4）。高品質データでは計算予算の増分をデータよりモデルに多く配分すべきことを意味する。 ### アライメント約 150 万件のインストラクションデータ（英語・中国語）で SFT を実施。有用性データ 120 万件（一般 31.2%、数学 46.6%、コーディング 22.2%）と安全性データ 30 万件で構成される。7B モデルは 4 エポック、67B モデルは 2 エポック（過学習防止）。DPO は多言語プロンプトに対し DeepSeek Chat モデルの応答から選好データを構築し、1 エポック（学習率 5e-6、バッチサイズ 512）で訓練した。 ## 新規性 1. **ハイパーパラメータのスケーリング則**: バッチサイズと学習率を計算予算の冪乗則として定式化し、異なる計算予算下で準最適ハイパーパラメータを決定する経験的フレームワークを確立した。 2. **非埋め込み FLOPS/トークン $M$**: 従来のモデルパラメータ数に代わるより正確なモデルスケール表現を導入し、スケーリング曲線のフィッティング精度と大規模モデルの性能予測精度を向上させた。 3. **データ品質とスケーリング配分の関係**: データ品質が最適モデル/データ配分に体系的に影響することを実証し、先行研究間のスケーリング則の不一致を説明する手がかりを提供した。 4. **マルチステップ学習率スケジューラ**: コサインスケジューラと同等の最終性能を維持しつつ、継続学習に適した学習率スケジューラを採用・検証した。 ## 実験設定 - **モデル**: DeepSeek LLM 7B（30 層, 4096 幅）と 67B（95 層, 8192 幅）の Base/Chat 各モデル - **訓練データ量**: 2 兆トークン（中英バイリンガル） - **比較対象**: LLaMA-2 7B/70B、GPT-3.5-turbo、GPT-4 ほか - **英語ベンチマーク**: MMLU, HellaSwag, PIQA, WinoGrande, ARC, BBH, TriviaQA, NaturalQuestions, DROP, MATH, GSM8K, HumanEval, MBPP, AGIEval, Pile-test - **中国語ベンチマーク**: C-Eval, CMMLU, CMath, CHID, CCPM, C3, CLUEWSC - **自由回答形式評価**: AlignBench（中国語、683 問）、MT-Bench（英語、マルチターン） - **保留評価**: LeetCode Weekly Contest、ハンガリー国立高校試験、IFEval - **安全性評価**: 独自 2,400 問テストセット + Do-Not-Answer（939 問） ## 実験結果 ### ベースモデル（表5） DeepSeek LLM 67B は LLaMA-2 70B を多くの英語ベンチマークで上回った。特に MATH（18.7 対 13.5）、GSM8K（63.4 対 58.4）、HumanEval（42.7 対 28.7）、MBPP（57.4 対 45.6）、BBH（68.7 対 62.9）で差が顕著である。中国語ベンチマークでは C-Eval（66.1 対 51.4）、CMMLU（70.8 対 53.1）、CHID（92.1 対 55.5）で大幅に上回る。7B モデル同士の比較では差が小さく、バイリンガル訓練における言語間の干渉が小さいモデルほど影響が小さいことを示唆する。 ### チャットモデル（表6） SFT 後、GSM8K は 7B で 17.4→63.0、67B で 63.4→84.1 と大幅に向上。HumanEval は 7B で 26.2→48.2、67B で 42.7→73.8。ベースモデルの未学習領域（コード・数学）で特に顕著な改善が見られた。HellaSwag のようなクローズ型タスクでは性能低下が起こった。 ### 自由回答形式評価 - **AlignBench（中国語、表7）**: DeepSeek 67B Chat は 6.43 で ChatGPT（6.08）を上回り、GPT-4 に次ぐ。DPO 適用後は 6.69 に向上し、ほぼ全領域で改善。 - **MT-Bench（英語、表8）**: DeepSeek 67B Chat は 8.35 で GPT-3.5-turbo（8.39）と同等。DPO 後は 8.76 で GPT-4（9.26）に次ぐ。 ### 保留評価（表9） LeetCode（pass@1: 17.5）、ハンガリー国立高校試験（58 点）、IFEval（55.5%）のいずれでも、他のオープンソースモデルを上回った。 ### 安全性評価（表10, 11）独自テストセット 2,400 問で安全性確認。Do-Not-Answer スコアは 97.8 で GPT-4（96.5）・ChatGPT（97.7）を上回った。 ### スケーリング則の検証 $M$ によるスケール表現を用いた性能予測は、DeepSeek LLM 7B/67B の実測値と良く一致した（図5）。$6N_1$ は大規模モデルの性能を過大評価し、$6N_2$ は過小評価する傾向を確認した（図6）。 **Figure 5: 評価結果** ![[_attachments/arxiv-2401.02954/fig5-results.png]] (Figure 5. 評価結果を示す。) **Table 10: モデル構成** ![[_attachments/arxiv-2401.02954/table10-model.png]] (Table 10. number of test questions for each safety category and the number of safety tests passed by our model are listed in the t に関するモデル構成を示す。) **Table 13: 表** ![[_attachments/arxiv-2401.02954/table13-table.png]] (Table 13. 論文中の主要な表を示す。) **Table 14: モデル構成** ![[_attachments/arxiv-2401.02954/table14-model.png]] (Table 14. Our explanation for this disparity is that larger models possess a better understanding of the intended meaning behind t に関するモデル構成を示す。) ## 考察 - **段階的ファインチューニング**: 小規模モデルではコード・数学データでの長期訓練が反復生成を増加させるため、第 2 段階で会話データのみのファインチューニングを追加する。これにより反復率が 2.0%→1.4% に低下し、ベンチマークスコアは維持された（表12）。 - **多肢選択データの除外**: 2,000 万件の多肢選択データ追加は MMLU（49.4→60.9）や C-Eval（47.0→71.3）を大幅に向上させるが、TriviaQA 等の生成型評価に寄与せず、真の知能向上ではなくベンチマーク過学習になるため除外を決定（表13）。 - **システムプロンプトの効果**: 67B モデルでは MT-Bench スコアが 8.35→8.58 に向上する一方、7B モデルでは 7.15→7.11 とわずかに低下した（表14）。大規模モデルほどプロンプトの意図を理解する能力が高いと考えられる。 - **事前学習へのインストラクションデータ混入**: 事前学習の最終 10% に 500 万件のインストラクションデータを混入してもベースモデルのベンチマークは改善するが、SFT 段階で同じデータを用いた場合と最終性能は同等であった。 ## 強み - スケーリング則の再検討を体系的に行い、ハイパーパラメータ・モデルスケール表現・データ品質の 3 点で具体的かつ再現可能な知見を提供した点。特に $M$（非埋め込み FLOPS/トークン）の導入は、小規模実験から大規模モデルの性能を正確に予測する手段として有用である。 - 2 兆トークンのバイリンガルデータセットでの事前学習により、英語・中国語双方で強い性能を示し、特にコード・数学・推論で LLaMA-2 70B を上回った。 - ベンチマーク装飾（多肢選択データでの過学習）を意識的に排除し、その影響を定量的に報告した透明性。 - マルチステップ学習率スケジューラの有効性を示し、継続学習の実用性を高めた。 ## 弱点・課題 - スケーリング則のハイパーパラメータ依存性が計算予算 $C$ のみに帰着されており、モデル/データの配分自体がハイパーパラメータ空間に与える影響は今後の課題として残された。 - 訓練データの構成（中国語と英語の比率、ドメイン比率）の詳細が十分に開示されておらず、スケーリング則の結論がどのデータ構成に依存するかが不明確である。 - 中国語データが網羅的でなく、一部の中国語固有トピックでの性能が限定的であると著者自身が認めている。 - SFT/DPO で用いた選好データの生成元が自社モデル（DeepSeek Chat）に限定されており、外部モデルとの選好データ比較がない。 - MoE やコード特化モデル等の発展方向は予告されるのみで、本論文の範囲には含まれない。 ## 出典 - DeepSeek-AI. "DeepSeek LLM: Scaling Open-Source Language Models with Longtermism." arXiv:2401.02954, 2024.