# DeepSeek LLM ## 概要 DeepSeek LLM は [[DeepSeek-AI]] がスクラッチから構築した初のオープンソース大規模言語モデルシリーズである。7B パラメータ(30 層)と 67B パラメータ(95 層)の 2 構成が公開され、2 兆トークン(中国語・英語主体)の事前学習データで訓練された。アーキテクチャは LLaMA を踏襲しつつ、67B モデルでは GQA(8 KV ヘッド)を採用し推論コストを削減する。学習率スケジューラはコサイン方式の代わりにマルチステップ方式を用い、継続学習に適した設計とした。 ## 技術仕様 | 項目 | 7B | 67B | |---|---|---| | 層数 | 30 | 95 | | $d_{model}$ | 4096 | 8192 | | ヘッド数 | 32 | 64 | | KV ヘッド数 | 32 (MHA) | 8 (GQA) | | コンテキスト長 | 4096 | 4096 | | 訓練トークン数 | 2.0T | 2.0T | ## 主要な性能 - **67B Base**: LLaMA-2 70B を MATH(18.7 対 13.5)、GSM8K(63.4 対 58.4)、HumanEval(42.7 対 28.7)、BBH(68.7 対 62.9)で上回る。 - **67B Chat**: MT-Bench 8.35(GPT-3.5-turbo と同等)、DPO 後 8.76。AlignBench で GPT-3.5 を上回る。 - **安全性**: Do-Not-Answer スコア 97.8(GPT-4 の 96.5 を上回る)。 ## 関連 - 開発組織: [[DeepSeek-AI]] - 訓練基盤: [[HAI-LLM]] - 概念: [[LLMスケーリング則]] / [[オープンLLM開発]] / [[LLM分散学習]] ## 出典 - [[@2024__arXiv__DeepSeek LLM - Scaling Open-Source Language Models with Longtermism]](§2 Pre-Training, §5 Evaluation)