# DeepSeek LLM
## 概要
DeepSeek LLM は [[DeepSeek-AI]] がスクラッチから構築した初のオープンソース大規模言語モデルシリーズである。7B パラメータ(30 層)と 67B パラメータ(95 層)の 2 構成が公開され、2 兆トークン(中国語・英語主体)の事前学習データで訓練された。アーキテクチャは LLaMA を踏襲しつつ、67B モデルでは GQA(8 KV ヘッド)を採用し推論コストを削減する。学習率スケジューラはコサイン方式の代わりにマルチステップ方式を用い、継続学習に適した設計とした。
## 技術仕様
| 項目 | 7B | 67B |
|---|---|---|
| 層数 | 30 | 95 |
| $d_{model}$ | 4096 | 8192 |
| ヘッド数 | 32 | 64 |
| KV ヘッド数 | 32 (MHA) | 8 (GQA) |
| コンテキスト長 | 4096 | 4096 |
| 訓練トークン数 | 2.0T | 2.0T |
## 主要な性能
- **67B Base**: LLaMA-2 70B を MATH(18.7 対 13.5)、GSM8K(63.4 対 58.4)、HumanEval(42.7 対 28.7)、BBH(68.7 対 62.9)で上回る。
- **67B Chat**: MT-Bench 8.35(GPT-3.5-turbo と同等)、DPO 後 8.76。AlignBench で GPT-3.5 を上回る。
- **安全性**: Do-Not-Answer スコア 97.8(GPT-4 の 96.5 を上回る)。
## 関連
- 開発組織: [[DeepSeek-AI]]
- 訓練基盤: [[HAI-LLM]]
- 概念: [[LLMスケーリング則]] / [[オープンLLM開発]] / [[LLM分散学習]]
## 出典
- [[@2024__arXiv__DeepSeek LLM - Scaling Open-Source Language Models with Longtermism]](§2 Pre-Training, §5 Evaluation)