DeepSeek LLM - yuuk1's Digital Garden

# DeepSeek LLM ## 概要 DeepSeek LLM は [[DeepSeek-AI]] がスクラッチから構築した初のオープンソース大規模言語モデルシリーズである。7B パラメータ（30 層）と 67B パラメータ（95 層）の 2 構成が公開され、2 兆トークン（中国語・英語主体）の事前学習データで訓練された。アーキテクチャは LLaMA を踏襲しつつ、67B モデルでは GQA（8 KV ヘッド）を採用し推論コストを削減する。学習率スケジューラはコサイン方式の代わりにマルチステップ方式を用い、継続学習に適した設計とした。 ## 技術仕様 | 項目 | 7B | 67B | |---|---|---| | 層数 | 30 | 95 | | $d_{model}$ | 4096 | 8192 | | ヘッド数 | 32 | 64 | | KV ヘッド数 | 32 (MHA) | 8 (GQA) | | コンテキスト長 | 4096 | 4096 | | 訓練トークン数 | 2.0T | 2.0T | ## 主要な性能 - **67B Base**: LLaMA-2 70B を MATH（18.7 対 13.5）、GSM8K（63.4 対 58.4）、HumanEval（42.7 対 28.7）、BBH（68.7 対 62.9）で上回る。 - **67B Chat**: MT-Bench 8.35（GPT-3.5-turbo と同等）、DPO 後 8.76。AlignBench で GPT-3.5 を上回る。 - **安全性**: Do-Not-Answer スコア 97.8（GPT-4 の 96.5 を上回る）。 ## 関連 - 開発組織: [[DeepSeek-AI]] - 訓練基盤: [[HAI-LLM]] - 概念: [[LLMスケーリング則]] / [[オープンLLM開発]] / [[LLM分散学習]] ## 出典 - [[@2024__arXiv__DeepSeek LLM - Scaling Open-Source Language Models with Longtermism]]（§2 Pre-Training, §5 Evaluation）