# DeepSeek-Coder
[[DeepSeek-AI]] が開発したオープンソースのコード特化大規模言語モデルシリーズ。1.3B・6.7B・33B の 3 スケールで、Base 版と Instruct 版をそれぞれ提供する。87 プログラミング言語を含む 2 兆トークンのコーパスでスクラッチから学習されている。
## 技術的特徴
- **リポジトリレベルデータ構築**: ファイル間の依存関係をトポロジカルソートで並べ替え、プロジェクト全体の構造を学習に反映する
- **Fill-in-the-Middle (FIM)**: PSM モードを 50% の割合で適用し、コード補完能力を強化する
- **16K コンテキストウィンドウ**: RoPE のスケーリングファクターとベース周波数を調整し、長いコード入力に対応する
- **アーキテクチャ**: デコーダオンリー Transformer + RoPE。33B モデルは GQA(グループサイズ 8)を採用
- **トークナイザ**: BPE、語彙サイズ 32,000
## バリアント
| モデル | パラメータ | 特徴 |
|---|---|---|
| DeepSeek-Coder-Base | 1.3B / 6.7B / 33B | 事前学習済みベースモデル |
| DeepSeek-Coder-Instruct | 1.3B / 6.7B / 33B | 指示チューニング済みモデル |
| DeepSeek-Coder-v1.5 | 6.9B | DeepSeek-LLM 7B からの継続事前学習版。自然言語理解・数学推論が向上 |
## 主要ベンチマーク結果
- HumanEval 多言語平均: Base 33B で 50.3%(オープンソース SOTA)、Instruct 33B で 69.2%
- MBPP: Base 33B で 66.0%
- DS-1000: Base 33B で 40.2%
- LeetCode Contest: Instruct 33B で 27.8%(GPT-3.5 Turbo の 23.3% を上回る)
- FIM Single-Line Infilling: Base 33B で平均 81.2%
## ライセンス
研究・商用利用ともに無制限の寛容なライセンスで公開されている。
## 出典
- [[@2024__arXiv__DeepSeek-Coder - When the Large Language Model Meets Programming]]