DeepSeek-Coder - yuuk1's Digital Garden

# DeepSeek-Coder [[DeepSeek-AI]] が開発したオープンソースのコード特化大規模言語モデルシリーズ。1.3B・6.7B・33B の 3 スケールで、Base 版と Instruct 版をそれぞれ提供する。87 プログラミング言語を含む 2 兆トークンのコーパスでスクラッチから学習されている。 ## 技術的特徴 - **リポジトリレベルデータ構築**: ファイル間の依存関係をトポロジカルソートで並べ替え、プロジェクト全体の構造を学習に反映する - **Fill-in-the-Middle (FIM)**: PSM モードを 50% の割合で適用し、コード補完能力を強化する - **16K コンテキストウィンドウ**: RoPE のスケーリングファクターとベース周波数を調整し、長いコード入力に対応する - **アーキテクチャ**: デコーダオンリー Transformer + RoPE。33B モデルは GQA（グループサイズ 8）を採用 - **トークナイザ**: BPE、語彙サイズ 32,000 ## バリアント | モデル | パラメータ | 特徴 | |---|---|---| | DeepSeek-Coder-Base | 1.3B / 6.7B / 33B | 事前学習済みベースモデル | | DeepSeek-Coder-Instruct | 1.3B / 6.7B / 33B | 指示チューニング済みモデル | | DeepSeek-Coder-v1.5 | 6.9B | DeepSeek-LLM 7B からの継続事前学習版。自然言語理解・数学推論が向上 | ## 主要ベンチマーク結果 - HumanEval 多言語平均: Base 33B で 50.3%（オープンソース SOTA）、Instruct 33B で 69.2% - MBPP: Base 33B で 66.0% - DS-1000: Base 33B で 40.2% - LeetCode Contest: Instruct 33B で 27.8%（GPT-3.5 Turbo の 23.3% を上回る） - FIM Single-Line Infilling: Base 33B で平均 81.2% ## ライセンス研究・商用利用ともに無制限の寛容なライセンスで公開されている。 ## 出典 - [[@2024__arXiv__DeepSeek-Coder - When the Large Language Model Meets Programming]]