# コード LLM ## 定義 コード LLM(Code LLM)とは、ソースコードの生成・補完・理解・変換に特化して学習された大規模言語モデルの総称である。大規模なコードコーパスでの事前学習、Fill-in-the-Middle(FIM)などのコード固有の学習目的関数、指示チューニングを組み合わせ、コード生成・コード補完・バグ検出・数学的推論のプログラム生成などのタスクを遂行する。代表的なモデルとして [[DeepSeek-Coder]](1.3B〜33B、87 言語)、CodeLlama(7B〜34B)、StarCoder(15B)、code-cushman-001(12B、Codex)がある。(Source: [[@2024__arXiv__DeepSeek-Coder - When the Large Language Model Meets Programming]]) ## 横断的知見 - (1 ソース目。追加ソースの取り込みに伴い、複数ソースの突き合わせで見えた観察をここに蓄積する) ## 未解決の問い - データ品質がモデル規模を補う効果(DeepSeek-Coder 6.7B が CodeLlama 34B を上回る)は、コーパスの構成や品質管理のどの要素が最も寄与しているのか。リポジトリレベル構築と品質スクリーニングの寄与を分離した定量分析が必要である。(Source: [[@2024__arXiv__DeepSeek-Coder - When the Large Language Model Meets Programming]]) - FIM 学習の最適設定(PSM 50%)は 1.3B・Python サブセットでのみ検証されている。モデル規模・言語・タスクの変化に対する汎化がどこまで成立するか。(Source: [[@2024__arXiv__DeepSeek-Coder - When the Large Language Model Meets Programming]]) - 汎用 LLM からの継続事前学習(DeepSeek-Coder-v1.5)とスクラッチ学習のトレードオフは、より大規模なモデル(33B 以上)でも同様のパターンを示すか。(Source: [[@2024__arXiv__DeepSeek-Coder - When the Large Language Model Meets Programming]]) - コード LLM のオープンソース化が進む中、ベンチマーク汚染(LeetCode Contest データでの汚染リスクを著者が認めている)への対策として動的に更新されるベンチマーク設計はどうあるべきか。(Source: [[@2024__arXiv__DeepSeek-Coder - When the Large Language Model Meets Programming]]) ## 関連 - [[エージェント型コーディング]] — コード LLM を基盤とするエージェント型のソフトウェア開発自動化 - [[オープンLLM開発]] — オープンソース LLM 開発の方法論 - [[LLM分散学習]] — 大規模モデルの分散学習手法 ## 出典 - [[@2024__arXiv__DeepSeek-Coder - When the Large Language Model Meets Programming]]