オープンLLM開発 - yuuk1's Digital Garden

# オープン LLM 開発 ## 定義オープン LLM 開発とは、大規模言語モデルの訓練パイプライン全体——事前学習データ、中間チェックポイント、後訓練データ、コード、訓練ログ、評価フレームワーク——を公開し、任意段階での介入・カスタマイズ・再現を可能にする開発方式である。[[@2025__arXiv__OLMo 3]] はこれを**モデルフロー**（model flow）と呼び、「最終重みのみの公開」（オープンウェイト）と明確に区別する。オープン度には段階がある。最も狭義の「オープンウェイト」（Llama、Qwen、Gemma 等）は推論利用は許すが内部の訓練過程は非公開であり、最も広義の「完全オープン」は全段階の重み・データ・コード・依存関係・訓練ログを公開する。OLMo 3 は後者を体系的に実現した初の SOTA 級 LLM を自称する。(Source: [[@2025__arXiv__OLMo 3]]) ## 横断的知見 - **「完全オープン」の実質的な限界が合成データ生成に現れる**: OLMo 3 は全データ・全コードの公開を標榜するが、後訓練の SFT/DPO データ生成に GPT-4.1・GPT-5 等のプロプライエタリモデルを使用している。合成データの「生成元モデル」まで含めた完全再現は、生成元モデルがクローズドである限り原理的に不可能であり、「オープン」の定義がデータの静的公開とデータ生成の再現性で乖離する。(Source: [[@2025__arXiv__OLMo 3]]) - **モデルフローの公開が RL 研究の方法論的基盤を初めて提供する**: OLMo 3 の RL-Zero 変種は、事前学習データが RL 性能に与える影響を完全に追跡可能な形で研究できる初のセットアップである。オープンウェイトモデルではベースモデルの訓練データが不明なため、RL の効果をベースモデルの影響から分離できなかった。この「RL のためのクリーンなベンチマーキング環境」は、[[強化ファインチューニング]]の研究基盤として [[VeRL]] や [[ScaleRL]] 等の既存 RL インフラとは質的に異なる貢献をする。(Source: [[@2025__arXiv__OLMo 3]]) - **データキュレーションの工程透明化がモデル開発の「暗黙知」を構造化する**: OLMo 3 のデータパイプラインでは、WebOrganizer による 24 トピック × 20 品質バケットの 480 分割、品質認識型の非平坦アップサンプリング曲線、スウォーム型最適化による混合比決定、条件付き混合による遅着データの統合といった設計決定が、その根拠とともに論文で記述される。これらは従来「社内ノウハウ」として秘匿されてきた事前学習データエンジニアリングの知見であり、研究コミュニティへの移転が始まっている。(Source: [[@2025__arXiv__OLMo 3]]) - **「スケーリング則の公開」がオープン LLM 開発の知識面での貢献として現れている**: OLMo 3 がデータ・コード・ログという「訓練パイプラインの再現性」を公開するのに対し、[[@2024__arXiv__DeepSeek LLM - Scaling Open-Source Language Models with Longtermism]] はハイパーパラメータの冪乗則（バッチサイズ・学習率と計算予算の関係）、非埋め込み FLOPS/トークン $M$ による精緻なモデルスケール表現、データ品質がスケーリング配分に与える影響といった**設計判断の根拠**を公開する。パイプラインの再現と設計判断の根拠は相補的であり、前者は「同じ結果を出せる」、後者は「なぜこの設計にしたかを追跡できる」を担う。「完全オープン」の範囲が、成果物から設計知識まで広がりうることを 2 ソースの突き合わせが示す。(Source: [[@2025__arXiv__OLMo 3]], [[@2024__arXiv__DeepSeek LLM - Scaling Open-Source Language Models with Longtermism]]) - **オープンウェイトモデルの「寛容ライセンス」が実用 SOTA を達成する道筋が多様化している**: OLMo 3 はデータ・コード・ログを含む「完全オープン」を追求するのに対し、[[DeepSeek-Coder]] は学習データの詳細は非公開ながら重みを寛容ライセンスで公開し、GPT-3.5 Turbo を上回る性能を達成している。両者は「オープン」の深さが異なるが、いずれもクローズドモデルとの性能差縮小に貢献しており、「完全オープン」と「オープンウェイト」の実用価値のトレードオフが明確になりつつある。(Source: [[@2025__arXiv__OLMo 3]], [[@2024__arXiv__DeepSeek-Coder - When the Large Language Model Meets Programming]]) ## 未解決の問い - OLMo 3 の「完全オープン」方針は持続可能か。訓練コスト（$2.75M、1024 H100 × 56 日）を非営利研究所が反復的に負担する経済モデルの限界はどこか。(Source: [[@2025__arXiv__OLMo 3]]) - オープンウェイトモデル（Qwen 3、Gemma 3）がオープンフロー方針を採用しない理由は、競争優位の保護か、データライセンスの制約か、単に工数の問題か。オープンフローの採用が増えた場合、データ公開のライセンス問題（特にウェブクローリングデータの著作権）はどう解決されるか。(Source: [[@2025__arXiv__OLMo 3]]) - Delta Learning（Qwen 3 32B vs 0.6B の能力デルタを利用）は、選好データ生成にクローズドモデルを使わない代替手法として機能する。この方式でプロプライエタリモデルへの依存を完全に排除できるか、あるいはモデルの能力の天井がオープンモデルの強さで制約されるか。(Source: [[@2025__arXiv__OLMo 3]]) ## 関連 - ソース: [[@2025__arXiv__OLMo 3]] / [[@2024__arXiv__DeepSeek-Coder - When the Large Language Model Meets Programming]] / [[@2024__arXiv__DeepSeek LLM - Scaling Open-Source Language Models with Longtermism]] - エンティティ: [[DeepSeek-AI]] / [[DeepSeek-Coder]] / [[DeepSeek LLM]] / [[Allen Institute for AI]] / [[OLMo 3]] / [[Dolma 3]] / [[Dolci]] / [[OlmoRL]] / [[OlmoBaseEval]] / [[olmOCR]] / [[Duplodocus]] - 概念: [[LLM分散学習]] / [[強化ファインチューニング]] / [[LLMスケーリング則]] - 関連 MOC: [[分散深層学習 - MOC]] ## 出典 - [[@2025__arXiv__OLMo 3]]（§1 Introduction: Model Flow の定義, §3 Pretraining Data: Dolma 3 Mix 構築, §7 Post-Training: Delta Learning・RL-Zero, §8 Results） - [[@2024__arXiv__DeepSeek-Coder - When the Large Language Model Meets Programming]]（寛容ライセンスのオープンウェイト公開、クローズドモデル超え） - [[@2024__arXiv__DeepSeek LLM - Scaling Open-Source Language Models with Longtermism]]（§3 スケーリング則の公開: ハイパーパラメータ冪乗則・非埋め込み FLOPS/トークン $M$・データ品質の影響。設計判断の根拠の公開としてのオープンモデル開発）