# LLM-jp-3 and beyond: Training Large Language Models
[元記事](https://speakerdeck.com/odashi/llm-jp-3-and-beyond-training-large-language-models)
## 概要
NII LLMCのYusuke Oda氏による、LLM-jpの取り組みと[[LLM-jp-3]]の開発詳細に関する発表資料(2025年10月29日)。オープンかつ日本語に特化したLLMの開発プロセス、モデルアーキテクチャ、学習インフラ、そして直面した課題と今後の展望について詳述されている。
## 技術詳細
### モデルアーキテクチャ
* **ベース**: [[Transformer]] decoderを採用。
* **サイズ展開**: 150Mから172Bパラメータまでのモデルに加え、MoE(Mixture of Experts)モデル(8x1.8B, 8x13B)も開発。
* **パラメータ詳細**:
* Vocab size: 全モデル共通で99,487。
* Layers: 12層(150M) ~ 96層(172B)。
* Hidden size: 512(150M) ~ 12,288(172B)。
* Attention heads: 8(150M) ~ 96(172B)。
### データセット (コーパス構築)
* **規模**: 2.1兆トークンで学習。
* **重要性**: コーパス構築をLLM開発の最重要パートと位置づけ。
* **ソース**: Common Crawl等の公開データに加え、独自クロール、国立国会図書館(NDL)、国文学研究資料館(NIJL)との連携データを活用。
* **構成比**: 日英トークンをバランス良く配合。次期LLM-jp-4では英語トークンの比率を増やす方針(日本語タスク性能への悪影響が見られなかったため)。
* **Ablation Study**: MegaMath(数学コーパス)の追加が明確な性能向上に寄与することを確認。
### 学習インフラ
* **並列化技術**: Data Parallel (DP)、Tensor Parallel (TP)、Pipeline Parallel (PP) を組み合わせた3D並列を採用。
* 最適な組み合わせはVRAM容量、通信オーバーヘッド(NVLink vs PCIe, InfiniBand vs Ethernet)、ミニバッチサイズに依存。
* **構成方針**: LLM-jp-4 32Bの学習では、速度よりも安定性を重視した構成を採用(高速な設定はOOMやハードウェア障害を招きやすいため)。
* **精度**: [[BFloat16]] (BF16) を採用。FP8も検討したが、品質を優先しBF16を選択。
### 課題と解決策
* **ハイパーパラメータ**: [[Adam]]オプティマイザの `epsilon` 設定ミス(1e-5 vs 1e-8)が収束遅延の主因となり、リリース遅延に繋がった。
* **学習率スケジューリング**: LLM-jp-3ではCosineを採用したが、Ablation Studyの結果、十分なDecayステップを持つWarmup-Stable-Decay (WSD) がより高性能であることを確認し、LLM-jp-4で採用。
* **コスト**: 32Bモデルを10Tトークンで学習するには約1,000万ドル、H200 GPUで1.2万GPU日が必要。
## 今後の展望
* LLM-jp-4(v4モデル)を現在学習中。
* 15.6兆トークンでの学習を計画。
* Apache License 2.0での公開を目指し、オープンサイエンスを推進。