2025-10-29_LLM-jp-3 and beyond - Training Large Language Models

# LLM-jp-3 and beyond: Training Large Language Models [元記事](https://speakerdeck.com/odashi/llm-jp-3-and-beyond-training-large-language-models) ## 概要 NII LLMCのYusuke Oda氏による、LLM-jpの取り組みと[[LLM-jp-3]]の開発詳細に関する発表資料（2025年10月29日）。オープンかつ日本語に特化したLLMの開発プロセス、モデルアーキテクチャ、学習インフラ、そして直面した課題と今後の展望について詳述されている。 ## 技術詳細 ### モデルアーキテクチャ * **ベース**: [[Transformer]] decoderを採用。 * **サイズ展開**: 150Mから172Bパラメータまでのモデルに加え、MoE（Mixture of Experts）モデル（8x1.8B, 8x13B）も開発。 * **パラメータ詳細**: * Vocab size: 全モデル共通で99,487。 * Layers: 12層(150M) ～ 96層(172B)。 * Hidden size: 512(150M) ～ 12,288(172B)。 * Attention heads: 8(150M) ～ 96(172B)。 ### データセット (コーパス構築) * **規模**: 2.1兆トークンで学習。 * **重要性**: コーパス構築をLLM開発の最重要パートと位置づけ。 * **ソース**: Common Crawl等の公開データに加え、独自クロール、国立国会図書館(NDL)、国文学研究資料館(NIJL)との連携データを活用。 * **構成比**: 日英トークンをバランス良く配合。次期LLM-jp-4では英語トークンの比率を増やす方針（日本語タスク性能への悪影響が見られなかったため）。 * **Ablation Study**: MegaMath（数学コーパス）の追加が明確な性能向上に寄与することを確認。 ### 学習インフラ * **並列化技術**: Data Parallel (DP)、Tensor Parallel (TP)、Pipeline Parallel (PP) を組み合わせた3D並列を採用。 * 最適な組み合わせはVRAM容量、通信オーバーヘッド（NVLink vs PCIe, InfiniBand vs Ethernet）、ミニバッチサイズに依存。 * **構成方針**: LLM-jp-4 32Bの学習では、速度よりも安定性を重視した構成を採用（高速な設定はOOMやハードウェア障害を招きやすいため）。 * **精度**: [[BFloat16]] (BF16) を採用。FP8も検討したが、品質を優先しBF16を選択。 ### 課題と解決策 * **ハイパーパラメータ**: [[Adam]]オプティマイザの `epsilon` 設定ミス（1e-5 vs 1e-8）が収束遅延の主因となり、リリース遅延に繋がった。 * **学習率スケジューリング**: LLM-jp-3ではCosineを採用したが、Ablation Studyの結果、十分なDecayステップを持つWarmup-Stable-Decay (WSD) がより高性能であることを確認し、LLM-jp-4で採用。 * **コスト**: 32Bモデルを10Tトークンで学習するには約1,000万ドル、H200 GPUで1.2万GPU日が必要。 ## 今後の展望 * LLM-jp-4（v4モデル）を現在学習中。 * 15.6兆トークンでの学習を計画。 * Apache License 2.0での公開を目指し、オープンサイエンスを推進。