Level-4 fold of 16 log entries spanning 2026-06-05 to 2026-06-06. Dominant themes: RL スケーリング則とエージェント型 RL の体系化、GPU クラスタ運用・信頼性の実証研究、大規模 MoE モデルの産業実装。
## Child Entries
| Date | Op | Title | Page | Summary (extractive) |
|---|---|---|---|---|
| 2026-06-05 | ingest | AgentRL | [[@2025__arXiv__AgentRL - Scaling RL for Multi-Turn Multi-Task Agents]] | 交差方策サンプリング・タスク別アドバンテージ正規化・完全非同期パイプラインで AgentBench-FC 5 環境平均 70.4% を達成 |
| 2026-06-05 | ingest | IsoCompute Playbook | [[@2026__arXiv__IsoCompute Playbook - Optimally Scaling Sampling Compute for LLM RL]] | 約 12 万 H200 時間の実験で LLM RL の計算最適配分則を導出。事前学習の Chinchilla 則に対応する RL 初のスケーリング則 |
| 2026-06-05 | ingest | Scaling Behaviors of LLM RL Post-Training | [[@2025__arXiv__Scaling Behaviors of LLM Reinforcement Learning Post-Training]] | Qwen2.5 で 63 モデル超を GRPO 訓練し、RL 事後学習のテスト損失が計算量・データ量に対して対数線形のべき乗則に従うことを初実証 |
| 2026-06-05 | ingest | The Art of Scaling RL Compute | [[@2025__arXiv__The Art of Scaling Reinforcement Learning Compute for LLMs]] | 400,000 GPU 時間超でシグモイド型飽和曲線の漸近性能 A と計算効率 B を分離。統合レシピ ScaleRL で 8B A=0.61 |
| 2026-06-05 | ingest | Scaling Up RL | [[@2025__arXiv__Scaling Up RL - Unlocking Diverse Reasoning in LLMs via Prolonged Training]] | 1.5B モデルに 5 ドメイン長期 RL を適用。KL 除去時のエントロピー崩壊と多ドメイン統合訓練の汎化を示す |
| 2026-06-05 | ingest | Landscape of Agentic RL | [[@2025__arXiv__The Landscape of Agentic Reinforcement Learning]] | PBRFT(退化 MDP, T=1)と Agentic RL(POMDP, T>1)を形式的に区別した初の包括的サーベイ。500 本超を体系化 |
| 2026-06-06 | ingest-paper | Pretraining LLMs at Scale | [[@2025__PMBS__Pretraining LLMs at Scale - Tuning Strategies and Performance Portability]] | DeepSpeed/ZeRO/NCCL の既定値を測って外す局所チューニングで既定構成比最大 1.6 倍高速化 |
| 2026-06-06 | ingest-paper | Analysis of Multi-Tenant GPU Clusters | [[@2019__USENIX ATC__Analysis of Large-Scale Multi-Tenant GPU Clusters for DNN Training Workloads]] | Philly 75 日・96,260 ジョブのトレースが現代 LLM 分散学習の問題の前史にあたる |
| 2026-06-06 | ingest-paper | Revisiting Reliability in ML Clusters | [[@2025__HPCA__Revisiting Reliability in Large-Scale Machine Learning Research Clusters]] | MTTF は GPU 数にほぼ反比例し、10 万 GPU 級では分単位のチェックポイント/再起動が必要条件 |
| 2026-06-06 | ingest | Understanding Workload Characteristics in LLM Development | [[@2024__USENIX login Online__Understanding Workload Characteristics in Large Language Model Development]] | LLM 専用クラスタでは評価等の短いジョブが件数を支配し、少数の事前学習ジョブが GPU 時間を支配 |
| 2026-06-06 | ingest-paper | Characterizing Modern GPU Resilience (A100) | [[@2025__DSN-W__Characterizing Modern GPU Resilience and Impact in HPC Systems - A Case Study of A100 GPUs]] | A100 の弱点は非メモリハードウェア(GSP・PMU SPI・MMU・NVLink)にあり、H100 との世代間弱点反転の基準線 |
| 2026-06-05 | batch-ingest-paper | RL Scaling & Agentic RL 10 論文 | [[@2025__arXiv__The Art of Scaling Reinforcement Learning Compute for LLMs]] | LLM RL スケーリング 4 本 + エージェント型 RL 6 本の一括取り込み。べき乗則とシグモイド飽和の相補性を確立 |
| 2026-06-06 | ingest | Cursor Composer 2.5 | [[@2026__Cursor__Introducing Composer 2.5]] | ターゲット RL(軌跡中の特定箇所にテキストヒント挿入)と合成タスク 25 倍拡大で訓練。報酬ハッキングの産業界初公開事例 |
| 2026-06-06 | ingest-paper | Kimi K2 | [[@2025__arXiv__Kimi K2 - Open Agentic Intelligence]] | MuonClip で 15.5 兆トークンをロススパイクなしに事前学習。MCP ツール 3,000 超のエージェント型データ合成 + RLVR で SWE-bench Verified 65.8% |
| 2026-06-06 | ingest-paper | MiniMax-M2 | [[@2026__arXiv__The MiniMax-M2 Series - Mini Activations Unleashing Max Real-World Intelligence]] | 256 細粒度エキスパート+シグモイドゲーティング。Forge のエージェントネイティブ RL と 100 ラウンド自己進化で Multi-SWE-bench 52.7 |
| 2026-06-06 | ingest-paper | Nemotron 3 | [[@2025__arXiv__Nemotron 3 - Efficient and Open Intelligence]] | Mamba-2–Transformer MoE + LatentMoE + NVFP4 + マルチ環境同時 RL で推論スループット 3.3 倍 |
## Key Outcomes
- RL スケーリング則が 3 論文(Scaling Behaviors のべき乗則・ScaleRL のシグモイド飽和・IsoCompute の計算最適配分則)で相互検証され、事前学習の Chinchilla 則に対応する RL ポスト訓練初のスケーリング理論が確立した(2026-06-05, Scaling Behaviors / ScaleRL / IsoCompute)
- Agentic RL サーベイが PBRFT(退化 MDP, T=1)と Agentic RL(POMDP, T>1)の形式的境界を確立し、500 本超を能力×タスクの二重タクソノミーで体系化した(2026-06-05, Landscape of Agentic RL)
- GPU クラスタ運用の 3 時点データ(Philly 2019・Acme 2024・Meta RSC 2025)を一括取り込みし、「少数の大規模ジョブが GPU 時間と障害影響を支配する」というクラスタ運用の不変性が定量的に浮かんだ(2026-06-06, Philly / Acme / Meta RSC)
- A100 の弱点が非メモリハードウェアにあり、H100 はメモリが弱点という世代間弱点反転の基準線が確立した(2026-06-06, GPU Resilience A100)
- Kimi K2 が MuonClip + MCP ツール 3,000 超で SWE-bench Verified 65.8%、MiniMax-M2 が Forge エージェントネイティブ RL + 自己進化で Multi-SWE-bench 52.7 を達成し、大規模 MoE の産業実装が成熟段階に入った(2026-06-06, Kimi K2 / MiniMax-M2)
- Cursor Composer 2.5 がターゲット RL と報酬ハッキング事例を産業界で初めて公開し、RL 報酬設計の実務課題を可視化した(2026-06-06, Composer 2.5)
## Cross-entry Themes
- **RL スケーリング法則の収束**: Scaling Behaviors(べき乗則)、ScaleRL(シグモイド飽和の A/B 分離)、IsoCompute(Chinchilla 対応の計算最適配分)が 3 つの相補的視点から RL スケーリングを定式化。Scaling Up RL が 5 ドメイン長期訓練の実践的レシピを提供
- **GPU クラスタ運用の縦断データ**: Philly(2019, LLM 以前)→ Acme(2024, LLM 専用)→ Meta RSC(2025, 研究クラスタ)の 3 時点が「少数大規模ジョブ支配」の不変構造と MTTF の GPU 数反比例を実証
- **MoE モデル産業実装**: Kimi K2(1.04T, MuonClip)・MiniMax-M2(229.9B, シグモイドゲーティング)・Nemotron 3(Mamba-2 ハイブリッド, LatentMoE)が MoE アーキテクチャと RL 訓練の異なる組み合わせで競合
- **エージェント型 RL の実務応用**: AgentRL のマルチタスク汎化、Composer 2.5 のターゲット RL、Kimi K2 の MCP ツール合成が、研究フレームワークから産業コーディングエージェントへの移行を示す
## Contradictions or Corrections
- None detected.
## Child Pages
- [[@2025__arXiv__AgentRL - Scaling RL for Multi-Turn Multi-Task Agents]]
- [[@2026__arXiv__IsoCompute Playbook - Optimally Scaling Sampling Compute for LLM RL]]
- [[@2025__arXiv__Scaling Behaviors of LLM Reinforcement Learning Post-Training]]
- [[@2025__arXiv__The Art of Scaling Reinforcement Learning Compute for LLMs]]
- [[@2025__arXiv__Scaling Up RL - Unlocking Diverse Reasoning in LLMs via Prolonged Training]]
- [[@2025__arXiv__The Landscape of Agentic Reinforcement Learning]]
- [[@2025__PMBS__Pretraining LLMs at Scale - Tuning Strategies and Performance Portability]]
- [[@2019__USENIX ATC__Analysis of Large-Scale Multi-Tenant GPU Clusters for DNN Training Workloads]]
- [[@2025__HPCA__Revisiting Reliability in Large-Scale Machine Learning Research Clusters]]
- [[@2024__USENIX login Online__Understanding Workload Characteristics in Large Language Model Development]]
- [[@2025__DSN-W__Characterizing Modern GPU Resilience and Impact in HPC Systems - A Case Study of A100 GPUs]]
- [[@2026__Cursor__Introducing Composer 2.5]]
- [[@2025__arXiv__Kimi K2 - Open Agentic Intelligence]]
- [[@2026__arXiv__The MiniMax-M2 Series - Mini Activations Unleashing Max Real-World Intelligence]]
- [[@2025__arXiv__Nemotron 3 - Efficient and Open Intelligence]]
## Related
- [[DragonScale Memory]] - fold-operator spec
- [[log]] - source entries
- [[index]] - vault catalog