fold-k4-from-2026-06-05-to-2026-06-06-n16

Level-4 fold of 16 log entries spanning 2026-06-05 to 2026-06-06. Dominant themes: RL スケーリング則とエージェント型 RL の体系化、GPU クラスタ運用・信頼性の実証研究、大規模 MoE モデルの産業実装。 ## Child Entries | Date | Op | Title | Page | Summary (extractive) | |---|---|---|---|---| | 2026-06-05 | ingest | AgentRL | [[@2025__arXiv__AgentRL - Scaling RL for Multi-Turn Multi-Task Agents]] | 交差方策サンプリング・タスク別アドバンテージ正規化・完全非同期パイプラインで AgentBench-FC 5 環境平均 70.4% を達成 | | 2026-06-05 | ingest | IsoCompute Playbook | [[@2026__arXiv__IsoCompute Playbook - Optimally Scaling Sampling Compute for LLM RL]] | 約 12 万 H200 時間の実験で LLM RL の計算最適配分則を導出。事前学習の Chinchilla 則に対応する RL 初のスケーリング則 | | 2026-06-05 | ingest | Scaling Behaviors of LLM RL Post-Training | [[@2025__arXiv__Scaling Behaviors of LLM Reinforcement Learning Post-Training]] | Qwen2.5 で 63 モデル超を GRPO 訓練し、RL 事後学習のテスト損失が計算量・データ量に対して対数線形のべき乗則に従うことを初実証 | | 2026-06-05 | ingest | The Art of Scaling RL Compute | [[@2025__arXiv__The Art of Scaling Reinforcement Learning Compute for LLMs]] | 400,000 GPU 時間超でシグモイド型飽和曲線の漸近性能 A と計算効率 B を分離。統合レシピ ScaleRL で 8B A=0.61 | | 2026-06-05 | ingest | Scaling Up RL | [[@2025__arXiv__Scaling Up RL - Unlocking Diverse Reasoning in LLMs via Prolonged Training]] | 1.5B モデルに 5 ドメイン長期 RL を適用。KL 除去時のエントロピー崩壊と多ドメイン統合訓練の汎化を示す | | 2026-06-05 | ingest | Landscape of Agentic RL | [[@2025__arXiv__The Landscape of Agentic Reinforcement Learning]] | PBRFT（退化 MDP, T=1）と Agentic RL（POMDP, T>1）を形式的に区別した初の包括的サーベイ。500 本超を体系化 | | 2026-06-06 | ingest-paper | Pretraining LLMs at Scale | [[@2025__PMBS__Pretraining LLMs at Scale - Tuning Strategies and Performance Portability]] | DeepSpeed/ZeRO/NCCL の既定値を測って外す局所チューニングで既定構成比最大 1.6 倍高速化 | | 2026-06-06 | ingest-paper | Analysis of Multi-Tenant GPU Clusters | [[@2019__USENIX ATC__Analysis of Large-Scale Multi-Tenant GPU Clusters for DNN Training Workloads]] | Philly 75 日・96,260 ジョブのトレースが現代 LLM 分散学習の問題の前史にあたる | | 2026-06-06 | ingest-paper | Revisiting Reliability in ML Clusters | [[@2025__HPCA__Revisiting Reliability in Large-Scale Machine Learning Research Clusters]] | MTTF は GPU 数にほぼ反比例し、10 万 GPU 級では分単位のチェックポイント/再起動が必要条件 | | 2026-06-06 | ingest | Understanding Workload Characteristics in LLM Development | [[@2024__USENIX login Online__Understanding Workload Characteristics in Large Language Model Development]] | LLM 専用クラスタでは評価等の短いジョブが件数を支配し、少数の事前学習ジョブが GPU 時間を支配 | | 2026-06-06 | ingest-paper | Characterizing Modern GPU Resilience (A100) | [[@2025__DSN-W__Characterizing Modern GPU Resilience and Impact in HPC Systems - A Case Study of A100 GPUs]] | A100 の弱点は非メモリハードウェア(GSP・PMU SPI・MMU・NVLink)にあり、H100 との世代間弱点反転の基準線 | | 2026-06-05 | batch-ingest-paper | RL Scaling & Agentic RL 10 論文 | [[@2025__arXiv__The Art of Scaling Reinforcement Learning Compute for LLMs]] | LLM RL スケーリング 4 本 + エージェント型 RL 6 本の一括取り込み。べき乗則とシグモイド飽和の相補性を確立 | | 2026-06-06 | ingest | Cursor Composer 2.5 | [[@2026__Cursor__Introducing Composer 2.5]] | ターゲット RL（軌跡中の特定箇所にテキストヒント挿入）と合成タスク 25 倍拡大で訓練。報酬ハッキングの産業界初公開事例 | | 2026-06-06 | ingest-paper | Kimi K2 | [[@2025__arXiv__Kimi K2 - Open Agentic Intelligence]] | MuonClip で 15.5 兆トークンをロススパイクなしに事前学習。MCP ツール 3,000 超のエージェント型データ合成 + RLVR で SWE-bench Verified 65.8% | | 2026-06-06 | ingest-paper | MiniMax-M2 | [[@2026__arXiv__The MiniMax-M2 Series - Mini Activations Unleashing Max Real-World Intelligence]] | 256 細粒度エキスパート＋シグモイドゲーティング。Forge のエージェントネイティブ RL と 100 ラウンド自己進化で Multi-SWE-bench 52.7 | | 2026-06-06 | ingest-paper | Nemotron 3 | [[@2025__arXiv__Nemotron 3 - Efficient and Open Intelligence]] | Mamba-2–Transformer MoE + LatentMoE + NVFP4 + マルチ環境同時 RL で推論スループット 3.3 倍 | ## Key Outcomes - RL スケーリング則が 3 論文（Scaling Behaviors のべき乗則・ScaleRL のシグモイド飽和・IsoCompute の計算最適配分則）で相互検証され、事前学習の Chinchilla 則に対応する RL ポスト訓練初のスケーリング理論が確立した（2026-06-05, Scaling Behaviors / ScaleRL / IsoCompute） - Agentic RL サーベイが PBRFT（退化 MDP, T=1）と Agentic RL（POMDP, T>1）の形式的境界を確立し、500 本超を能力×タスクの二重タクソノミーで体系化した（2026-06-05, Landscape of Agentic RL） - GPU クラスタ運用の 3 時点データ（Philly 2019・Acme 2024・Meta RSC 2025）を一括取り込みし、「少数の大規模ジョブが GPU 時間と障害影響を支配する」というクラスタ運用の不変性が定量的に浮かんだ（2026-06-06, Philly / Acme / Meta RSC） - A100 の弱点が非メモリハードウェアにあり、H100 はメモリが弱点という世代間弱点反転の基準線が確立した（2026-06-06, GPU Resilience A100） - Kimi K2 が MuonClip + MCP ツール 3,000 超で SWE-bench Verified 65.8%、MiniMax-M2 が Forge エージェントネイティブ RL + 自己進化で Multi-SWE-bench 52.7 を達成し、大規模 MoE の産業実装が成熟段階に入った（2026-06-06, Kimi K2 / MiniMax-M2） - Cursor Composer 2.5 がターゲット RL と報酬ハッキング事例を産業界で初めて公開し、RL 報酬設計の実務課題を可視化した（2026-06-06, Composer 2.5） ## Cross-entry Themes - **RL スケーリング法則の収束**: Scaling Behaviors（べき乗則）、ScaleRL（シグモイド飽和の A/B 分離）、IsoCompute（Chinchilla 対応の計算最適配分）が 3 つの相補的視点から RL スケーリングを定式化。Scaling Up RL が 5 ドメイン長期訓練の実践的レシピを提供 - **GPU クラスタ運用の縦断データ**: Philly（2019, LLM 以前）→ Acme（2024, LLM 専用）→ Meta RSC（2025, 研究クラスタ）の 3 時点が「少数大規模ジョブ支配」の不変構造と MTTF の GPU 数反比例を実証 - **MoE モデル産業実装**: Kimi K2（1.04T, MuonClip）・MiniMax-M2（229.9B, シグモイドゲーティング）・Nemotron 3（Mamba-2 ハイブリッド, LatentMoE）が MoE アーキテクチャと RL 訓練の異なる組み合わせで競合 - **エージェント型 RL の実務応用**: AgentRL のマルチタスク汎化、Composer 2.5 のターゲット RL、Kimi K2 の MCP ツール合成が、研究フレームワークから産業コーディングエージェントへの移行を示す ## Contradictions or Corrections - None detected. ## Child Pages - [[@2025__arXiv__AgentRL - Scaling RL for Multi-Turn Multi-Task Agents]] - [[@2026__arXiv__IsoCompute Playbook - Optimally Scaling Sampling Compute for LLM RL]] - [[@2025__arXiv__Scaling Behaviors of LLM Reinforcement Learning Post-Training]] - [[@2025__arXiv__The Art of Scaling Reinforcement Learning Compute for LLMs]] - [[@2025__arXiv__Scaling Up RL - Unlocking Diverse Reasoning in LLMs via Prolonged Training]] - [[@2025__arXiv__The Landscape of Agentic Reinforcement Learning]] - [[@2025__PMBS__Pretraining LLMs at Scale - Tuning Strategies and Performance Portability]] - [[@2019__USENIX ATC__Analysis of Large-Scale Multi-Tenant GPU Clusters for DNN Training Workloads]] - [[@2025__HPCA__Revisiting Reliability in Large-Scale Machine Learning Research Clusters]] - [[@2024__USENIX login Online__Understanding Workload Characteristics in Large Language Model Development]] - [[@2025__DSN-W__Characterizing Modern GPU Resilience and Impact in HPC Systems - A Case Study of A100 GPUs]] - [[@2026__Cursor__Introducing Composer 2.5]] - [[@2025__arXiv__Kimi K2 - Open Agentic Intelligence]] - [[@2026__arXiv__The MiniMax-M2 Series - Mini Activations Unleashing Max Real-World Intelligence]] - [[@2025__arXiv__Nemotron 3 - Efficient and Open Intelligence]] ## Related - [[DragonScale Memory]] - fold-operator spec - [[log]] - source entries - [[index]] - vault catalog