テスト時計算スケーリング - yuuk1's Digital Garden

# テスト時計算スケーリング ## 定義テスト時計算スケーリング(test-time compute scaling)は、推論時に生成する思考トークンの長さ(計算量)を伸ばすことでモデル性能を向上させるスケーリング次元である。事前学習時のパラメータ数・データ量・計算量のスケーリング(Kaplan+ 2020、Hoffmann+ 2022)や RL 事後学習の訓練計算量スケーリング([[強化学習スケーリング]])とは独立した第三のスケーリング軸として位置づけられる。OpenAI o1 や DeepSeek-R1 が大規模 RL で思考連鎖(CoT)を延伸し、AIME・競技プログラミング等の複雑なタスクで顕著な性能向上を示したことで注目された。(Source: [[@2025__arXiv__MiniMax-M1 - Scaling Test-Time Compute Efficiently with Lightning Attention]] §1) ソフトマックスアテンションの二次計算量は、テスト時計算の連続的な延伸を阻む根本的なボトルネックとなる。[[MiniMax-M1]] はライトニングアテンション(線形アテンション)を 7:1 のハイブリッド比で導入し、100K トークン生成時の FLOPS を DeepSeek R1 比 25% に削減するとともに、100 万トークンのネイティブコンテキストで長入力+長思考の複合シナリオに対応した。(Source: 同上 §1, Figure 1) ## 横断的知見 - **テスト時計算スケーリングの効率は、アテンション設計によって根本的に左右される**: MiniMax-M1 はハイブリッドアテンション(ライトニング 7:ソフトマックス 1)により 100K トークン生成時の FLOPS を DeepSeek R1 の 25% に削減したのに対し、DeepSeek-R1 や Qwen3-235B はソフトマックスアテンションの二次計算量のまま出力長上限を 32K〜64K に制限している。MiniMax-M1-80k が AIME 2024 で 83.3%(40k)→86.0%(80k)と思考予算延伸で改善を示す一方、数学・コーディングの絶対性能ではソフトマックスベースの DeepSeek-R1-0528 に劣る場面がある。これは「効率的にスケールできること」と「同じ思考予算内での推論品質」が独立した軸であることを示唆する。(Source: [[@2025__arXiv__MiniMax-M1 - Scaling Test-Time Compute Efficiently with Lightning Attention]], Table 2) - **テスト時計算スケーリングと RL 訓練計算スケーリングは連動する**: MiniMax-M1 の RL 訓練効率は推論時と同じライトニングアテンションの近線形スケーリングの恩恵を受ける(ロールアウト生成がボトルネック)。さらに [[CISPO]] が DAPO 比 2 倍のステップ効率を達成し、アーキテクチャ効率とアルゴリズム効率の乗算的な効果で RL 全体を 512 GPU・3 週間・53.4 万ドルに収めた。[[強化学習スケーリング]] の知見(ScaleRL のシグモイドフレームワーク)と合わせると、テスト時計算の「天井」(漸近性能 A)と RL 訓練計算の「天井」は独立にスケールする可能性がある。(Source: [[@2025__arXiv__MiniMax-M1 - Scaling Test-Time Compute Efficiently with Lightning Attention]], [[@2025__arXiv__The Art of Scaling Reinforcement Learning Compute for LLMs]]) - **RL のみの訓練で CoT 長が自律的にタスク難易度に適応し、テスト時計算の動的配分が創発する**: [[DeepSeek-R1-Zero]] は SFT なしの純粋 RL で訓練中に応答長が自然に増加し、最終的にタスク難易度に応じて 7K〜18K+ の思考トークンを適応的に生成する挙動を獲得した。GPT-4o が AIME 2024 で平均 711 出力トークンにとどまるのに対し、DeepSeek-R1 は約 8,793 トークンの長い CoT を生成して pass@1 79.8%(GPT-4o: 9.3%)を達成する。MiniMax-M1 が「外部から思考予算を明示的に設定する」アプローチを取るのに対し、DeepSeek-R1 は RL を通じてモデルが内発的に計算量を調節する能力を獲得した点が対照的である。ただし簡単な問題に対する過剰思考(overthinking)が課題として残り、計算の効率的配分は完全には解決されていない。(Source: [[@2025__arXiv__DeepSeek-R1 - Incentivizing Reasoning Capability in LLMs via Reinforcement Learning]] §3, Figure 3, Figure 18) - **多数決投票(majority voting)は長い CoT と相補的にテスト時計算を活用し、追加の推論品質向上をもたらす**: DeepSeek-R1 は AIME 2024 で pass@1 79.8% に対し cons@64 86.7% を達成し、R1-Zero でも pass@1 77.9% → cons@16 86.7% と顕著な改善を示す。MiniMax-M1 が思考予算の延伸(40K→80K)で 83.3%→86.0% を達成するのと比較すると、DeepSeek-R1 は「1 回の推論をより長く考える」方向ではなく「複数回の推論を統合する」方向でテスト時計算を追加投入している。両者は直交するテスト時計算スケーリングの次元であり、それぞれの限界効用の交差点(長い CoT + 多数決の最適配分)は未探索である。(Source: [[@2025__arXiv__DeepSeek-R1 - Incentivizing Reasoning Capability in LLMs via Reinforcement Learning]] Table 3, [[@2025__arXiv__MiniMax-M1 - Scaling Test-Time Compute Efficiently with Lightning Attention]] Table 2) - **テスト時計算スケーリングは「思考トークン長を伸ばす」だけでなく「エージェント協調呼び出し数を増やす」という別軸でも実現できる**: Conductor-Recursive（Nielsen et al., ICLR 2026）は、Conductor自身をworker LLMとして再帰的に呼び出すことを許可し、再帰呼び出し数を推論時に調整するだけで性能が向上する（BigCodeBench: 37.8%→40.0%）。これは「1回の長い思考」（DeepSeek-R1・MiniMax-M1型）とは異なる「複数回の協調思考」スケーリング軸であり、協調回数に対して収益逓減がいつ現れるかは未探索。(Source: [[@2026__ICLR__Learning to Orchestrate Agents in Natural Language with the Conductor]] §3.2・Table 2) ## 未解決の問い - テスト時計算の延伸は無条件に性能を改善するのか、あるいはタスク種別によって飽和点が異なるのか。MiniMax-M1 は 40K→80K で数学・コードが改善する一方、TAU-bench(retail) では 80k が 40k に劣る(67.8%→63.5%)。長い思考が有害になるタスクの特徴づけは未着手。 - ソフトマックスアテンションブロックの混入比率(MiniMax-M1 では 1:7)が推論品質にどう影響するか。比率を下げると FLOPS 効率はさらに上がるが、ソフトマックスアテンションが提供する「精密な注意」が不足する可能性がある。最適比率の系統的探索は報告されていない。 - ハイブリッドアテンションモデルの計算精度不一致(訓練と推論のトークン確率乖離)は MiniMax-M1 固有の問題か、線形アテンションを含む全てのハイブリッド設計に共通する構造的問題か。Hunyuan-T1(Mamba ベース)が詳細を非公開としているため、アーキテクチャ横断の比較は不可能。 - テスト時計算スケーリングの効率改善は RL 訓練コストの削減に直結するが、RL で獲得した推論スキルがアーキテクチャに依存する(ハイブリッドアテンションモデルでは省察トークンのクリッピング問題が CISPO を必要とした)。アーキテクチャと RL アルゴリズムの最適な組み合わせを探索する統一フレームワークは存在しない。 - 「思考トークン延伸」「多数決投票」「エージェント再帰協調」の3スケーリング軸が相補的か競合的かは未検討。再帰的Conductorが内部で長い思考を生成する場合、2軸を同時に使うことになるが、コスト対性能の最適配分は未探索。(Source: [[@2026__ICLR__Learning to Orchestrate Agents in Natural Language with the Conductor]] §3.2) ## 関連 - ソース: [[@2025__arXiv__MiniMax-M1 - Scaling Test-Time Compute Efficiently with Lightning Attention]] / [[@2025__arXiv__DeepSeek-R1 - Incentivizing Reasoning Capability in LLMs via Reinforcement Learning]] / [[@2026__ICLR__Learning to Orchestrate Agents in Natural Language with the Conductor]] - 概念: [[強化学習スケーリング]] / [[強化ファインチューニング]] / [[LLM推論]] / [[Mixture-of-Experts]] / [[マルチエージェント協調]] - エンティティ: [[MiniMax-M1]] / [[CISPO]] / [[Lightning Attention]] / [[MiniMax]] / [[GRPO]] / [[DeepSeek-R1]] / [[DeepSeek-R1-Zero]] / [[DeepSeek-AI]] / [[Sakana AI]] ## 出典 - [[@2025__arXiv__MiniMax-M1 - Scaling Test-Time Compute Efficiently with Lightning Attention]]（§1 Introduction, §3 Efficient RL Scaling, §5 Extending RL Scaling to Longer Thinking, §6 Evaluations, Figure 1） - [[@2025__arXiv__DeepSeek-R1 - Incentivizing Reasoning Capability in LLMs via Reinforcement Learning]]（§3 DeepSeek-R1-Zero: CoT 長の自律的適応と overthinking、Figure 3・Figure 18、§4 実験結果: pass@1 vs cons@64 の多数決投票効果、Table 3） - [[@2026__ICLR__Learning to Orchestrate Agents in Natural Language with the Conductor]]（§3.2 再帰的トポロジー・Table 2 再帰スケーリング結果）