@2025__arXiv__GLM-4.5 - Agentic Reasoning and Coding Foundation Models

# GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models > [!abstract] 概要 > GLM-4.5 を発表する。これは総パラメータ 355B・活性化パラメータ 32B のオープンソース Mixture-of-Experts（MoE）大規模言語モデルであり、思考モードと直接応答モードの両方を支援するハイブリッド推論方式を特徴とする。23T トークンでの多段階学習と、エキスパートモデル反復および強化学習を組み合わせた包括的な事後学習を経て、GLM-4.5 はエージェント（Agentic）・推論（Reasoning）・コーディング（Coding）の ARC タスク全般にわたって強力な性能を達成する。TAU-Bench で 70.1%、AIME 24 で 91.0%、SWE-bench Verified で 64.2% を記録する。競合モデルより大幅に少ないパラメータで、評価対象の全モデル中 3 位、エージェントベンチマークでは 2 位にランクされる。推論およびエージェント型 AI システムの研究を促進するため、GLM-4.5（355B パラメータ）とコンパクト版 GLM-4.5-Air（106B パラメータ）の両方を公開する。コード、モデル、詳細情報は https://github.com/zai-org/GLM-4.5 で入手できる。 ## 論文情報 - **著者**: GLM-4.5 Team（[[Zhipu AI]] & [[Tsinghua University]]）、コアコントリビュータ 22 名・コントリビュータ 100 名超 - **テックリード**: Aohan Zeng、Xin Lv、Qinkai Zheng、Zhenyu Hou - **アドバイザー**: Jie Tang、Yuxiao Dong、Juanzi Li、Hongning Wang ほか - **公開**: arXiv:2508.06471v1 (2025-08-08) - **分野**: cs.CL - **コード・モデル**: https://github.com/zai-org/GLM-4.5 / https://huggingface.co/zai-org/GLM-4.5 - **評価ツールキット**: https://github.com/zai-org/glm-simple-evals ## 概要 GLM-4.5 は Zhipu AI と清華大学が共同開発したオープンソースの MoE 基盤モデルである。ARC——エージェント能力・複雑推論・高度なコーディング——を単一モデルで統合することを目標とし、355B/32B（総/活性化）パラメータの設計と 23T トークンの多段階事前学習、エキスパートモデル反復による事後学習を採用する。思考モードと非思考モードを切り替えられるハイブリッド推論設計が特徴である。コンパクト版 GLM-4.5-Air（106B 総・12B 活性化）は 100B 規模モデルとして Qwen3-235B-A22B や MiniMax-M1 と同等以上の性能を達成する。 ## 問題設定 LLM が実世界で生産性を高め複雑な専門タスクを解くには、(1) 外部ツールと現実世界とやりとりするエージェント能力、(2) 数学・科学における多段階問題解決のための複雑推論、(3) 実世界のソフトウェア工学タスクに対処する高度なコーディングという 3 つの核心能力が必要である。OpenAI の o1/o3 や Anthropic の Claude Sonnet 4 などのプロプライエタリモデルが特定の ARC 領域で卓越した性能を示しているのに対し、すべての領域で際立つオープンソースモデルは存在しなかった。 **Figure 4: 事例** ![[_attachments/arxiv-2508.06471/fig4-case-study.png]] (Figure 4. One example of function call template に関する事例を示す。) ## 提案手法 ### アーキテクチャ GLM-4.5 は MoE アーキテクチャを採用し、学習と推論の計算効率を向上させる。補助損失なし負荷分散ルーティング（loss-free balance routing）とシグモイドゲーティングを MoE 層に採用する。DeepSeek-V3 や Kimi K2 とは異なり、**幅（隠れ次元とエキスパート数）を抑えて深さ（層数）を増やす**設計を採択した。実験により、深いモデルが優れた推論能力を示すことが判明した。 | 仕様 | GLM-4.5 | GLM-4.5-Air | DeepSeek-V3 | Kimi K2 | |---|---|---|---|---| | 総パラメータ | 355B | 106B | 671B | 1043B | | 活性化パラメータ | 32B | 12B | 37B | 32B | | 密層数 | 3 | 1 | 3 | 1 | | MoE 層数 | 89 | 45 | 58 | 60 | | MTP 層数 | 1 | 1 | 1 | 0 | | 隠れ次元 | 5120 | 4096 | 7168 | 7168 | | アテンションヘッド数 | 96 | 96 | 128 | 64 | | KV ヘッド数 | 8 | 8 | 128 | 64 | | 総エキスパート数 | 160 | 128 | 256 | 384 | | トークンあたり活性化エキスパート | 8 | 8 | 8 | 8 | | 共有エキスパート数 | 1 | 1 | 1 | 1 | | QK-Norm | あり | なし | なし | なし | 注目点: - GQA（Grouped-Query Attention）と部分的 RoPE を採用 - 5120 次元に対してアテンションヘッド 96 個（2.5 倍多い設計）——訓練損失を改善しないが MMLU・BBH 等の推論ベンチマークを一貫して向上 - QK-Norm でアテンションロジットの範囲を安定化 - MTP（マルチトークン予測）層を MoE 層として追加し、推論時の投機的デコーディングを支援 ### 事前学習データ（23T トークン）ウェブページ・ソーシャルメディア・書籍・論文・コードリポジトリを含む。 - **ウェブ**: クロールページを品質スコアのバケットに分類し、高品質バケットをアップサンプリング（最高品質バケットは事前学習中 3.2 エポック超）。MinHash 重複排除に加えて SemDedup（文書埋め込みベースの意味的重複排除）を適用 - **多言語**: クロールページと Fineweb-2 からの多言語文書。教育的有用性を判定する品質分類器でアップサンプリング - **コード**: GitHub 等から収集。言語別品質モデルで 3 段階（高・中・低）に分類し、高品質をアップサンプリング。FIM（Fill-In-the-Middle）訓練目的関数を全ソースコードに適用 - **数学・科学**: ウェブ・書籍・論文から収集。LLM によるスコアリング + 小規模分類器でアップサンプリング ### 中間学習（Mid-Training）: 推論とエージェント能力の強化事前学習後、領域特化の中規模データセットを用いた多段階中間学習を実施（図 3）。 1. **リポジトリレベルコード学習**: 同一リポジトリのコードファイルを連結してクロスファイル依存を学習。GitHub のイシュー・PR・コミットをモデルでフィルタリングして追加。シーケンス長を 4K→32K に拡張（500B トークン） 2. **合成推論データ学習**: 数学・科学・コーディングコンペ向けの合成推論コンテンツを追加。ウェブ・書籍から大量の問答を収集し、推論モデルで推論プロセスを合成（500B トークン） 3. **長文脈・エージェント学習**: シーケンス長を 32K→128K に拡張し、長文書をアップサンプリング。大規模な合成エージェント軌跡を追加（100B トークン）事前学習では最大シーケンス長 4,096 で BestFit パッキングを不使用（ランダム切り捨てがデータ拡張として機能）。中間学習ではトランケーションを避けるため BestFit パッキングを適用。 ### ハイパーパラメータ - **オプティマイザ**: Muon（単語埋め込み・バイアス・RMSNorm 重み以外の全パラメータ）。Newton-Schulz 反復ステップ数 N=5、モメンタム μ=0.95、更新 RMS を 0.2 にスケール - **学習率**: コサイン減衰スケジュール（0→2.5e-4→2.5e-5）。WSD スケジュールは一般ベンチマーク（SimpleQA・MMLU）での未フィットが確認されたため不採用 - **バッチサイズ**: 最初の 500B トークンで 16M→64M トークンへウォームアップ - **重み減衰**: 0.1（ドロップアウトなし） - **MoE 負荷分散**: 補助損失なし。バイアス更新率を最初の 15T トークンは 0.001、残りは 0.0 に設定。シーケンスレベルの補助バランス損失（重み 0.0001）で極端な不均衡を回避 - **MTP 損失重み**: 最初の 15T トークンは 0.3、残りは 0.1 ### 事後学習: エキスパートモデル反復事後学習を 2 段階に分けることが本手法の核心である。 **第 1 段階（エキスパート訓練）**: 推論・エージェント・一般チャットの 3 ドメインに特化したエキスパートモデルを構築。 **第 2 段階（統合訓練）**: 自己蒸留でエキスパートを統合し、思考モードと直接応答モードの双方で応答を生成できる汎用モデルを作る。 #### 教師あり微調整（SFT） - **コールドスタート SFT**: 拡張 CoT 応答の小規模 SFT データで、各エキスパートモデルに RL 前の基礎能力を付与 - **全体 SFT**: エキスパートモデルの出力から数百万サンプル（推論・一般チャット・エージェントタスク・長文脈理解）を収集し、ベースモデルを 128K トークンの最大文脈長で訓練。長い CoT 推論データとコンパクトな応答データを均衡させ、ハイブリッド推論モデルを実現 - **関数呼び出しテンプレートの改善**: JSON 形式の関数パラメータにコードが含まれる場合のエスケープ文字問題を、XML ライクな特殊トークンタグでパラメータをカプセル化することで解決 - **棄却サンプリング**: 繰り返し・過度に短い・切り捨てサンプルを除去。客観的な答えのあるサンプルの正確性を検証。ツール呼び出しシナリオでは適切なツール起動プロトコルと期待される終端状態への到達を検証 - **困難プロンプト選択と応答スケーリング**: 応答長下位 50% のプロンプトを除去すると数学・科学タスクで 2〜4% 向上。困難プロンプトに対して 4 つの応答を生成するとさらに 1〜2% 向上 #### 推論 RL GRPO フレームワーク（KL 損失なし）を基盤とする。数学・コード生成・科学推論の領域を対象とする。 - **難易度ベースカリキュラム学習**: 2 段階のカリキュラムを採用。第 1 段階は中程度の難易度、第 2 段階は極めて困難なデータ（pass@8=0 かつ pass@512>0）に切り替え。AIME 24 Avg@32 で 81.8%→83.4% に到達 - **64K 出力長での単一段階 RL**: 段階的に最大出力長を増やす多段階アプローチは単一段階 64K RL より性能が低い。SFT でモデルを 64K 長応答に条件付けした後に短い RL 段を導入すると、長文脈能力の「逆学習」が起きることが要因 - **動的サンプリング温度**: ロールアウト報酬が安定化したら収束フェーズとみなし、温度を上げて探索を促進。1% 超の性能低下を起こさない最大温度を検証セットで定期評価 - **コードと科学の RL**: コード RL ではトークン重み付き平均損失（シーケンス平均より高速収束・長さバイアス軽減）。科学 RL では専門家検証済みの選択問題のみの使用が混合品質データより大幅に優れる #### エージェント RL ウェブ検索とコード生成エージェントに注力。自動検証可能な成果が密な報酬信号を提供する。 - **データ収集・合成**: ウェブ検索タスクには知識グラフ上のマルチホップ推論パイプラインと人間参加型の抽出・難読化を組み合わせたデータ合成。ソフトウェア工学タスクには GitHub の PR・イシューから実行可能な単体テスト付きベンチマークを構築 - **RL アルゴリズム**: グループ単位の方策最適化。ウェブ検索はトレース全体に最終回答の正確性を報酬として付与。コーディングエージェントは SWE データの検証可能テストケースを主に使用 - **プロセス形式ペナルティ**: ツール呼び出し形式が正しくない場合はトレースを停止してゼロ報酬を付与 - **反復蒸留**: RL 訓練でエージェント性能を向上させたら、RL 訓練済みモデルの応答でコールドスタートデータを置換し、より良い SFT モデルを作成。このモデルに難易度を上げた RL 訓練を続ける反復戦略 - **インタラクションターン数によるテスト時計算スケーリング**: インタラクションターン数増加（8→128、対数スケール）に比例して BrowseComp 精度が滑らかに向上 #### 一般 RL - **全体的 RL（Holistic RL）**: 7 主カテゴリ・33 副カテゴリ・139 三次カテゴリにわたる約 5,000 プロンプトの均衡データセット。人間フィードバック（報酬モデル）と AI フィードバック（スコアリングルーブリック）を統合 - **指示追従 RL**: 7 主・151 副制約タイプの細粒度タクソノミーを作成。確定的検証ルール・訓練済み報酬モデル・批判モデルのハイブリッドフィードバックシステムで報酬ハッキングを緩和 - **関数呼び出し RL**: ステップ単位のルールベース RL（一般 RL フレームワークに統合）とエンドツーエンドのマルチターン RL（専門エキスパートを先に訓練して蒸留）の 2 種 - **病理RL（Pathology RL）**: 言語混合・過度な繰り返し・フォーマットミスなどの問題行動を引き起こしやすいプロンプトを絞り込み効率的にペナルティを付与 #### RL インフラストラクチャ（Slime） Slime（https://github.com/THUDM/slime）を基盤とするオープンソースフレームワーク。 - **ハイブリッド訓練アーキテクチャ**: 同位（colocated）同期モードと分離（disaggregated）非同期モードの両方をサポート。推論能力向上タスクには同位モード、SWE 等の長いエージェントタスクには非同期モードを使用 - **混合精度推論によるロールアウト高速化**: 訓練は BF16、ロールアウト推論は FP8。各方策更新反復でオンラインのブロック単位 FP8 量子化を実施 - **エージェント指向 RL インフラ**: Dockerベースの高並行ランタイムでタスクごとに隔離環境を提供。GPU を専用ロールアウトエンジンと訓練エンジンに分割（Ray フレームワーク）。統一 HTTP エンドポイントインターフェイスとデータプールで異種エージェントフレームワークを統合 **Figure 1: モデル構成** ![[_attachments/arxiv-2508.06471/fig1-model.png]] (Figure 1. Average performance on agentic, reasoning, and coding (ARC) benchmarks. Overall, GLM-4.5 achieves a rank of 3rd, に関するモデル構成を示す。) **Figure 2: モデル構成** ![[_attachments/arxiv-2508.06471/fig2-model.png]] (Figure 2. SWE-bench verified scores vs model parameters. Proprietary models are listed as unknown at the right side に関するモデル構成を示す。) **Figure 3: 図** ![[_attachments/arxiv-2508.06471/fig3-figure.png]] (Figure 3. Pre-training and mid-training stages for GLM-4.5. We adapt a multi-stage training recipe and extend the sequence length を示す。) ## 新規性 1. **深さ優先 MoE 設計**: DeepSeek-V3 や Kimi K2 が幅（エキスパート数・隠れ次元）を重視するのに対し、幅を絞って深さ（層数 89 層）を増やすことで推論能力を向上させた 2. **エキスパートモデル反復後訓練**: 3 ドメインのエキスパートモデルを構築し自己蒸留で統合するという 2 段階事後学習パイプライン——思考モードと非思考モードのハイブリッド推論モデルを実現 3. **単一段階 64K RL**: 段階的に出力長を増やす多段階 RL が逆効果となることを実証し、最大出力長での単一段階 RL を提唱 4. **エージェント RL の反復蒸留**: RL 訓練済みモデルの出力で SFT コールドスタートデータを反復更新することで、エージェント性能の上限を効率的に引き上げる ## 実験設定 - **ベースモデル比較対象**: Qwen3-235B-A22B Base、Llama4-Maverick 400B Base、DeepSeek-V3 Base、Kimi-K2 Base - **チャットモデル比較対象**: OpenAI o3・o4-mini、Claude Opus 4・Sonnet 4、Gemini 2.5 Pro、DeepSeek-R1-0528、Qwen3-235B-2507、Grok 4、GPT-4.1、Kimi K2 - **主要ベンチマーク**: TAU-Bench（小売・航空）、BFCL v3、BrowseComp、MMLU-Pro、AIME 24（Avg@32）、MATH-500、SciCode、GPQA（Avg@8）、HLE、LiveCodeBench（2407-2501）、SWE-bench Verified、Terminal-Bench - **評価コード**: https://github.com/zai-org/glm-simple-evals（オープンソース） ## 実験結果 ### ベースモデル評価（表 2） GLM-4.5-Base は 355B 総パラメータで 671B の DeepSeek-V3 Base と同等以上の性能を英語・コード・数学・中国語全般にわたって示す。SimpleQA（30.0）、EvalPlus（78.1）、LiveCodeBench-Base（28.1）で Kimi K2 Base と比較。 ### エージェントベンチマーク（表 3） | ベンチマーク | GLM-4.5 | GLM-4.5-Air | o3 | Claude Sonnet 4 | Kimi K2 | |---|---|---|---|---|---| | TAU-Retail | 79.7 | 77.9 | 70.4 | 80.5 | 76.5 | | TAU-Airline | 60.4 | 60.8 | 52.0 | 60.0 | 58.4 | | BFCL V3 | **77.8** | 76.4 | 72.4 | 75.2 | 66.2 | | BrowseComp | 26.4 | 21.3 | **49.7** | 14.7 | 32.6 | | 平均 | **58.1** | 55.7 | 61.1 | 53.4 | 55.4 | ### 推論ベンチマーク（表 4） | ベンチマーク | GLM-4.5 | o3 | Claude Opus 4 | DeepSeek-R1-0528 | Grok 4 | |---|---|---|---|---|---| | AIME 24 | 91.0 | 90.3 | 75.7 | 89.3 | **94.3** | | MATH 500 | 98.2 | **99.2** | 98.2 | 98.3 | 99.0 | | GPQA | 79.1 | **82.7** | 79.6 | 81.3 | 87.7 | | HLE | 14.4 | **20.0** | 11.7 | 14.9 | 23.9 | | LCB | 72.9 | **78.4** | 63.6 | 77.0 | 81.9 | | AA-Index（推定）| 67.7 | 70.0 | 64.4 | 68.3 | **73.2** | ### コーディングベンチマーク（表 5） | ベンチマーク | GLM-4.5 | Claude Sonnet 4 | Kimi K2 | DeepSeek-R1-0528 | |---|---|---|---|---| | SWE-bench Verified | 64.2 | **70.4** | 65.4 | 41.4 | | Terminal-Bench | **37.5** | 35.5 | 25.0 | 17.5 | | 平均 | **50.9** | 53.0 | 45.2 | 29.5 | ### 実世界評価（CC-Bench） Anthropic の Claude Code 上に構築した CC-Bench（52 タスク）での頭対頭評価: - GLM-4.5 対 Claude Sonnet 4: 40.4% 勝・9.6% 引き分け・50.0% 負 - GLM-4.5 対 Kimi K2: 53.9% 勝・17.3% 引き分け・28.8% 負 - GLM-4.5 対 Qwen3-Coder: 80.8% 勝・7.7% 引き分け・11.5% 負 - ツール呼び出し成功率: GLM-4.5 90.6%（最高）、Claude Sonnet 4 89.5%、Kimi K2 86.2% ### 安全性（SafetyBench） SafetyBench 全体スコア 89.87（Kimi K2 の 90.48・GPT-4.1 の 89.71 と同水準）。倫理・道徳（94.33）、精神的健康（94.67）、身体的健康（96.67）は高スコア。不公平・偏見（77.4）に改善の余地。 ### 人間評価英語・中国語・多言語の 660 プロンプトでの人間評価（GLM-4.5 vs DeepSeek-R1-0528 vs Kimi K2）: - 英語全体スコア: GLM-4.5 8.66 / DeepSeek-R1-0528 8.62 / Kimi K2 8.13 - 中国語全体スコア: GLM-4.5 8.37 / DeepSeek-R1-0528 8.05 / Kimi K2 7.03 - 多言語全体スコア: GLM-4.5 8.49 / DeepSeek-R1-0528 8.27 / Kimi K2 6.63 **Table 1: アーキテクチャ** ![[_attachments/arxiv-2508.06471/table1-architecture.png]] (Table 1. GLM-4.5 and GLM-4.5-Air. When counting parameters, for GLM-4.5 and GLM-4.5-Air, we include the parameters of MTP layers のアーキテクチャを示す。) ## 考察 GLM-4.5 の重要な設計選択と示唆: 1. **深さ優先設計の推論優位性**: アテンションヘッド数 96（5120 次元比で 2.5 倍多い）は訓練損失を改善しないが推論ベンチマークを一貫して向上させる反直感的な知見。幅を絞って深さを増やす設計が推論に有利である可能性を示す 2. **単一段階 64K RL の有効性**: SFT で長文脈生成能力を付与した後の段階的 RL は逆効果——短い RL 段が長文脈能力を「逆学習」させる。初めから目標出力長で RL を行うことが最終性能を最大化する 3. **エージェントタスクでのテスト時スケーリング**: 推論モデルの出力トークン数スケーリングとは異なり、エージェントタスクでは環境とのインタラクションターン数が自然なテスト時計算量スケーリング軸となる 4. **パラメータ効率**: DeepSeek-R1（671B）の半分、Kimi K2（1043B）の 1/3 のパラメータで全体 3 位（エージェントでは 2 位）。コーディングでは Claude Sonnet 4 に最も近い競合 ## 強み - 355B 総・32B 活性化という優れたパラメータ効率でオープンソース全体 3 位 - ハイブリッド推論モード（思考/非思考の切り替え）を単一モデルで実現 - エキスパートモデル反復・反復蒸留という体系的な事後学習パイプライン - Slime RL インフラのオープンソース化による再現性への貢献 - 英語・中国語・多言語の人間評価でも高品質な実世界性能を実証 ## 弱点 - AIME 24（91.0%）は Grok 4（94.3%）・Qwen3-235B-2507（94.1%）に及ばない - BrowseComp でのウェブブラウジングエージェント性能（26.4%）は o3（49.7%）に大きく劣る - HLE（14.4%）はフロンティアモデルと差が大きい（Grok 4: 23.9%） - 安全性評価で不公平・偏見カテゴリ（77.4）が他カテゴリより低い - GPU 数や総計算量（FLOPS）が非公開