@2026__arXiv__GLM-5 - From Vibe Coding to Agentic Engineering

# GLM-5: From Vibe Coding to Agentic Engineering > [!abstract] 概要(arXiv アブストラクト日本語訳) > 本論文では GLM-5 を紹介する。これは「バイブコーディング」から「エージェント型エンジニアリング」へのパラダイム転換を目的に設計された次世代基盤モデルである。先代モデルのエージェント能力・推論能力・コーディング能力(ARC)を土台として、GLM-5 は DSA を採用し、長文脈での忠実性を維持しながら訓練・推論コストを大幅に削減する。モデルのアライメントと自律性を向上させるため、生成と訓練を切り離すことでポスト訓練の効率を劇的に改善する新しい非同期強化学習インフラを実装した。さらに、複雑かつ長期的なインタラクションからモデルがより効果的に学習できるようにする新しい非同期エージェント RL アルゴリズムを提案する。これらの革新により、GLM-5 は主要なオープンベンチマークで最先端の性能を達成する。特に重要なのは、GLM-5 がエンドツーエンドのソフトウェアエンジニアリング課題の対応において従来のベースラインを凌駕するという、現実世界のコーディングタスクにおける前例のない能力を示している点である。コード・モデル・詳細情報は https://github.com/zai-org/GLM-5 で公開されている。 ## 論文情報 - **著者**: GLM Team ([[Zhipu AI]] & [[Tsinghua University]])、Core Contributors: Chendi Ge、Chenghua Huang 他 50 名超、Tech Leads: Aohan Zeng、Xin Lv、Zhenyu Hou、Zhengxiao Du、Qinkai Zheng、Bin Chen、Da Yin、Advisors: Jie Tang、[[Yuxiao Dong]]、Juanzi Li 他 - **公開**: arXiv:2602.15763 (v1: 2026-02-21 頃、v2: 2026-02-24) - **分野**: cs.LG - **モデル公開**: https://github.com/zai-org/GLM-5 ## 概要 GLM-5 は [[Zhipu AI]] と [[Tsinghua University]] が共同開発した次世代フラッグシップ MoE モデルである。総パラメータ 744B・活性化パラメータ 40B の規模に達し、事前訓練トークン数は 28.5 兆に及ぶ。先代の GLM-4.5 から引き継いだエージェント型・推論型・コーディング型能力(ARC)を基盤として、(1) DSA によるコスト効率改善、(2) 非同期 RL インフラ、(3) 非同期エージェント RL アルゴリズム、(4) 中国チップエコシステムへの全スタック対応の 4 点が主な技術貢献である。 Artificial Analysis Intelligence Index v4.0 でオープンウェイトモデル初のスコア 50 を達成し、LMArena のテキストアリーナ・コードアリーナの両方で 1 位オープンモデルとなった。 ## 問題設定 GLM-4.5 のリリースで ARC 能力を単一 MoE モデルに統合することに成功した。しかし LLM が受動的な知識リポジトリから能動的な問題解決者へ移行するにつれ、計算コストと現実世界適応性——特に複雑なソフトウェアエンジニアリング——が主要なボトルネックとなった。「バイブコーディング」(人間がプロンプトで AI にコードを書かせる)から「エージェント型エンジニアリング」(AI エージェントが自ら計画・実装・反復する)へのパラダイム転換が目標である。 ## 提案手法 ### アーキテクチャ: DSA + MLA + MTP **モデル規模スケーリング**: GLM-4.5 の 355B から GLM-5 は 744B まで倍増(エキスパート数 160→256、レイヤ数削減で EP 通信オーバーヘッド最小化、活性化パラメータ 32B→40B)。 **Multi-latent Attention (MLA) 改良**: Muon オプティマイザ環境下では標準 MLA が GQA-8 に性能で劣ることが判明。対処として、アップ射影行列 $W^{UQ}$/$W^{UK}$/$W^{UV}$ をヘッド別に分割して行列直交化を適用する **Muon Split** を提案。さらに KV 圧縮次元を 576→256 に下げ(MLA-256)デコード計算を削減。Table 1 より MLA + Muon Split は GQA-8 と同等以上の性能を示す。 **DSA (DeepSeek Sparse Attention)**: 長文脈での $O(L^2)$ 注意を動的なトークン選択機構に置き換える DeepSeek-V3.2 の手法。固定スライディングウィンドウと異なりコンテンツを見て重要トークンを判断する。Dense ベースモデルからの Continued Pre-Training(「dense warm-up → sparse training adaptation」2 段階)で天文学的コストを避ける。DSA は長文脈での注意計算を約 1.5〜2× 削減。Table 3 示すように MLA モデルと長文脈ベンチマークで同等性能を維持。 **MTP パラメータ共有**: 訓練中に 3 つの MTP レイヤのパラメータを共有し、DeepSeek-V3 の 1 MTP レイヤと同等のメモリコストで受け入れ長を 2.55(DeepSeek-V3.2)→2.76(GLM-5)に改善(Table 2)。 ### 効率的注意機構の比較探索 GLM-9B ベースモデルで SWA インターリーブ・Gated DeltaNet(GDN)・探索ベース SWA パターン・SimpleGDN を比較。固定インターリーブ SWA は RULER@128K で −30.35 という壊滅的な劣化。探索ベース SWA パターン(ビームサーチで 16K 最適化し他長に汎化)は劣化を −5.69 に抑制。SimpleGDN は事前訓練重みを最大再利用する線形化戦略。しかし DSA は情報損失のない設計であり、全レイヤ適用でも品質劣化なし(Table 5)。 ### 事前訓練データ - **Web**: DCLM 分類器(文埋め込みベース)でさらなる高品質データを収集。World Knowledge 分類器で長裾知識を補足。 - **コード**: 主要コードホスティングサイトの更新スナップショット、コード含有 Web ページ拡大。あいまいな重複除去済みユニークトークン 28% 増加。 - **数学・科学**: 高品質 PDF パース、LLM スコアリング、チャンク・集約スコアリングで長文書の品質向上。合成・AI 生成データを厳格に除外。全体: 28.5 兆トークン(事前訓練 + ミッドトレーニング合計)。 ### ミッドトレーニング文脈長を 3 段階で拡張: 32K (1T トークン)→128K (500B)→200K (50B)。GLM-4.5 の 128K 最大値から 200K ステージを追加し、超長文書・複雑マルチファイルコードベースへの対応を強化。ソフトウェアエンジニアリングデータ: Issue-PR ペア約 1000 万件、フィルタ後 160B ユニークトークン。 ### 訓練インフラメモリ効率改善として、Flexible MTP placement(最終ステージへの出力レイヤ共配置)・Pipeline ZeRO2 勾配シャーディング・Muon 分散オプティマイザの冗長通信排除・パイプラインアクティベーションオフローディング・出力シーケンスチャンク分割を実装。並列化効率として、重み勾配計算の遅延・長シーケンス訓練のワークロード対応シーケンス並べ替えを採用。INT4 量子化対応訓練(QAT)を SFT 段階で適用。 ### ポスト訓練パイプライン #### SFT 一般チャット・推論・コーディング&エージェントの 3 カテゴリ。**3 種類の思考モード**を導入: - **インターリーブ思考**: ツール呼び出し前に都度思考することで指示追従と生成品質を向上 - **保存思考**: コーディングエージェントシナリオで過去の思考ブロックをマルチターン全体で保持し再推論を回避 - **ターンレベル思考**: セッション内でターン単位に推論の有無を制御最大文脈長 202,752 トークン。 #### 推論 RL GRPO ベースの RL アルゴリズムに IcePop 技法を組み合わせ、訓練分布と推論分布の不一致(training-inference mismatch)を緩和。訓練ポリシー $\pi^{\text{train}}$ と推論ポリシー $\pi^{\text{infer}}$ を明示的に分離。KL 正則化項を除去して RL 改善を加速(式 1 参照)。数学・科学・コード・ツール統合推論(TIR)の 4 ドメインを混合 RL 訓練。 #### エージェント RL(非同期) 訓練エンジンと推論エンジンを異なる GPU デバイスに配置して完全非同期化。推論エンジンはトレジェクトリを継続生成し、閾値到達でバッチを訓練エンジンに送信。**Multi-Task Rollout Orchestrator** が 1000 超の同時ロールアウトをサポート。2 つの安定化機構: (1) **TITO ゲートウェイ**によるトークン ID の完全保持でリトークナイズ不一致を排除、(2) **Direct Double-sided Importance Sampling** で履歴ポリシーチェックポイントを不要にしながらオフポリシーバイアスを制御。**DP 対応ルーティング**により同一ロールアウトの全リクエストを同一 DP ランクに集約し KV キャッシュ再利用率を最大化。 #### 一般 RL 3 次元の最適化目標: 基礎的な正確性・感情知性・タスク固有品質。ルールベース報酬・結果報酬モデル(ORM)・生成型報酬モデル(GRM)のハイブリッド報酬システム。人間専門家の回答を文体・品質アンカーとして導入。 #### クロスステージ蒸留(オンポリシー) 多段 RL パイプラインで先行段の能力が劣化する問題に対し、前ステージのチェックポイントを教師として、教師との対数確率比で優位(advantage)を計算するオンポリシー蒸留を最終段で実施(式 2)。 ### RL インフラ: slime フレームワーク統合ポスト訓練インフラとして slime フレームワークを継続利用。タスクカバレッジのために自由形式ロールアウトカスタマイズと HTTP API ベースのサーバ型ロールアウトを提供。スループット向上のため FP8 ロールアウト・MTP・Prefill-Decode 分離(PD 分離)を活用。ハートビート駆動の障害耐性でロールアウトサーバの健全性を監視し障害を自動迂回。 ### エージェント環境スケーリング **SWE 環境**: 9 つのプログラミング言語にわたる実世界 Issue-PR ペアから 10,000 超の検証可能な実行環境を構築(RepoLaunch フレームワーク)。 **ターミナル環境**: (1) シードデータからの合成(タスク草稿生成→具体化→反復最適化、Docker 構築精度 90% 超)、(2) Web コーパスからの合成(クローズドループでコーディングエージェントが自己検証)。 **検索タスク**: Web 知識グラフ(WKG)の構築・質問生成、3 段階フィルタリングによる高難度・高品質 QA ペア生成。 **コンテキスト管理(BrowseComp)**: Keep-recent-k 戦略(直近 k=5 ラウンド以外の観測を折り畳み)で 55.3%→62.0% に向上。さらに Keep-recent-k と Discard-all を組み合わせた **階層的コンテキスト管理(HCM)** で 75.9% に達する。 ### 中国チップエコシステム対応 Huawei Ascend・Moore Threads・Hygon・Cambricon・Kunlunxin・MetaX・Enflame の 7 プラットフォームに対応。Ascend 事例: W4A8 混合精度量子化(MoE エキスパートは INT4、標準 Attention/MLP は INT8)、Lightning Indexer(スコア計算+ReLU+TopK を単一カーネルに統合)・Sparse Flash Attention・MLAPO(13 小オペレータ融合)を開発。vLLM-Ascend・SGLang を最適化。単一中国ノードでデュアル GPU 国際クラスタ並みの性能を達成し、長文脈シナリオでコストを 50% 削減。 **Figure 3: モデル構成** ![[_attachments/arxiv-2602.15763/fig3-model.png]] (Figure 3. On LMArena, GLM-5 is the #1 open model in both Text Arena and Code Arena に関するモデル構成を示す。) ## 新規性 - 長文脈注意の選択肢を体系的に比較し、DSA がロスレス設計で他手法を凌駕することを実証した初の公開比較研究 - 非同期エージェント RL での TITO ゲートウェイ・Direct Double-sided Importance Sampling・DP 対応ルーティングの組み合わせ - クロスステージ蒸留を最終段として組み込んだ多段 RL パイプライン設計 - MTP パラメータ共有による受け入れ長改善(2.76 対 DeepSeek-V3.2 の 2.55) - 実世界エンジニアリング向け CC-Bench-V2 と多段階チェーンタスク(Chained Tasks)評価の公開 ## 実験設定 - ベースモデル比較: DeepSeek-V3-Base・Kimi-K2-Base・GLM-4.5-Base・GLM-5-Base(Table 11) - 上位モデルとの比較: GLM-4.7・DeepSeek-V3.2・Kimi-K2.5・Claude Opus 4.5・Gemini 3 Pro・GPT-5.2 (xhigh) - 評価スイート: ARC ベンチマーク(推論・コーディング・エージェント系) + CC-Bench-V2(現実世界エンジニアリング) + 実世界一般能力(翻訳・多言語対話・指示追従・世界知識・ツール呼び出し) **Figure 1: データセット** ![[_attachments/arxiv-2602.15763/fig1-dataset.png]] (Figure 1. Results of GLM-5, DeepSeek-V3.2, Claude Opus 4.5, Gemini 3 Pro, and GPT-5.2 (xhigh) on 8 agentic, reasoning, and coding に関する評価データセットを示す。) ## 実験結果 ### ARC ベンチマーク (Table 7) | ベンチマーク | GLM-5 | GLM-4.7 | DeepSeek-V3.2 | Kimi-K2.5 | Claude Opus 4.5 | Gemini 3 Pro | GPT-5.2 (xhigh) | |---|---|---|---|---|---|---|---| | HLE (テキスト) | 30.5 | 24.8 | 25.1 | 31.5 | 28.4 | 37.2 | 35.4 | | HLE (ツールあり) | 50.4 | 42.8 | 40.8 | 51.8 | 43.4* | 45.8* | 45.5* | | SWE-bench Verified | 77.8 | 73.8 | 73.1 | 76.8 | 80.9 | 76.2 | 80.0 | | SWE-bench 多言語 | 73.3 | 66.7 | 70.2 | 73.0 | 77.5 | 65.0 | 72.0 | | BrowseComp (文脈管理あり) | 75.9 | 67.5 | 67.6 | 74.9 | 57.8 | 59.2 | 65.8 | | τ²-Bench | 89.7 | 87.4 | 85.3 | 80.2 | 91.6 | 90.7 | 85.5 | | MCP-Atlas (公開セット) | 67.8 | 52.0 | 62.2 | 63.8 | 65.2 | 66.6 | 68.0 | | Vending-Bench 2 | $4,432 | $2,377 | $1,034 | $1,198 | $4,967 | $5,478 | $3,591 | | GDPval-AA Elo | 1,409 | 1,198 | 1,195 | 1,288 | 1,400 | 1,201 | 1,462 | - Artificial Analysis Intelligence Index v4.0: **スコア 50(オープンウェイト初)**、GLM-4.7 比 +8 ポイント - LMArena テキストアリーナ・コードアリーナ: **オープンモデル 1 位** ### CC-Bench-V2 (Table 8) - フロントエンド HTML CSR: 76.3(GLM-5) 対 64.9(GLM-4.7) 対 82.2(Claude Opus 4.5) - フロントエンド BUILD 成功率: React/Vue/Svelte/Next.js 全て 95〜100%(GLM-5) 対 60〜70%(GLM-4.7) - バックエンド Pass@1: 25.8(GLM-5) 対 19.6(GLM-4.7) 対 26.9(Claude Opus 4.5) - チェーンタスク Pass@1: 52.3(GLM-5) 対 43.0(GLM-4.7) 対 61.6(Claude Opus 4.5) ### SWE-rebench (Table 9) - Resolved Rate 42.1%(GLM-5、SEM ±1.21%)、Claude Opus 4.6 52.9% に次ぐポジション ### ベースモデル (Table 11) - EvalPlus Pass@1: **87.0(GLM-5-Base) 対 80.3(Kimi-K2-Base) 対 65.6(DeepSeek-V3-Base)** - SimpleQA: 36.0 vs 35.3 vs 26.6 - C-Eval: 88.8 vs 92.5 vs 90.1 **Figure 2: 評価結果** ![[_attachments/arxiv-2602.15763/fig2-results.png]] (Figure 2. 評価結果を示す。) **Figure 9: 評価結果** ![[_attachments/arxiv-2602.15763/fig9-results.png]] (Figure 9. 評価結果を示す。) **Figure 4: 評価結果** ![[_attachments/arxiv-2602.15763/fig4-results.png]] (Figure 4. 評価結果を示す。) ## 考察 GLM-5 は「バイブコーディング」のモデルがエージェント型エンジニアリングを自律的に行う段階へ移行できることを実証した。特に DSA の採用は効率と長文脈性能を同時に達成する実践的な手法として価値が高い。非同期 RL インフラは長期エージェントロールアウトの GPU 利用率ボトルネックを解消した。Pony Alpha として匿名でリリースした際にコミュニティがAnthropicやDeepSeekのモデルと誤認したことは、モデル能力に対する地政学的バイアスを乗り越えた一例として注目される。 ## 強み - DSA は他の効率的注意機構(SWA パターン・SimpleGDN 等)に対してロスレス設計という本質的優位性を持つ - 非同期エージェント RL の TITO + Direct Double-sided IS の組み合わせは訓練安定性と計算効率を両立する実用的手法 - オープンウェイトモデルとして Claude Opus 4.5・GPT-5.2 と同等水準を達成した数少ない例 - 中国チップ対応によりクローズドエコシステムへの依存を回避する実証 ## 弱点 - ロングホライズン評価(CC-Bench-V2 チェーンタスク)では Claude Opus 4.5 に 9 ポイント以上の差がある - SWE-rebench での Resolved Rate 42.1% は静的 SWE-bench Verified 77.8% との大きな乖離を示し、過学習の可能性を示唆する - GSM8K や MATH でのベースモデル性能が DeepSeek-V3-Base・Kimi-K2-Base と比べて同等以下であり、純粋な数学推論強化は他モデルに及ばない - モデルアーキテクチャの詳細(正確な Dense レイヤ数: Table 10 では 3 と記載されるが本文では 80 レイヤに 3 Dense レイヤと 75 MoE レイヤの記述があり整合性要確認) ## 関連 - [[Zhipu AI]] / [[Tsinghua University]] / [[Yuxiao Dong]] / [[AutoGLM]] - [[Mixture-of-Experts]] / [[非同期エージェントRL]] / [[DSA]] / [[LLM分散学習]] / [[強化ファインチューニング]] / [[オープンLLM開発]] - [[LLMスケーリング則]] / [[エージェントネイティブ RL]] - 前作: [[AutoGLM]] - GLM ファミリー参照: [[@2022__ACL__GLM - General Language Model Pretraining with Autoregressive Blank Infilling]]