MiniMax-Text-01 - yuuk1's Digital Garden

# MiniMax-Text-01 [[MiniMax]] が開発した大規模言語モデル(MiniMax et al., 2025)。ハイブリッドアテンション(TransNormer ブロック + ソフトマックスアテンション)と [[Mixture-of-Experts]] アーキテクチャを持ち、[[MiniMax-M1]] のベースモデルとなる。456B 総パラメータ・45.9B アクティベーション・32 エキスパートという構成は MiniMax-M1 と同一。MiniMax-M1 はこのモデルを 7.5T トークンで継続事前学習し、SFT と RL を経て推論モデルへ発展させた。 ## 出典 - [[@2025__arXiv__MiniMax-M1 - Scaling Test-Time Compute Efficiently with Lightning Attention]]