# Rethinking Pretraining: Data and Architecture
> [!info] Talk metadata
> - **会議:** [[MLSys2026]] Day 4 (May 21 / Thu)、Grand Ballroom 1、10:30 - 11:30 PDT
> - **登壇者:** Luke Zettlemoyer(University of Washington, Paul G. Allen School 教授/Meta シニアリサーチディレクター。研究は NLP・機械学習・不確実性下の意思決定。本講演の研究は UW・Meta・Allen Institute (AI2) の共同)
> - **URL:** https://mlsys.org/virtual/2026/invited-talk/3706
> - **関連研究:** LIMA, ALMA, s1(データ効率の良い post-training)/BLT(Byte Latent Transformer, tokenizer-free)/FlexOlmo・Branch-Train-Merge 系(分散・モジュラー学習)。コード・モデルは公開と述べた。
> [!abstract] 概要(MLSys サイト)
> 大規模言語モデルの学習は「トークナイズ → 事前学習 → (場合により mid-training)→ post-training/アラインメント」という標準パイプラインに従う。しかしこの過程について我々が理解していることは乏しく、改善の機会を取りこぼしている。本講演は 3 つの領域を扱う。(1) データ効率の良い post-training 研究(LIMA, ALMA, s1)— 「高度なモデル能力は最終的に事前学習データから来る」ことを示す。(2) 事前学習データからより多くのシグナルを引き出す新手法 — tokenizer を排し従来の BPE を上回る階層的バイトレベルアーキテクチャ(BLT)など。(3) 「特定のデータが特定のモデル要素に与える影響を分離・制御する」分散・モジュラー学習アルゴリズム(BTM 系)。これらはデータ中心の設計により学習を簡素化しスケーリングを高める。
> [!warning] 出典に関する注記
> 本文は**提供された自動文字起こし**と**公式トークページ**が出典。**スライドは未入手**のため、数値・固有名詞はスライド照合を経ていない。文字起こしは固有名詞の崩れが激しく("Oma"→ALMA、"flexomo/isomo"→FlexOlmo、"VLT"→BLT、"Quinn"→Qwen、"Alma 3"→Llama 3 と解した)、復元箇所はその旨を注記した。数値(80%、約 100 万例、$10,000、15 兆トークン、4 bytes/token、約 20x、8 experts など)はすべて口頭発言が出典で、スライドの正確な値とは異なる可能性がある。
## テーゼ — 「事前学習がすべて」を巡る挑発
- 大胆な主張: 事前学習(pretraining)において重要なのは結局**データ**である — どんなデータを得て、どう使うか。ただし本講演は主に**モデルアーキテクチャ**(ハードウェアアーキテクチャではない)を扱う。新種の Transformer 変種・MoE 等は、いずれも「**データをどう使い、より多くを引き出すか**」という発想が動機。
- 事前学習は**信頼できるスケーリング**が本質。パラメータ数・トークン数・FLOPs のいずれかを横軸に、大規模での性能を予測したい(きれいなスケーリング曲線)。
- 新アーキテクチャに期待する 2 つの成果: ①**スケーリング曲線の交差(crossing)**— 同じ FLOPs/データで旧アーキより良い漸近性能を出す(達成は難しいが嬉しい)。②**新しい能力の解禁**(end task や挙動)。両方を考えたい。
- 講演は 3 部構成。第 1 部は「すべては事前学習データから来る」ことの動機づけ。第 2・3 部は互いに独立な 2 つの新アーキテクチャ探索(tokenizer-free と data modularity)。
## 第 1 部 — 能力は事前学習に既にある(最小 post-training 実験)
- 現在の学習スケールの可視化: 学習トークンは**数十兆**規模。$1 札を 1 トークンに見立てると、$1 兆でも巨大だが、実際は **15 兆**サンプル($100 札換算)→ 積み上げると「アルプスの高さ」級。含意は誰も完全には理解していない。
- 問い: この巨大スケールで学習した後、post-training 等で**どれだけ新しく加わるのか**。仮説検証として「post-training を最善でなく**最小限**にし、それでもモデルにどれだけのことをさせられるか」を見る。できれば「すべては事前学習に既にあり、露出させているだけ」を示唆する。過去 2 年で 3 バージョンの実験。
- **LIMA:** 高度に多様・高品質な**約 1,000 例**を丁寧にキュレートし、モデルをほとんど変えずチューニング。当時の SOTA post-training の**約 80%** の性能。例: ベースモデルは詩生成が苦手だったが、**10 個の詩生成プロンプト**を 1,000 例に入れるだけで多様な詩のジャンルを汎用的に解禁。鍵は**多様性と品質**。
- **ALMA**(文字起こし "Oma"): 1,000 例を core にブートストラップ。報酬関数を学習しつつモデルの生成能力を高め、**約 10 ラウンド**反復で性能が着実に向上。最終データは**約 100 万例**だが、兆スケールに比べれば極小。
- **s1:** test-time scaling(chain-of-thought)でも、**約 1,000 例**の CoT を丁寧にキュレートしてチューニングするだけで、はるかに高級なモデルにほぼ匹敵。追加トリックは「モデルが十分長く生成しない時に "wait" を挿入して継続させる」こと。数学コンペ系で有効。
- **RLVR(検証可能報酬からの RL):** 特定モデル(Qwen, 文字起こし "Quinn")で、**ランダム報酬**でも数学等の性能が向上しうる。モデルが自身の出力を見て判断するだけで、シグナルがほぼノイズでも改善。
- まとめ(挑発): 「post-training は不要」とは**言っていない** — 制御・人格付与・人間価値とのアラインメントに不可欠。だが「**取り出せるものの大半は既にそこにあり、再配置・制御の問題**」。今後はモデルに**より多くを入れる**研究が必要。注意点: フロンティアラボの大規模 RL でこの構図は変わりうる。**事前学習と post-training の FLOPs/トークンの大きな非対称**は、何が実際に効いているかの直観を与える。
## 第 2 部 — Tokenizer-free / BLT(データのロングテールを下る)
- 動機: 言語は Zipf 的でロングテールが大きい。登壇者は **BPE 系トークナイザを「ほぼ宗教的に」嫌う**(Unicode 等も広義トークナイズだが、ここでは BPE の意)。
- トークナイザの問題点: 前処理ステップであり、**小単位を扱うためロングテールから資源を奪う**/奇妙な副作用/**学習後の変更が困難**/モデル間の語彙非互換(複数モデル併用時に問題)/**言語間の公平性**(同一トークナイザだと希少言語が不利=バイアス/フェアネス問題)。これは UW の研究。
- **BLT のアプローチ:** 完全に**バイトレベル**で動作する**階層的 Transformer**。効率が最大の課題なので、入力を必要に応じ**動的に可変長チャンク(patch)に分割**する 1 階層の階層構造。BPE は平均 **4 bytes/token** なので、平均チャンクをそれより大きくできれば BPE より効率的になりうる。
- ベースライン:
- **純バイトレベル Transformer:** Llama 等の標準アーキをバイト単位で動かす。品質は出るが**約 20x 高コスト**で、兆スケールでは(2x でも)非現実的。
- **固定ストライド(megabyte 論文):** 長さ 4/5/6 等の固定 patch で average pooling。動作し、テキスト・音声・画像でも機能するが**スケーリング傾向が良くない**。
- **BLT の核心トリック(動的 patching):** 安価な小型バイトレベル Transformer を学習し、**エントロピー(不確実性)が高い箇所**で patch 境界を引く(閾値は可変)。難所に大 Transformer の FLOPs を割り当てる。Transformer なので**文脈を使って境界を決められ、前処理ステップにならない**。例: Game of Thrones で、文脈から登場人物が分かる箇所は 1 つの大 patch で読み飛ばし、難所に FLOPs を回す。
- **アーキテクチャ:** encoder–decoder + latent transformer。青い中央部(latent)が FLOPs を食う主部、encoder/decoder は軽量。各階層間を skip connection と**バニラ cross-attention(異なる次元へ)**で接続し、end-to-end 学習。
- **結果(compute-optimal / iso-FLOPs 設定):** 平均 patch サイズ 4 でエントロピー knob を調整すると BPE に近いスケーリング傾向。patch 8(約 2x 高速)なら旧来の劣ったトークナイザに匹敵。ただし現状**大きな勝ちは出ていない**。
- **結果(推論コスト固定で比較):** 効率化で同じ推論コストのままモデルを少し大きくでき、**ここでスケーリング曲線の交差**が見え始める。Llama 3(文字起こし "Alma 3")級と比べ、reasonable scale で良好(巨大な利得ではない)。
- **新能力:** バイトレベルゆえ**タイプミス・文字挿入・欠落への頑健性**が高い。ノイズ系ベンチ(文字起こし "Q")で BPE モデルがほぼ 0 のところ、バイトレベルは **100% 近く**に達する事例。
- **compute-optimal なトークナイズ(今月の新論文, ポスドク Tomas, UW & Meta):** 圧縮率を knob として scaling law を引ける。主要な知見は「**学習予算が大きいほど最適圧縮率は下がる**」— 大予算ではデータを**圧縮しすぎず**細部まで学ばせたい。BLT は BPE より細かく圧縮率を制御できる(BPE は語彙サイズでしか調整できず点が離散的)。また**最適圧縮は言語依存**で、単一語彙を全言語に使う既存モデルはこれに合致しない(批判ではなくグローバル最適化の結果)。
- まとめ: 効率・スケーリング・ロングテールを軸に研究中。決定的なスケーリング曲線はまだなく、今後の課題。
## 第 3 部 — Data modularity / FlexOlmo(分散・モジュラー MoE)
- 観察: 現行モデルは**全データを同質に扱う**(dense / homogeneous な更新)。問題点: データバランスが挙動を大きく左右/大規模・集中分散学習が極めて困難/catastrophic forgetting/学習後はデータが静的で追加・削除しにくい。
- ビジョン: **dense からモジュラーへ**。異なるパラメータが**異なるデータ部分集合**に対応し**provenance(どのデータがどの部分を学習したか)を保持** → 追加・削除・オフ・カスタマイズが可能(例: ヘイトスピーチ分類器ならトキシックデータを入れ、中学生向けチューターなら抜く)。**非同期・疎(MoE 的)・学習後に安価に変更可能**を目指す。**分散学習**(世界中のクラスタ/組織が別々のピースを所有、共有データを制御)も視野。
- 前史:
- 約 5 年前: URL 等から得る**ドメインメタデータ**で決定論的にルーティング(学習不要の degenerate な MoE)。削除可能で良いスケーリング。
- 後続: メタデータ依存を外し、**文書埋め込みでクラスタリング**しデータクラスタを自動発見。各クラスタに**独立モデル**を学習し、model averaging/ensembling で統合。データが増えるほど**最適モジュール数が増える**きれいなスケーリング傾向。
- Tara の多言語版: 言語の類型論(typology)でクラスタリングし関連言語間の転移を得る。
- **FlexOlmo**(文字起こし "flexomo/isomo"、UW × Allen Institute for AI の共同): 上記を現代的 MoE で実現。
- 各 expert を**結合データ(news expert, reddit expert 等)**で**独立に**学習。private データ(例: 10 病院がそれぞれ private データを保持)も想定。それでも実時間・全層・全トークンでルーティングされる MoE として深く統合し、**private データを露出させない**。
- 手順: まず全員がアクセス可能な**public データでベースライン LM** を学習。次に各データ(private 含む)で fork し、public 由来 1 expert + private 1 expert の MoE を**独立学習**。最後に統合して単一 MoE 系にする。public データで最終ルータを学習してよいが、本論文は**最終ルータを一切学習しない(plug-and-play)**極端ケースを扱う。
- 課題: ①private データでの独立学習、②**推論時に再学習なしで expert を追加・削除**。
- **非パラメトリック・ルータ:** 各 expert に埋め込みを与え、ドメイン固有のテキスト等から得た埋め込みでルーティング(ルータをゼロから学習しない)。互いにキャリブレーションされていない複数の二値学習を統合するため、**決定境界を中央でなく private 側に寄せ(マージンを押す)**保守的にし、private データに固執させる。これにより**学習後にそのまま expert を追加・削除しても再学習不要**で動く。
- **結果:** ブレンドした FlexOlmo は**個々の専門 expert を上回り**、Branch-Train-Merge 等の従来 model merging baseline も上回る。ルータ解析でも層・ドメインで使われ方が異なる興味深いスケーリング。推論時に expert を増やすほど性能が上がる「FLOPs の knob」も示唆(頑健性は未確立)。
- **削除可能性:** news だけで学習した news expert を除くと**news 性能だけ低下し他ドメインは無傷** → 情報が局所化されている(トキシックテキスト等の除去にも応用可能)。
- まとめ: モジュラー・分散学習+非パラメトリック・ルーティングで自由に追加・削除。実験は **8 experts** 規模(=便宜上)で、さらなるスケールが今後の課題。
## 結論・オープン課題
- **事前学習 vs post-training:** 「すべては事前学習から来るのか」は要・科学。**監督(supervision)の比率**を直観の指標にせよ。大規模 RL・判定モデルがスケールし「モデル生成への学習」がスクレイプしたテキストへの学習を上回る世界はありうるが、まだ先。
- **新アーキテクチャ:** BLT も FlexOlmo も次のスケーリング段階が必要で、証拠を得るには年単位を要する。BLT は**post-training の影響を未検討**(大ラボにスケールさせるには言語モデルスタック全体で機能する必要)。FlexOlmo は**post-training と強い安全性保証**を要検討(安全性を捨て分散計算だけ取る版もありうる)。コード・モデルは公開。
## Q&A
- **Q1 — BLT の階層を上位(単語・文・概念)へ:** 人間は単語レベルでは読まず、綴りを入れ替えても理解できる。バイトレベルで「下る」のと逆に、n-gram のように複数単語/文を 1 単位として「上る」方向は?
- **A:** 自分は文字→文→概念→文書という**スタックの下端の意味抽象**に注力してきた。文・段落・文書レベルに注力するプロジェクトも多数あり、将来は**多段階の階層**が全体を貫く構図がありうる。現状その抽象は埋め込み空間で(BPE でも)暗黙に行われているが、その良し悪しは不明。面白い方向だが未着手。
- **Q2(Jinder, UCSD)— FlexOlmo の expert 数とパーソナライズ・学習の安定性:** 何 expert まで実験したか。個人のパーソナライズドメモリを expert にし、除けば知識が消えるようにできるか。学習時の失敗事例は?
- **A:** FlexOlmo は **8 experts**(最初の一歩なので便宜上)。非 MoE 版(クラスタ数=expert 数)では数十 expert まで容易。MoE 版もデータクラスタリングの工夫で次段階に進める準備はできている。**忘却**については、共通 expert を凍結し当該 expert にのみ勾配を流せば「**他のパラメータに勾配が流れていないことが証明可能**」で、除去すれば情報が消えることを担保できる(厳密さの代償で性能は多少落ちる)。
- **Q3(Willis, Glimmer Labs/コンピュータアーキテクチャ出身)— 性能向上ツールは研究を助けるか:** バイト予測は良いモデルを生むが学習が遅い。より高性能なツールが与えられたら研究は進むか、害になるか、不変か?
- **A:** とくに**バイトレベルモデル空間**は BPE モデルほど最適化が進んでおらず、性能改善の機会が多い。行列の形状・サイズが根本的に異なるため、面白い最適化の余地が十分ある。システム側の人々も関心を持っている。
- **Q4 — 推論時の構成(チャンネルのプログラミング):** 推論時に挙動をプログラムできる形式を導出している。実務者に提供する構成の見つけ方・開発の広げ方は?
- **A:** 将来課題と関連する難問。事前学習を変えると post-training を壊し、デプロイも壊しうる(壊せないステップが多数)。直観としては、バイトレベル・分散学習とも**最終的に標準アーキテクチャ上で動く形にする**ほど採用されやすい(独自仕様から離れ、結局 MoE を学習する方向)。デプロイ・利用には変更が少ないほど良い。研究のバーは高く、誰かがスタック全体を通す必要がある。
- **Q5(Sandler 系の質問者)— データの多様性とは何か:** 第 1 部で「多様性が重要」と述べたが鍵は?
- **A:** 完璧な答えはなく、1,000 例の研究では自分たちで手作業でキュレートし試行錯誤で多様性を見た。近似的には、API モデル(Claude, Gemini 等)が出すものは概ね「**事前学習か post-training で見たものに近い**」。post-training の役割は事前学習で見たものの中から**特定のものに焦点を当てさせる**こと。多様性とは「**事前学習で希少だがモデルにやらせたいこと**」の各々を post-training に 1 例ずつ入れて能力を引き出すこと。形式的定義・測定は今後の科学。
- **(フォローアップ)この科学は base model でやるべきか post-training 後のモデルか:** 小モデルの**スケーリングはしご**で外挿する方が良いと推測(最終的に influence したいのは事前学習だから)。ただしスケーリング則をどこまで信頼できるかは難しい。
- **Q6 — マルチモーダルへの道:** バイトレベルや data modularity は、人間言語に限らず**自然界の言語(タンパク質配列・化学・画像・音声)**やモダリティ別モジュールの合成への道か?
- **A:** 良い直観。自然言語以外(科学データ等)も同じトークナイズ問題を抱えており、生バイトレベルモデルをあらゆるデータで試す価値がある(階層が必要かは不明)。モダリティ別モジュールは **Mixture of Transformers** で実施済みで良好。重要なのは、最先端では**画像 fusion モデルは言語モデルより遥かに小さい**等、部分ごとに**容量を適応的に変える**べき点 — 等分割でなく大きい部分に多くの容量を。
- **Q7 — capsule network との関連:** MoE は効率、capsule network は agreement が眼目。言語で agreement 型の experts を組み合わせる研究を知っているか?
- **A:** 知らないが面白い。**Bitter Lesson** も関連 — アーキテクチャに凝った FLOPs や複雑性は(データバウンドになるまでは)「**見られなかったデータ**」を意味する。「賢いことをするか、より多くのデータを通すか」のトレードオフ。いずれデータが尽きれば、epoch 反復・新アーキ・他所への FLOPs 配分という構図に変わる(テキストは近く、マルチモーダルは遠い将来)。