2026__MLSys2026__Rethinking Pretraining - Data and Architecture

# Rethinking Pretraining: Data and Architecture > [!info] Talk metadata > - **会議:** [[MLSys2026]] Day 4 (May 21 / Thu)、Grand Ballroom 1、10:30 - 11:30 PDT > - **登壇者:** Luke Zettlemoyer（University of Washington, Paul G. Allen School 教授／Meta シニアリサーチディレクター。研究は NLP・機械学習・不確実性下の意思決定。本講演の研究は UW・Meta・Allen Institute (AI2) の共同） > - **URL:** https://mlsys.org/virtual/2026/invited-talk/3706 > - **関連研究:** LIMA, ALMA, s1（データ効率の良い post-training）／BLT（Byte Latent Transformer, tokenizer-free）／FlexOlmo・Branch-Train-Merge 系（分散・モジュラー学習）。コード・モデルは公開と述べた。 > [!abstract] 概要（MLSys サイト） > 大規模言語モデルの学習は「トークナイズ → 事前学習 → （場合により mid-training）→ post-training／アラインメント」という標準パイプラインに従う。しかしこの過程について我々が理解していることは乏しく、改善の機会を取りこぼしている。本講演は 3 つの領域を扱う。(1) データ効率の良い post-training 研究（LIMA, ALMA, s1）— 「高度なモデル能力は最終的に事前学習データから来る」ことを示す。(2) 事前学習データからより多くのシグナルを引き出す新手法 — tokenizer を排し従来の BPE を上回る階層的バイトレベルアーキテクチャ（BLT）など。(3) 「特定のデータが特定のモデル要素に与える影響を分離・制御する」分散・モジュラー学習アルゴリズム（BTM 系）。これらはデータ中心の設計により学習を簡素化しスケーリングを高める。 > [!warning] 出典に関する注記 > 本文は**提供された自動文字起こし**と**公式トークページ**が出典。**スライドは未入手**のため、数値・固有名詞はスライド照合を経ていない。文字起こしは固有名詞の崩れが激しく（"Oma"→ALMA、"flexomo/isomo"→FlexOlmo、"VLT"→BLT、"Quinn"→Qwen、"Alma 3"→Llama 3 と解した）、復元箇所はその旨を注記した。数値（80%、約 100 万例、$10,000、15 兆トークン、4 bytes/token、約 20x、8 experts など）はすべて口頭発言が出典で、スライドの正確な値とは異なる可能性がある。 ## テーゼ — 「事前学習がすべて」を巡る挑発 - 大胆な主張: 事前学習（pretraining）において重要なのは結局**データ**である — どんなデータを得て、どう使うか。ただし本講演は主に**モデルアーキテクチャ**（ハードウェアアーキテクチャではない）を扱う。新種の Transformer 変種・MoE 等は、いずれも「**データをどう使い、より多くを引き出すか**」という発想が動機。 - 事前学習は**信頼できるスケーリング**が本質。パラメータ数・トークン数・FLOPs のいずれかを横軸に、大規模での性能を予測したい（きれいなスケーリング曲線）。 - 新アーキテクチャに期待する 2 つの成果: ①**スケーリング曲線の交差（crossing）**— 同じ FLOPs／データで旧アーキより良い漸近性能を出す（達成は難しいが嬉しい）。②**新しい能力の解禁**（end task や挙動）。両方を考えたい。 - 講演は 3 部構成。第 1 部は「すべては事前学習データから来る」ことの動機づけ。第 2・3 部は互いに独立な 2 つの新アーキテクチャ探索（tokenizer-free と data modularity）。 ## 第 1 部 — 能力は事前学習に既にある（最小 post-training 実験） - 現在の学習スケールの可視化: 学習トークンは**数十兆**規模。$1 札を 1 トークンに見立てると、$1 兆でも巨大だが、実際は **15 兆**サンプル（$100 札換算）→ 積み上げると「アルプスの高さ」級。含意は誰も完全には理解していない。 - 問い: この巨大スケールで学習した後、post-training 等で**どれだけ新しく加わるのか**。仮説検証として「post-training を最善でなく**最小限**にし、それでもモデルにどれだけのことをさせられるか」を見る。できれば「すべては事前学習に既にあり、露出させているだけ」を示唆する。過去 2 年で 3 バージョンの実験。 - **LIMA:** 高度に多様・高品質な**約 1,000 例**を丁寧にキュレートし、モデルをほとんど変えずチューニング。当時の SOTA post-training の**約 80%** の性能。例: ベースモデルは詩生成が苦手だったが、**10 個の詩生成プロンプト**を 1,000 例に入れるだけで多様な詩のジャンルを汎用的に解禁。鍵は**多様性と品質**。 - **ALMA**（文字起こし "Oma"）: 1,000 例を core にブートストラップ。報酬関数を学習しつつモデルの生成能力を高め、**約 10 ラウンド**反復で性能が着実に向上。最終データは**約 100 万例**だが、兆スケールに比べれば極小。 - **s1:** test-time scaling（chain-of-thought）でも、**約 1,000 例**の CoT を丁寧にキュレートしてチューニングするだけで、はるかに高級なモデルにほぼ匹敵。追加トリックは「モデルが十分長く生成しない時に "wait" を挿入して継続させる」こと。数学コンペ系で有効。 - **RLVR（検証可能報酬からの RL）:** 特定モデル（Qwen, 文字起こし "Quinn"）で、**ランダム報酬**でも数学等の性能が向上しうる。モデルが自身の出力を見て判断するだけで、シグナルがほぼノイズでも改善。 - まとめ（挑発）: 「post-training は不要」とは**言っていない** — 制御・人格付与・人間価値とのアラインメントに不可欠。だが「**取り出せるものの大半は既にそこにあり、再配置・制御の問題**」。今後はモデルに**より多くを入れる**研究が必要。注意点: フロンティアラボの大規模 RL でこの構図は変わりうる。**事前学習と post-training の FLOPs/トークンの大きな非対称**は、何が実際に効いているかの直観を与える。 ## 第 2 部 — Tokenizer-free / BLT（データのロングテールを下る） - 動機: 言語は Zipf 的でロングテールが大きい。登壇者は **BPE 系トークナイザを「ほぼ宗教的に」嫌う**（Unicode 等も広義トークナイズだが、ここでは BPE の意）。 - トークナイザの問題点: 前処理ステップであり、**小単位を扱うためロングテールから資源を奪う**／奇妙な副作用／**学習後の変更が困難**／モデル間の語彙非互換（複数モデル併用時に問題）／**言語間の公平性**（同一トークナイザだと希少言語が不利＝バイアス/フェアネス問題）。これは UW の研究。 - **BLT のアプローチ:** 完全に**バイトレベル**で動作する**階層的 Transformer**。効率が最大の課題なので、入力を必要に応じ**動的に可変長チャンク（patch）に分割**する 1 階層の階層構造。BPE は平均 **4 bytes/token** なので、平均チャンクをそれより大きくできれば BPE より効率的になりうる。 - ベースライン: - **純バイトレベル Transformer:** Llama 等の標準アーキをバイト単位で動かす。品質は出るが**約 20x 高コスト**で、兆スケールでは（2x でも）非現実的。 - **固定ストライド（megabyte 論文）:** 長さ 4/5/6 等の固定 patch で average pooling。動作し、テキスト・音声・画像でも機能するが**スケーリング傾向が良くない**。 - **BLT の核心トリック（動的 patching）:** 安価な小型バイトレベル Transformer を学習し、**エントロピー（不確実性）が高い箇所**で patch 境界を引く（閾値は可変）。難所に大 Transformer の FLOPs を割り当てる。Transformer なので**文脈を使って境界を決められ、前処理ステップにならない**。例: Game of Thrones で、文脈から登場人物が分かる箇所は 1 つの大 patch で読み飛ばし、難所に FLOPs を回す。 - **アーキテクチャ:** encoder–decoder + latent transformer。青い中央部（latent）が FLOPs を食う主部、encoder/decoder は軽量。各階層間を skip connection と**バニラ cross-attention（異なる次元へ）**で接続し、end-to-end 学習。 - **結果（compute-optimal / iso-FLOPs 設定）:** 平均 patch サイズ 4 でエントロピー knob を調整すると BPE に近いスケーリング傾向。patch 8（約 2x 高速）なら旧来の劣ったトークナイザに匹敵。ただし現状**大きな勝ちは出ていない**。 - **結果（推論コスト固定で比較）:** 効率化で同じ推論コストのままモデルを少し大きくでき、**ここでスケーリング曲線の交差**が見え始める。Llama 3（文字起こし "Alma 3"）級と比べ、reasonable scale で良好（巨大な利得ではない）。 - **新能力:** バイトレベルゆえ**タイプミス・文字挿入・欠落への頑健性**が高い。ノイズ系ベンチ（文字起こし "Q"）で BPE モデルがほぼ 0 のところ、バイトレベルは **100% 近く**に達する事例。 - **compute-optimal なトークナイズ（今月の新論文, ポスドク Tomas, UW & Meta）:** 圧縮率を knob として scaling law を引ける。主要な知見は「**学習予算が大きいほど最適圧縮率は下がる**」— 大予算ではデータを**圧縮しすぎず**細部まで学ばせたい。BLT は BPE より細かく圧縮率を制御できる（BPE は語彙サイズでしか調整できず点が離散的）。また**最適圧縮は言語依存**で、単一語彙を全言語に使う既存モデルはこれに合致しない（批判ではなくグローバル最適化の結果）。 - まとめ: 効率・スケーリング・ロングテールを軸に研究中。決定的なスケーリング曲線はまだなく、今後の課題。 ## 第 3 部 — Data modularity / FlexOlmo（分散・モジュラー MoE） - 観察: 現行モデルは**全データを同質に扱う**（dense / homogeneous な更新）。問題点: データバランスが挙動を大きく左右／大規模・集中分散学習が極めて困難／catastrophic forgetting／学習後はデータが静的で追加・削除しにくい。 - ビジョン: **dense からモジュラーへ**。異なるパラメータが**異なるデータ部分集合**に対応し**provenance（どのデータがどの部分を学習したか）を保持** → 追加・削除・オフ・カスタマイズが可能（例: ヘイトスピーチ分類器ならトキシックデータを入れ、中学生向けチューターなら抜く）。**非同期・疎（MoE 的）・学習後に安価に変更可能**を目指す。**分散学習**（世界中のクラスタ/組織が別々のピースを所有、共有データを制御）も視野。 - 前史: - 約 5 年前: URL 等から得る**ドメインメタデータ**で決定論的にルーティング（学習不要の degenerate な MoE）。削除可能で良いスケーリング。 - 後続: メタデータ依存を外し、**文書埋め込みでクラスタリング**しデータクラスタを自動発見。各クラスタに**独立モデル**を学習し、model averaging/ensembling で統合。データが増えるほど**最適モジュール数が増える**きれいなスケーリング傾向。 - Tara の多言語版: 言語の類型論（typology）でクラスタリングし関連言語間の転移を得る。 - **FlexOlmo**（文字起こし "flexomo/isomo"、UW × Allen Institute for AI の共同）: 上記を現代的 MoE で実現。 - 各 expert を**結合データ（news expert, reddit expert 等）**で**独立に**学習。private データ（例: 10 病院がそれぞれ private データを保持）も想定。それでも実時間・全層・全トークンでルーティングされる MoE として深く統合し、**private データを露出させない**。 - 手順: まず全員がアクセス可能な**public データでベースライン LM** を学習。次に各データ（private 含む）で fork し、public 由来 1 expert + private 1 expert の MoE を**独立学習**。最後に統合して単一 MoE 系にする。public データで最終ルータを学習してよいが、本論文は**最終ルータを一切学習しない（plug-and-play）**極端ケースを扱う。 - 課題: ①private データでの独立学習、②**推論時に再学習なしで expert を追加・削除**。 - **非パラメトリック・ルータ:** 各 expert に埋め込みを与え、ドメイン固有のテキスト等から得た埋め込みでルーティング（ルータをゼロから学習しない）。互いにキャリブレーションされていない複数の二値学習を統合するため、**決定境界を中央でなく private 側に寄せ（マージンを押す）**保守的にし、private データに固執させる。これにより**学習後にそのまま expert を追加・削除しても再学習不要**で動く。 - **結果:** ブレンドした FlexOlmo は**個々の専門 expert を上回り**、Branch-Train-Merge 等の従来 model merging baseline も上回る。ルータ解析でも層・ドメインで使われ方が異なる興味深いスケーリング。推論時に expert を増やすほど性能が上がる「FLOPs の knob」も示唆（頑健性は未確立）。 - **削除可能性:** news だけで学習した news expert を除くと**news 性能だけ低下し他ドメインは無傷** → 情報が局所化されている（トキシックテキスト等の除去にも応用可能）。 - まとめ: モジュラー・分散学習＋非パラメトリック・ルーティングで自由に追加・削除。実験は **8 experts** 規模（=便宜上）で、さらなるスケールが今後の課題。 ## 結論・オープン課題 - **事前学習 vs post-training:** 「すべては事前学習から来るのか」は要・科学。**監督（supervision）の比率**を直観の指標にせよ。大規模 RL・判定モデルがスケールし「モデル生成への学習」がスクレイプしたテキストへの学習を上回る世界はありうるが、まだ先。 - **新アーキテクチャ:** BLT も FlexOlmo も次のスケーリング段階が必要で、証拠を得るには年単位を要する。BLT は**post-training の影響を未検討**（大ラボにスケールさせるには言語モデルスタック全体で機能する必要）。FlexOlmo は**post-training と強い安全性保証**を要検討（安全性を捨て分散計算だけ取る版もありうる）。コード・モデルは公開。 ## Q&A - **Q1 — BLT の階層を上位（単語・文・概念）へ:** 人間は単語レベルでは読まず、綴りを入れ替えても理解できる。バイトレベルで「下る」のと逆に、n-gram のように複数単語/文を 1 単位として「上る」方向は? - **A:** 自分は文字→文→概念→文書という**スタックの下端の意味抽象**に注力してきた。文・段落・文書レベルに注力するプロジェクトも多数あり、将来は**多段階の階層**が全体を貫く構図がありうる。現状その抽象は埋め込み空間で（BPE でも）暗黙に行われているが、その良し悪しは不明。面白い方向だが未着手。 - **Q2（Jinder, UCSD）— FlexOlmo の expert 数とパーソナライズ・学習の安定性:** 何 expert まで実験したか。個人のパーソナライズドメモリを expert にし、除けば知識が消えるようにできるか。学習時の失敗事例は? - **A:** FlexOlmo は **8 experts**（最初の一歩なので便宜上）。非 MoE 版（クラスタ数＝expert 数）では数十 expert まで容易。MoE 版もデータクラスタリングの工夫で次段階に進める準備はできている。**忘却**については、共通 expert を凍結し当該 expert にのみ勾配を流せば「**他のパラメータに勾配が流れていないことが証明可能**」で、除去すれば情報が消えることを担保できる（厳密さの代償で性能は多少落ちる）。 - **Q3（Willis, Glimmer Labs／コンピュータアーキテクチャ出身）— 性能向上ツールは研究を助けるか:** バイト予測は良いモデルを生むが学習が遅い。より高性能なツールが与えられたら研究は進むか、害になるか、不変か? - **A:** とくに**バイトレベルモデル空間**は BPE モデルほど最適化が進んでおらず、性能改善の機会が多い。行列の形状・サイズが根本的に異なるため、面白い最適化の余地が十分ある。システム側の人々も関心を持っている。 - **Q4 — 推論時の構成（チャンネルのプログラミング）:** 推論時に挙動をプログラムできる形式を導出している。実務者に提供する構成の見つけ方・開発の広げ方は? - **A:** 将来課題と関連する難問。事前学習を変えると post-training を壊し、デプロイも壊しうる（壊せないステップが多数）。直観としては、バイトレベル・分散学習とも**最終的に標準アーキテクチャ上で動く形にする**ほど採用されやすい（独自仕様から離れ、結局 MoE を学習する方向）。デプロイ・利用には変更が少ないほど良い。研究のバーは高く、誰かがスタック全体を通す必要がある。 - **Q5（Sandler 系の質問者）— データの多様性とは何か:** 第 1 部で「多様性が重要」と述べたが鍵は? - **A:** 完璧な答えはなく、1,000 例の研究では自分たちで手作業でキュレートし試行錯誤で多様性を見た。近似的には、API モデル（Claude, Gemini 等）が出すものは概ね「**事前学習か post-training で見たものに近い**」。post-training の役割は事前学習で見たものの中から**特定のものに焦点を当てさせる**こと。多様性とは「**事前学習で希少だがモデルにやらせたいこと**」の各々を post-training に 1 例ずつ入れて能力を引き出すこと。形式的定義・測定は今後の科学。 - **（フォローアップ）この科学は base model でやるべきか post-training 後のモデルか:** 小モデルの**スケーリングはしご**で外挿する方が良いと推測（最終的に influence したいのは事前学習だから）。ただしスケーリング則をどこまで信頼できるかは難しい。 - **Q6 — マルチモーダルへの道:** バイトレベルや data modularity は、人間言語に限らず**自然界の言語（タンパク質配列・化学・画像・音声）**やモダリティ別モジュールの合成への道か? - **A:** 良い直観。自然言語以外（科学データ等）も同じトークナイズ問題を抱えており、生バイトレベルモデルをあらゆるデータで試す価値がある（階層が必要かは不明）。モダリティ別モジュールは **Mixture of Transformers** で実施済みで良好。重要なのは、最先端では**画像 fusion モデルは言語モデルより遥かに小さい**等、部分ごとに**容量を適応的に変える**べき点 — 等分割でなく大きい部分に多くの容量を。 - **Q7 — capsule network との関連:** MoE は効率、capsule network は agreement が眼目。言語で agreement 型の experts を組み合わせる研究を知っているか? - **A:** 知らないが面白い。**Bitter Lesson** も関連 — アーキテクチャに凝った FLOPs や複雑性は（データバウンドになるまでは）「**見られなかったデータ**」を意味する。「賢いことをするか、より多くのデータを通すか」のトレードオフ。いずれデータが尽きれば、epoch 反復・新アーキ・他所への FLOPs 配分という構図に変わる（テキストは近く、マルチモーダルは遠い将来）。