2026__MLSys2026__Amin Vahdat Keynote - The Architecture of Intelligence

# The Architecture of Intelligence > [!info] Talk metadata > - **会議:** [[MLSys2026]] Day 3 (May 20 / Wed)、Grand Ballroom 1、10:30 - 11:30 PDT > - **登壇者:** Amin Vahdat（Google, SVP and Chief Technologist, AI & Infrastructure。チームはカスタムシリコン・データセンター・ネットワーク・サプライチェーンにまたがる業界先端のインフラ提供を担う） > - **URL:** https://mlsys.org/virtual/2026/invited-talk/3684 > [!warning] 出典に関する注記 > 公式トークページには**正式な講演タイトルも概要も掲載がなく**、登壇者名と役職のみ。H1「The Architecture of Intelligence」は登壇者自身の枠組み語（"this leads us to the architecture of intelligence"）を採用したもので、公式タイトルではない。**本文は提供された整形済みの忠実な文字起こし**が出典。ただし**この整形版は講演本体で終わっており Q&A を含まない**ため、`## Q&A` 節のみ別途提供された**自動文字起こし（ノイズ大）**が出典で、人名・数値の多くが崩れている（不確実箇所は都度フラグ）。**スライドは未入手のため、数値・固有名詞はスライド照合を経ていない。** ## テーゼ — 産業革命の「筋力の乗数」、知能時代の「精神の乗数」 - **産業革命との類比。** 蒸気機関から内燃機関、そしてその先まで「ほぼ一直線」を引ける。それが近代世界の基盤を作った。 - **Jevons パラドックス:** 石炭利用効率の **5x 改善**は、逆説的に石炭**需要の激増**を招いた。これは文字通り **1865 年**（James Watt の蒸気機関発明から約 100 年後）に経済学者が見出したこと — イノベーション→コスト低下→**新ユースケース激増→需要増→さらなるイノベーションへの経済的圧力**。この 5x が転換点で、Watt も誰も予測できなかった用途（鉄道・船舶など）が想像され、社会と文明そのものの書き換えにつながった。「**今日まさに起きていること**」と同型。 - **「有限な仕事量」の誤謬（fallacy of finite work）:** 1,000x の効率化は「仕事が 1,000x 減る」ことを意味しない。**人間の野心に限りはない**。 - **筋力の乗数:** 蒸気機関はポテンシャルエネルギーを運動エネルギーへ効率変換し、「**力を加える能力**」を「人間・動物の持つ力**から初めて切り離した（decouple）**」。力を 1,000／1 万／10 万／100 万倍へスケーラブルに増幅。人間の仕事は全部消えたか? いや、**多くは消えたが社会は変容**し、新しいユースケースが生まれた。 - 要点: **基礎資源（パワー、そして知能）の需要コストを下げると、消費は指数的に増える**。だからこのコミュニティの仕事は重要 — 5x のブレークスルーは一握りの天才ではなく、**効率を駆動する数千人の積み重ね**で生まれる。「**現在を自動化するだけでなく、これまで不可能だったことを可能にする**」。 - **messy middle（混沌とした過渡期）と責任:** 産業革命は巨大な disruption でもあった — マンチェスターで産業革命初期（1800 年代半ば）の**男性の平均死亡年齢は 17 歳**。深刻なコストを伴った。技術者として、この過渡期を導く**役割と責任**を自問すべき。登壇者は楽観主義者で、将来世代は「この移行を経てよかった」と言うと信じるが、その**道筋のナビゲーションが極めて重要**。 - **知能時代＝精神の乗数（mind multiplier）:** 知能は供給過剰ではない — 教師も医者も洞察も**全方位で大幅に不足**。システム/ML を通じて精神の乗数を作っている。能力は強力だが、navigate すべき事柄がある。 ## 楽観の根拠 — AI が科学を変える - **AlphaFold:** 50 年来のタンパク質折りたたみ問題を解いた。**2 億のタンパク質**を前例のない精度でモデル化。**1 件あたり 30 時間〜日**（従来は年単位）。多くの疾患治療の基盤になりうる。**ノーベル賞**が異例の速さで認知。 - 経験的・理論的・計算的の全方位で「科学とシステムの新しい epoch」。このコミュニティでは**工学（ソフト/ハード）**で最も顕著だが、今後は**生物・化学・物理など科学の基礎**でさらに大きく — 新素材・新エネルギー源を生む。 - **AI co-scientist（コーディングで起きていることの科学版）:** アイデアを多様な専門家エージェントの「アリーナ」に通し、互いのノートを比較・レビューし、仮説を磨き、特定仮説の**実験計画まで生成**。世界の一流科学者・教授に提供したところ、最大の賛辞は「**ラボで追究したい有望な仮説の生成プロセスが年単位から週単位に圧縮された**」こと。早期段階だが今後さらに強力に。 ## 技術の核心 — 計算スタックの根本的な再アーキテクチャ - 知能への道は**大きなモデルだけの話ではない**。モデルの効率化・高能力化に加え、**計算スタックの根本的な再アーキテクチャ**が要る。 - 「今日の計算スタックがどう見えるか? **実は誰も知らない**。ぼんやりした像しかない」。**このコミュニティの仕事を通じて**今後の設計パターンが理解される（「我々はその本を書ける」）。 - **インターネットとの類比:** 過去 25〜30 年で爆発的に普及し、数十億ユーザーへのサービス提供を一変。「人類の知識の総体を指先で扱える」状態は 30 年前には無かった。**計算とストレージのスケールアウト＋知識のデジタル化**が今日の土台。 - その土台の上で **6,000 TPU** が大量の人間生成データ上で最初の大規模言語モデルを学習（約 6 年前）。「6 年で世界が変わった」。 - **PaLM / PaLM 2 以降、計算需要は前例なき速度＝年率 10x で増加**。「供給できる量だけが制約」— 20x/50x 供給しても瞬時に消費される。**需要は本質的に飽くなき（insatiable）**。 ## スケーリング則と「効率を 4x/年」 - **スケーリング則の論文:** x 軸＝パラメータ数（モデルサイズの代理）、y 軸＝**test loss**（低いほど良いモデル）。計算/パラメータを増やすと品質が上がるが**非線形** — 大量の計算投入で loss はわずかしか下がらない。だが**そのわずかな改善が新ユースケースを解禁**するので価値がある。 - **2017 年前後の転換:** それ以前は **LSTM（Long Short-Term Memory）**が主流。Transformer は同じ曲線形だが**左へシフト（5〜8x の改善）**。これが転換点 —「5x 少ない計算で済む」ではなく「**より多くのユースケースに使える**」方向へ需要が爆発。 - **Rich Sutton "The Bitter Lesson"（Turing 賞受賞者）:** 70 年の AI 研究で毎回勝つのは「**人間の理解をエンコードせず、より多くの計算を投じる**」こと。賢いアルゴリズムは短期的利得を得ても、より多くの計算に追い抜かれる。 - **効率の加速目標:** **SysML 2020** で共有した通り、コミュニティは**スケーリング効率を 2 年で 2x → 20 年で 1000x** を達成。知能の時代はさらに上回る必要があり、年率 10x の需要増に対し「**毎年 4x のスケーリング効率を駆動し、5 年で 1000x**」を出さねばならない。一方で **Moore's law・スケールアウト計算・汎用計算**の従来トレンドはいずれも**鈍化** → **新しい計算方法の発明**が必要。 ## 知能のアーキテクチャ — スタック全体像 - 上位にサービス（提供の要）、その下にモデル、さらに下に **AI インフラスタック**。最下層は**エネルギー**（最大級の課題）→ データセンター（土地・建屋）。本講演は中間 2 層 = **AI インフラ・ハードウェアと AI インフラ・ソフトウェア**に焦点。 - 全体像は、**数十ギガワット規模で成長し続ける惑星スケールの計算機**を、困難な問題のために**動的に束ねる（harness）**こと。 ## ハードウェア基盤 — 専門化の「第 2 の波」 - **過去 ~10 年はハードウェア専門化の第 2 の波。** マイクロプロセッサは 1966〜67 年頃、以来 50〜60 年 CPU は Moore's law に乗ってきた。通説は「**専用ハードを作るな**」— 汎用 CPU が速くなり続け、ワークロードの多様性が大きすぎ、専門化しても 1〜2% の利得、CPU で全部回し次世代を待つ方が「潮が満ちて全ての船を持ち上げる」ように得。 - **例外（過去 ~20-25 年）= ネットワークスイッチ:** 初期は CPU で作ったが**極端に非効率**。スイッチの仕事は「高速にデータを動かし、限定的な特殊計算をする」だけ（IP パケットの TTL デクリメント、ヘッダの特定ビット参照、特定サイズのテーブル参照で出力ポート決定）。専門化で **CPU 比 100x のコスト削減**。商業的にも成功し、今日のインターネット/データセンターを支える。 - **AI が第 2 の波:** これも本質は**高速データフロー問題**で、数千〜数万〜**数十万**の要素間を協調させ、特殊計算へ正しいデータを届ける。CPU 上で同じ仕事をする比で **100x〜1000x** 出せる。需要が年 10x+ で増えるので、**全体の 10〜20% のサブセットでも専門化が割に合う** — かつては 10% 狙いに 4,000 チップだったが、今や 10% が **40 万チップ**規模になりうる。各々が 100x 効率なら節約は莫大。 - **Google の視点（10 年超）:** NVIDIA 等にも並行する技術があるが — - Transformer 以前の言語翻訳のために **TPU（Tensor Processing Unit）v1** を構築。 - 同じアーキテクチャ＋専用ネットワークが**学習にも使える**と気づき、最初の **256 TPU 学習 pod** へ。世代ごとに新しい数値表現、液冷、超高速の専用ネットワークを追加。**256 → 1,000 → 4,000 → 8,900+ TPU** を、**マルチエクサバイト級の read-write メモリシステム**として機能するネットワークで接続。 - **第 8 世代 TPU で初めて 2 バージョン: 学習用 v8T と推論用 v8I。** 専門化の二重化 — v8T も推論を、v8I も学習をそこそここなせるが、**システムバランス（計算/ネットワーク比など）を一方に最適化**。スピン違いやダウンクロック版ではなく、**2 つの別チームが 2 つのチップを構築**（プログラミングモデルは同一）。業界全体でこの傾向が強まる。2x 改善では踏み切らないが、3x/4x/5x を狙えるなら専門化する。 - シリコン機能、数値演算、行列積の**シストリックアレイ**、TPU を束ねる **HBM ディレクトリ**、データセンター横断スケーリング、垂直給電。これらを束ねると、学習・サービングという個別問題のための **~10 メガワット級のスーパーコンピュータ**（建屋・ネットワーク・計算・ストレージ一体）になり、汎用比 **100x**。 ## ネットワーク — 全スケールに存在 - ネットワークは**イネーブラーにもボトルネックにもなる**。問題は**チップ上のナノメートルスケール → ラック → クラスタ（建屋）→ 惑星 → 地球外（宇宙）**まで全スケールに存在。 ### チップ上のネットワーク（network-on-chip） - 計算ユニットへどうデータを動かすかが成否を分ける。**帯域 vs レイテンシ**の古典的トレードオフ。データセンターでは**スループット最適化のキューイング**により、本来マイクロ秒のラウンドトリップがミリ秒に化けることがある（チップ上でも、光速ならナノ秒のはずがマイクロ秒になりうる）。 - **レチクル限界:** 単一チップ/テープアウトのサイズに上限。同一パッケージ上に最低 2 チップ、間は遅いネットワーク → **パッケージ上でも階層的ネットワーク**。SRAM・HBM・計算・ネットワークを柔軟・低レイテンシ・高帯域で束ねることが決定的。今日のチップは過去 20-30 年の論理的延長であり、network-on-chip の再考が望まれる。 ### ラックスケール — 動的状態移動とハードウェアトランスポート - アクセラレータが計算のために**状態を動的に HBM/SRAM/コンテキストへ持ち込む**必要。状態はストレージアレイ（CPU の DRAM、SSD など）に分散。何を持ち込むか判断し、超高速で持ち込む。 - **ハードウェアトランスポート:** データセンター内の任意点から TPU/GPU へ最速でデータ取得。**NIC（TPU 隣のネットワークインターフェースカード）に実装** — どのデータをどこから取るかを構成・把握し、**全てハードウェアで取得（ホストレベル処理なし → 大幅な低レイテンシ）**、コンテキストに引き込み TPU へ直接コピー。ネットワークとアクセラレータの協調。 ### トポロジ — TPU v8I の "board fly" - v8I の革新の一つ。**従来はスループット最大化のため 3D トーラス**で TPU を接続。v8I では**推論の低レイテンシ・応答**のため「collective/target 操作の所要時間最小化」を重視 → ファンアウト付きの直接接続トポロジ **"board fly"** を構築し、**ネットワークの直径/半径を 1/2 に（最大ホップ数を 1/2 に）**削減。最大スループットは下がる（タダ飯はない）が、**推論には最適なトレードオフ**。 ### 光回線交換（Optical Circuit Switching, OCS） - **信頼性が最大級の課題:** 256／1,000／1 万／2 万／**10 万**アクセラレータで走るジョブは、1 台の故障で全体が落ちうる。停止 → 故障特定 → 修理/再構成の間ずっと **goodput（提供性能）**が劣化。 - **OCS:** 全 TPU ラックを**光ドメイン**で OCS 接続。各ラックから出たファイバの光を**指先サイズのチップ 2 枚（2D マトリクス）**に当て、**入力ポートから出力ポートへパケット処理なし・電気変換なしで反射**するだけ（鏡で光を反射するのと同じ）。 - OCS は**論理トポロジをソフトウェアで再プログラム**できる **NxN クロスバー**。人が物理ファイバを動かさず再構成。故障時は検出 → ソフトで OCS を再構成（3D で鏡を動かす）→ **既存トポロジに新ラックを投入**し計算継続。**pod 信頼性の game changer**。データセンターネットワークから転用した技術で、**クロスデータセンター構成**にも応用 — ファイバを相互に向け、ツリー階層をバイパスして**レイテンシ削減・帯域増**。 ### ICI（Inter-Chip Interconnect）と共有メモリ - **最大 9,600 TPU 間で 2 ペタバイトの共有メモリ帯域**、read-write は **ICI ネットワーク**（メモリ転送に express-built な専用ネットワーク）が支える。 - 関連は NVLink。通説は「計算機を結ぶなら Ethernet」だったが、**初めて read-write アクセス／共有メモリに特化**し、超低レイテンシ・超高帯域にしたのが正解だった。 - **ICI を計算に直接統合** — レイテンシ・電力で大きな勝ち。「**ハイエンド Ethernet スイッチ並みの帯域を TPU 上に直接統合**」したイメージ（パケットを見ないので Ethernet スイッチではない）。別箱のスイッチ・ケーブル・ファイバを排し計算と一体化。目標は ~9,600 TPU 間の read-write データ移動。 ### Jupiter — データセンターネットワーク - 9,600 を超え **10 万+ アクセラレータ**になると pod を結ぶ**データセンターネットワーク**が要る。**Jupiter（開始から ~15 年）**の最新版（vertical fabric）は **bisection 帯域 47 ペタビット/秒** — **グローバルインターネットの bisection 帯域に迫る**（完全には届かない）。**約 100 万 TPU/GPU が非ブロッキング**で通信可能（複数建屋にまたがる規模）。 - **B4（Google Software-Defined Wide Area Network）:** キャンパスを越えて計算可能な場所を活かす WAN。**実時間トラフィックエンジニアリング** — 大規模学習は 24/7/365 ではないので、それ向けに固定構成すると誤った網になる。「次の 6 週間、これら 3 サイトを express lane にする」とジョブ優先で帯域を確保し、故障時もそのジョブを優先。 ### 宇宙 — "space factory"（投機的） - ここまでは全てデータセンターで稼働中。次は**投機的**な **"space factory"** — TPU を宇宙に置く Google のプロトタイプ調査。理由: **太陽同期軌道なら 24/7 の太陽光**が可能で、**太陽電池は宇宙で ~5x 効率的**（雲がない）。打ち上げ能力増・コスト低下も追い風。 - 課題: スケールの最先端でチップ/システムの**故障率が高い**。経済性を成立させる解は「**オーバービルド**や追加打ち上げ」。研究としては刺激的で upside も大きい。 > （注: この整形版文字起こしでは "space factory" としか呼ばれず、プロジェクト名の言及はない。） ## ソフトウェア基盤 — 単一ワークロードのベンチマークを超えて - **主要メッセージ:** コミュニティのベンチ/論文は**個別ワークロード**と**その単体性能**に偏り、特定ハードに合わせ**理想条件で一度だけ**測りがち（登壇者自身もそういう論文を多数書いた）。だが実運用では**実時間で計算を管理する**ことに **5x/10x 以上**の総合効率の余地がある。 - **現実の惑星スケール計算機:** 3〜6 世代のハードが混在、GPU/TPU のヘテロ、増えつつある **CPU との合成**、それらを束ねるネットワーク、実時間で起きる故障。ワークロードミックスは常時変動（Search・Ads・YouTube・Gemini のサービング、大規模学習、データ分析）。新規ジョブ要求の到着率を捌き、**惑星スケールのハードへ実時間でマップ**する。重要なのはそこから得る効率であり、理想条件のベンチ値ではない（「1,024 TPU に完全マップし 4 時間 32 秒どれも故障しない」前提の結果は現実ではない）。 - **Borg:** Google 最古・最も誇り・最強級のシステムで惑星スケール計算を管理。過去 5 年「不自然なほど」拡張された（Borg チームは素晴らしい仕事をした）。研究/機会の余地は大きい。 - **固定割り当ての非効率:** 旧来は「**この 1,024 チップをこの場所で渡すので好きに使え**」と固定。だが当の顧客が数日使わない／実時間では最重要でない、という無駄。返却を頼んでも**スケールしない**。 - **解 = GX（Google Accelerator Units）:** ジョブ要求とともに submit する**クレジット**を実時間でハードにマップ。新ハードが来ても「買い直し」にせず GX 残高として扱う。**実時間でクレジット経済を維持**し、GX の「約束（≒ベンチ性能の概念）」を保ちつつワークロードを特定ハードへマップ。GX の価値は他者のジョブ需要で実時間変動。OS・ハイパーバイザ・ハード横断で**全体の提供価値最大化**は極めて困難。 - **レイテンシとスループット両方を管理:** バッチジョブ（日/週単位の総量を重視）と、人間が loop に居て即応が要るサービングジョブを区別（※整形版は「中断され得ない」と言うが、文脈上は総スループット重視のジョブを指すと解す）。 - **GX は global quota management の入り口。OSDI に関連論文が近刊予定。** 課題はテレメトリ — **100 万+ コンポーネント**の状態追跡、性能デバッグ・最適化・**実行中のワークロード移行**。 - **System balance / ML productivity の API:** 重要なのはベンチではなく**スケジューラが実現する goodput**。 - **scheduling goodput** — 投入から実スケジュールまでの待ち（完璧との差） - **run-time goodput** — 故障等の影響 - **program goodput** — ワークロードをどのハードにマップしたか（別のハードならもっと良い goodput が出たか） - **productivity goodput** こそが提供価値。**多様なワークロードの全球フリート最適化**が焦点で、高価なアクセラレータが次工程の計算/ネットワーク/ストレージを遊んで待つ状況を減らす。 ## 結論・オープン課題 - 触れ切れない論点: **主権（sovereignty）・セキュリティ**（企業・個人・国家を問わずますます重要）。 - **電力とサステナビリティ:** Google の**第一義指標は「performance per division Watt」**（performance per dollar でも従来 Watt でもなく、建屋/キャンパスに供給できる電力あたりの性能）。関連指標は **performance per unit of carbon emissions**。 - **messy middle と楽観:** 楽観の根拠・ポジティブな変容の余地は莫大。技術者の責任として、今後 10〜20 年の過渡期を意味ある形で通り抜ける必要がある — **共に持つべき対話**。 - 歴史に根ざす — 初の社会変容ではなく多くのうちの一つ。乱流の最中だが楽観材料は多い。**このコミュニティが知能のアーキテクチャを定義でき**、より大きく良いモデルは重要だが、**（効率的な）計算への需要は飽くなきもの**であり続ける。 ## Q&A > [!note] 出典: Q&A はノイズの多い自動文字起こしのみが出典（整形版は講演本体で終了）。人名・固有名詞は不確実で、復元箇所はフラグした。 - **Q1 — 次の大きな変化はいつ/どこで起きるか:** アーキテクチャの変化か、ハード設計か。 - **A:** 予測だが、歴史を指針にすると（2017 年頃の Transformer のような）**大きな効率改善が今後数年で規則的に**起きると見る。蒸気機関の効率改善が初回以降も続いたのと同様の連続性。ハード面では**さらなる専門化で 10x〜20x** を出せると確信 — **ハードをより速く開発し個別ワークロードに専門化**するのが鍵で、巨大市場。 - **Q2 — 専門化と引き換えのプログラマビリティ低下:** ハードを専門化するほどプログラム可能性が下がる。GPU が広まったのは余剰計算を皆が使えたから。100x/1000x を狙ってプログラム不能にすると、新ワークロード（"black swan" 的事象）を取りこぼすのでは? - **A:** **プログラマビリティは消えない。** アクセラレータを作っても CPU はかつてなく成功している。より専門化したものを作ることは、プログラム可能なものを捨てることを意味しない。計算を 10x 削減できるなら、**複数の選択肢が共存する余地**がある。 - **Q3 — エネルギー＋効率が社会の複雑性を駆動した先:** 富裕層は ~100 人分のエネルギー/機械能力を、AI では ~100 人分の知能を持つ。**Engelbart（"angle bar"、Douglas Engelbart と解す）**の知性増強やモデルシミュレーションに着想を得てきた。だが恐ろしいモデルの一つは、社会への恩恵がある時点で止まり/減速するというもの。技術者としてどう乗り越えるか? - **A:** 重要な問い。減速ではなく**焦点化**で対処する。例えば**自分の時間の 10〜20% を世界中の人々との対話**に充て、技術を教え合い、議論の場を作る。 - **Q4（Jenna Chen, UCSB）— 計算とネットワーク/メモリの相互作用:** ネットワーク（ラック間/データセンター間/宇宙までの階層）に大きな比重があると述べた。計算は重要だが、規模を支えるには**メモリとネットワークも極めて重要**になりつつある。見解は? - **A:** 着想は**バランスされたシステム（Amdahl の balanced-system 則と思われる、語は不鮮明）**。FLOPS だけに注目せず**価値を出すバランスされたシステム**を作る。バランスは計算依存で、概ね「**命令毎秒あたり数バイト〜メガバイトのメモリ（と帯域）**」のような目安。要件に応じて**バランス点を可変に**し、ネットワーク/計算・汎用/アクセラレータを個別計算ごとに調整する。これも一種の専門化。 - **Q5 — 配備戦略（~2018 年の知見の進化）:** 「**割り当てのコミットをできるだけ遅らせる**」のが要点だった（何が来るか分からないから）。今日 neo-cloud の観点で、データホール/建屋レベルの最適な配備戦略は? - **A:** 大きなチームがこの計画問題に取り組む。最適戦略と**再生可能エネルギー**を絡め、**結果（consequences）を見て密なモデリング**を行う。完璧は狙わず「**最も良い／最悪でない**」を狙う。 - **（続き）プログラマビリティとエージェントの将来:** 長年システム屋は zero-programmability なインターフェースから抽象を積み上げてきた。コードの **~75% が定型**なら、もはやプログラムしないのに programmability は要るのか? 一部を外せば 10x 効率が得られるかも。**自己改善するインフラ／「インフラ自体がエンジンになる」**未来は興味深いが、まだ先。そこへどう到達するかが面白い研究課題。