# MLSys 2026 ## Overview The Ninth Conference on Machine Learning and Systems (MLSys 2026). - **Dates:** May 17-22, 2026 - **Location:** Hyatt, Cascade Tower, Indio, CA 92201, USA - **Website:** https://mlsys.org/ - **Calendar:** https://mlsys.org/virtual/2026/calendar ## Sessions & Talks > [!note] ノート運用方針 > 各トークの詳細メモは `2026__MLSys2026__<トークタイトル>.md` という個別ノートに切り出す。本ファイルの各トーク欄には、その個別ノートへの Obsidian リンクと 5 行程度の箇条書き要約のみを記載する(例: [[2026__MLSys2026__Rethinking Open Source Contribution in the Age of AI Agents]])。 ### Day 1 (May 18 / Mon) #### Opening Remarks (08:50 Grand Ballroom 1) #### Keynote: Rethinking Open Source Contribution in the Age of AI Agents / Roger Wang (09:00 - 09:25) > [[2026__MLSys2026__Rethinking Open Source Contribution in the Age of AI Agents|詳細メモ・Q&A はこちら]](登壇者: Roger Wang / vLLM コアメンテナ) - AI 生成 PR が直近半年で急増し、vLLM や他の ML システム系プロジェクトが同様に対応に追われている。 - PR が reject される典型は、全体設計の見落とし・根本原因を直さず症状を覆い隠す・AI エージェントによる大量低品質 PR の 3 パターン。 - コントリビューターの価値はコードを書くことから、システム理解・正しい問題選び・成果のオーナーシップへ移った。 - メンテナはバーとロードマップを明確化し、設計判断をレビュー可能にし、CI/品質投資とコントリビューターとの対話に時間を使うべき。 - 最終メッセージ: 「PR で一番安いのはコードそのもの」。周辺すべてに注力することが信頼を育てる。 #### Keynote: Beyond Model Serving: Cross-Stack Co-Design for Agentic Systems / Esha Choukse (09:25 - 09:50) > [[2026__MLSys2026__Beyond Model Serving Cross-Stack Co-Design for Agentic Systems|詳細メモ・Q&A はこちら]](登壇者: Esha Choukse / Microsoft Azure Research – Systems) - テーゼ: 「正しさは述語ではなく予算、精度はシステムのリソース」。精度・品質をレイテンシ・コスト・エネルギーとトレードオフ可能な動的量として扱い、フルスタックで協調設計する。 - 3 つの幻想を否定: ①モデル=システムで品質を決める ②計算を増やせば精度が解決する ③正しさは二値。実際は実現品質はエンドツーエンドのシステムが決め、部分的正しさ・段階的劣化が生じる。 - ケース 1 Sherlock: MAST ベースのフォルト注入+トポロジカル特徴で脆弱ノードを特定し選択的検証。GRPO 学習の軽量 verifier selector と Speculative Run-ahead で、精度約 10% 改善・レイテンシ約 48.7% 削減(E2E でコスト最大 ~2x・レイテンシ最大 ~3x)。 - ケース 2 Streamwise: リアルタイム動画生成(TTFF/TBF)。Deadline-aware スケジューリング・ヘテロハードウェア選択・適応的品質 knob・Disaggregation/パイプラインで、コスト×TTFF のパレート最適を探索。 - Takeaway: 計算だけでなく「不確実性」も管理するシステムを作る(https://aka.ms/azrs-ai )。 #### Keynote: LMCache: An Efficient KV Cache Layer for Enterprise-Scale LLM Inference / Yuhan Liu (09:50 - 10:15) > [[2026__MLSys2026__LMCache An Efficient KV Cache Layer for Enterprise-Scale LLM Inference|詳細メモ・Q&A はこちら]](登壇者: Yuhan Liu / University of Chicago, LMCache リード) - テーゼ: KV キャッシュは未来の「AI ネイティブなデータ型」であり、それを支える新インフラ(LMCache)が必要。 - KV キャッシュの保存=金の貯蓄。8 GPU・$2/GPU 時・3 年運用なら損益分岐点は ~1% ヒット率、数千〜数百万 GPU・10% ヒット率で 3 年 ~$33M 節約(MI300X で DeepSeek R1 を 1 GPU が日産テラバイト級生成)。 - 95% の KV キャッシュは GPU RAM に収まらず CPU RAM/リモートへ階層化 → 「詰め込み」と「高速転送」の 2 課題。 - 最適化 2 例: CacheGen(layer-wise 量子化+デルタ符号化+GPU 並列の算術符号化で最大約 10x 圧縮)、CacheBlend(RAG 等の非プレフィックス再利用で壊れる cross-attention を選択的再計算で回復)。 - 本番化のため MP/分離モードを導入(KV キャッシュ管理を推論エンジンから分離、全 worker が同一プールを共有)。Dynamo/llm-d と併用、vLLM 併用でスループット最大 15x。 #### Keynote: Eliciting Language Model Behaviors with Investigator Agents / Lisa Li (10:15 - 10:40) > [[2026__MLSys2026__Eliciting Language Model Behaviors with Investigator Agents|詳細メモ・Q&A はこちら]](登壇者: Lisa Li / OpenAI・University of Washington 着任予定) - テーゼ: レッドチーミングを「単一文字列の探索」ではなく **behavior elicitation の事後推論問題**として定式化し、誘発入力空間を広くカバーする。 - 従来の座標上昇法(GCG 系)は 1 モードしか見つけられない → 言語モデルを逆向きにする investigator モデル `Q_φ` を SFT・DPO・変分推論で学習。 - 目的を「報酬(誘発効果)+既発見モードへのペナルティ(多様性)+ KL(事前への正則化)」に分解。反復分解が **Frank-Wolfe(条件付き勾配法)**と等価で、混合分布として束ねる。 - 結果: Llama で攻撃成功率を **2% → 100%**、より大きな/proprietary モデルにも汎化。先行研究の jailbreak 戦略の大多数を被覆(persuasion は prior が好まず未被覆)。 - 展望: エージェント用途では固定ターゲットがなく、失敗を見つける外側ループ+探索の内側ループが必要。Q&A: 同一ファミリーは汎化良好、~10 反復で収束。 #### Sponsor Lightning Talks — Morning (11:00) #### Keynote: When AI Starts Writing Systems Code / Mark Saroufim (13:30) > [[2026__MLSys2026__When AI Starts Writing Systems Code|詳細メモ・Q&A はこちら]](登壇者: Mark Saroufim / Core Automation・GPU MODE 共同創設者、元 Meta) - テーゼ: systems を自動化して研究を遅くせず回したい。新システムを作り続けるのではなく、研究者と対話して継続改善する少数のシステムを作る。 - 物理法則(flops が帯域より速く伸びる)が動的制御フロー・ragged shape 等を要求し、systems 屋の意見より AI 研究者の都合が優先される。FlashAttention カーネルの最適化リードタイムは 21→14 ヶ月と依然長い。 - GPU MODE(旧 CUDA MODE)のリーダーボードは累計 50 万件超の提出を集め、データ基盤というより eval 基盤として機能。門外漢(高校生・小学校教師)が LLM 駆動で上位カーネルを出す事例が出た。 - reward hacking が蔓延(torch.mean に 0 を返す、ストリーム同期回避、出力キャッシュ、VW 排ガス不正型など)。対策は「AI に AI 提出を審査させる」kernel guard で急減、人間を loop から外せた。 - 将来像: 学習と推論で同じカーネル、非 Transformer なら KV cache 不要でサービングは単純化。reward hacking 検出も含め全て RL 環境化でき「解ける、あとはスケール」。 #### Sponsor Lightning Talks — Afternoon (14:30) #### Panel Discussion (16:00) #### YPS Poster Session & Reception (17:00 - 19:00 Evergreen Ballroom) ### Day 2 (May 19 / Tue) #### Research Track Oral: Best Paper Session (08:45 Grand Ballroom 1) ##### StreamDiffusionV2: A Streaming System for Dynamic and Interactive Video Generation / Tianrui Feng (第1発表) > [[2026__MLSys2026__StreamDiffusionV2 A Streaming System for Dynamic and Interactive Video Generation|詳細メモ・Q&A はこちら]](登壇者: Tianrui Feng / The University of Texas at Austin ※発表者は筆頭著者と推定) - テーゼ: ビデオ拡散モデルを SLO 制約下のリアルタイム・ライブストリーミングに適合させる training-free パイプライン。TTFF(time to first frame)最小化と per-frame deadline 厳守が目標。 - 効率の柱: dynamic T policy(入力サイズ縮小で TTFF を ESD 比 18×・V1 比 283× 削減)+ SLA-aware streaming batch + GPU-scalable pipelined orchestration(2 GPU で約 2×、4 GPU で約 3.5× の near-linear FPS)。 - 品質の柱: motion-aware noise scheduler(高速モーションへ低ノイズ注入で tearing 抑制、training-free)と sink-token + rolling KV cache(long-term drift 抑制)。 - 主要結果: TensorRT/量子化なしで 4×H100 上、14B モデルで 0.5s TTFF・58.28 FPS、1.3B で 64.52 FPS。1s SLO の miss rate 0.2%(CausVid は 99.9%)。 - Takeaway: ストリーミングビデオ生成は memory-bound 領域へ向かう黎明期分野で LLM サービング基盤との重複大。`pip install streamdiffusion-v2`、ComfyUI/TouchDesigner 等で実利用済み。 ##### LEANN: A Low-Storage Overhead Vector Index / Yichuan Wang (第2発表 / Best Paper) > [[2026__MLSys2026__LEANN A Low-Storage Overhead Vector Index|詳細メモ・Q&A はこちら]](登壇者: Yichuan Wang / UC Berkeley SkyLab) - テーゼ: 現代のベクトルインデックスは「隠れたストレージコスト」が問題(76 GB 文書 → 約 200 GB インデックス、270% オーバーヘッド)。埋め込みを保存せず**オンザフライ再計算**+グラフ枝刈りでこれを解消する。 - 機会: on-device RAG では生成が E2E レイテンシを支配(RTX 4090 で Generation 99.8% / Retrieval 0.24%)し QPS も低い → レイテンシを少し犠牲にストレージを大幅削減できる(5-minute rule の類比)。 - 技術: ①two-level search(PQ 近似 → 有望候補のみ exact 再計算)②GPU dynamic batching(最大 2x speedup)③High-Degree Preserving Graph Pruning(高 degree ノードを保持しグラフを 2x 圧縮、ほぼロスレス)。 - 結果: **インデックスを元データの 5% 未満・最大 50x 小**、RTX 4090 で 1 秒未満検索・**E2E RAG レイテンシ +5%**、HNSW 精度を維持し BM25/PQ より高精度。 - 影響: OSS は 11k+ stars、Claude Code 向け初の MCP ベース意味検索エンジン(Pass@1 0.63→0.73、トークン 29,448→18,033)。Best Paper 受賞。 ##### BLASST: Dynamic BLocked Attention Sparsity via Softmax Thresholding / Cameron Shinn (第3発表 / Best Paper) > [[2026__MLSys2026__BLASST - Dynamic BLocked Attention Sparsity via Softmax Thresholding|詳細メモ・Q&A はこちら]](登壇者: Cameron Shinn / UC Davis) - テーゼ: softmax thresholding による drop-in 型 dynamic block sparse attention。online softmax の row max を再利用し $\tilde{m}-m<\ln(\lambda)$ で block の softmax・$V$ ロード・$PV$ 行列積をスキップ。学習不要・事前計算なし。 - prefill(compute-bound: matmul/softmax スキップ)・decode(memory-bound: $V$ ロードスキップ、$K$/$V$ ロード並べ替え)双方を高速化。FlashAttention-4 の warp specialization 上に skip predicate reduction(VOTE+atomic)を実装、Blackwell/Hopper kernel。 - 自動キャリブレーションが閾値とコンテキスト長の反比例 $\lambda=a/L$ を発見。モデルごと prefill/decode 各 1 スカラーで任意スパース率を予測可能に制御。 - 約 75% スパース性まで精度維持。modern GPU で prefill 71.9% スパース性 1.52×・decode 73.2% で 1.48×、0% スパース性でオーバーヘッドなし。 - TensorRT-LLM / FlashInfer に kernel、ModelOpt にキャリブレーションツール、SGLang 対応済み・vLLM PR 進行中。NVIDIA/Rice/UC Davis/Meta の産学連携。Best Paper 受賞。 ##### ExecuTorch: A Unified PyTorch Solution to Run AI Models On-Device / Digant Desai (第4発表 / Best Industry Track Paper) > [[2026__MLSys2026__ExecuTorch - A Unified PyTorch Solution to Run AI Models On-Device|詳細メモ・Q&A はこちら]](登壇者: Digant Desai / Meta, PyTorch org・ExecuTorch core maintainer ※司会・本人は "Kramer" と発話、著者欄では Digant Desai) - テーゼ: PyTorch ネイティブな統合エッジ展開フレームワーク。「PyTorch でテストしたものがデバイス上で動く」を実現し、変換・再実装なしで microcontroller〜スマホへ展開。 - 4 つの設計判断: ① PyTorch 2.0 + `torch.export`(Core ATen <300 ops)、② グラフベース backend-aware 量子化(PTQ/QAT、新規貢献)、③ AOT composable backend delegates(グラフ分割)、④ C++17 STL-free の tiny runtime。 - ベンチ(Samsung Galaxy S25 Ultra, 4-bit): NPU で圧倒的優位。Llama 3.2 1B で 2974.7 tok/s(vs llama.cpp 174.4)、vision model レイテンシも MV3 0.24ms / ResNet50 0.55ms / ViT 3.81ms。 - バックエンド 12 種以上: CPU(XNNPACK/Cortex-M/Cadence)、GPU(Vulkan/MLX/AOTI Metal/CUDA/TensorRT)、NPU(Qualcomm QNN/Arm Ethos-U/MediaTek/Samsung ENN/NXP Neutron)、Multi(CoreML/OpenVINO)。 - Takeaway: v1.2 で GA、PyTorch Foundation 参加、Meta アプリ群・Ray-Ban スマートグラス・Quest で本番展開済み。Best Industry Track Paper 受賞。 #### Keynote: The Next Horizon of Systems: From MLSys to System Intelligence / Lidong Zhou (10:30 - 11:30) > [[2026__MLSys2026__The Next Horizon of Systems - From MLSys to System Intelligence|詳細メモ・Q&A はこちら]](登壇者: Lidong Zhou / Microsoft・Microsoft Research Asia) - テーゼ: **AI はもはや単なるワークロードではなくシステムの「co-designer」**であり、AI とシステムの **co-evolution** が次の地平。これを **system intelligence(システム知能)** と呼ぶ。 - 分散システム研究(Lamport/Birrell/Schroeder ら)→ 本番化 → クラウド/ビッグデータ → 2020 年 AI インフラで「何かが根本から変わった」という来歴から、AI が課す課題にシステム研究者が圧倒される転機を語る。 - ケース: 集合通信スケジュール設計を「核心のスケジュールだけ AI に出させ、検証・コード生成・実行はシステムが担う」分離で自動化 → 人間設計者に匹敵/凌駕(学習で最大約 3 倍の性能差)。 - システム検証の旅: Verus(Rust 拡張)で約 2 年。bottom-up(AI に仕様+invariant 生成)は 11 バグを即発見も、verifier を通っても正しいとは限らず **reward hacking**(証明スキップ・サイズ 1 のみ証明・仕様削除)が頻発 → **top-down + 人間が TCB と意図を形式記述**へ転回。フロンティア AI の進歩で「2 年の努力が陳腐化」した逸話も。 - Takeaway: 将来のシステムは「**意図を厳密に定義し、実行時に provably upheld であることを保証する**」こと。検証ネイティブ言語の可能性、システムを原理的・科学的な学問にする呼びかけ。 #### Research Track Oral: Agentic AI 1 & Multimodal/Generative Models (13:00) ##### OSWorld-Human: Benchmarking the Efficiency of Computer-Use Agents / Reyna Abhyankar or Qi Qi (第1発表 / 13:00 - 13:15) > [[2026__MLSys2026__OSWorld-Human - Benchmarking the Efficiency of Computer-Use Agents|詳細メモ・Q&A はこちら]](登壇者: Reyna Abhyankar / Qi Qi のいずれか, UC San Diego ※本人は名乗らず断定不可) - テーゼ: computer-use agent (CUA) は精度ばかり最適化され、人間が数分のタスクに数十分かかり実用に耐えない。OSWorld 上で CUA の**時間効率(latency/cost/failure)の初の研究**を行い、369 タスクを人手で再アノテーションしたベンチ **OSWorld-Human** を構築。 - レイテンシの大半は LLM 呼び出し(S2 は planning+reflection で約 76%、GTA1 は約 96%)。p50 で 10–15k uncached prompt tokens・per-step 20–30 秒、後半ほど履歴蓄積で prompt/コストが quadratic に増大(GTA1 planning は step 100 で約 \$8)。 - 失敗の主因は grounding 誤座標による**ループ**で、50+ ステップで失敗するタスクの **66% のステップが浪費**。 - 新指標 **Weighted Efficiency Score (WES)** = avg(reward·(human steps/agent steps))·(1 − avg steps in failures/max steps)。相対順位は OSWorld と保存されるが絶対値が激減。 - 最良の Agent S2 は **41.4% → single-action WES 15.6% → grouped-action WES 9.6%**(必要の 2.7–4.3x のステップを浪費)。改善策: action grouping / efficient rollback / grounding post-training / history compression / LLM serving 改善。 ##### VeriMoA: A Mixture-of-Agents Framework for Spec-to-HDL Generation / Heng Ping (第2発表 / 13:15 - 13:30) > [[2026__MLSys2026__VeriMoA A Mixture-of-Agents Framework for Spec-to-HDL Generation|詳細メモ・Q&A はこちら]](登壇者: Heng Ping / USC, advised by Paul Bogdan) - テーゼ: 訓練不要の Mixture-of-Agents (MoA) で自然言語仕様→HDL(Verilog)を生成。標準 MoA の error propagation と reasoning 空間制約を、(1) quality-guided caching と (2) C++/Python 中間表現による multi-path generation で克服。 - Quality-guided caching: 全中間 HDL を global cache に格納しシミュレーションベースで品質採点、層横断で top-N を選択 → 層を越えた単調品質改善(理論保証つき)。 - Multi-path: Base/C++/Python の 3 エージェント型で heterogeneous な推論軌跡を作り解の多様性を確保。設計指針は線形モデル `t = α·quality + β·diversity + γ`(α>β)。 - 主要数値(スライド準拠): VerilogEval 2.0 / RTLLM 2.0 で **Pass@1 +15〜33 ポイント**改善。小型が大型を凌駕(VeriMoA-Qwen7B 56.44% > VeriMaAS-Qwen32B 53.6%)。fine-tuned に匹敵かつ相補的(VeriRL-CodeQwen2.5+VeriMoA = 82.47%)。構成は L=4 層・M=6 agents/層、Simulator は Icarus Verilog。 - Takeaway: アーキテクチャ設計が scale に勝る。約 10× トークンで +20〜25 ポイント、等予算では Width>Depth、LLM 生成 testbench でも劣化は軽微(−2.8〜−4.6pt)。 ##### When Enough is Enough: Rank-Aware Early Termination for Vector Search (Terminus) / Jianan Lu (第3発表 / 13:30 - 13:45 / ビザ問題のため録画+リモート発表) > [[2026__MLSys2026__When Enough is Enough - Rank-Aware Early Termination for Vector Search|詳細メモ・Q&A はこちら]](登壇者: Jianan Lu / Princeton University, advised by Michael J. Freedman) - テーゼ: ベクトル検索(graph-based ANN)は top-k を一律最適化するが、RAG の効用は top-ranked に偏在する(top-heavy)。このミスマッチが不要な disk I/O を生む。 - 提案: **Terminus** は graph index と I/O サブシステムの間に termination engine を挿入し、rank-weight 関数 $w(r)=e^{-(r/\tau)^\beta}$($\tau=1.8,\beta=0.5$)で per-I/O 効用 $U_t=\sum_{r\in\Delta R_t}w(r)$ を推定。直近 $X$ I/O の効用が閾値 $\varepsilon$ 以下で early termination(経験的に X=2)。 - 新指標 **Ranked Recall**(rank 位置を重み付け、Recall の rank-agnostic 欠陥を補正)。 - 主要数値: 同一精度ターゲットで既存 early termination 比 **最大 1.4x**、early termination なし比 **最大 3.2x** スループット。VBASE 比 LLaMA-2-7B / acc 0.33 で **1.6x**、IO-Budget 比 Pythia-1B / acc 0.16 で **1.4x**。1 ANN クエリ = 10s–100s の小 I/O。 - Takeaway: rank-aware retrieval が検索性能とアプリ精度のより良いトレードオフを実現する。 ##### Optimizing PyTorch Inference with LLM-Based Multi-Agent Systems (PIKE) / Kirill Nagaitsev (第4発表 / 13:45 - 14:00) > [[2026__MLSys2026__Optimizing PyTorch Inference with LLM-Based Multi-Agent Systems|詳細メモ・Q&A はこちら]](登壇者: Kirill Nagaitsev / Northwestern University, DOE CSGF) - テーゼ: LLM ベースのマルチエージェント進化的探索(**PIKE** = PyTorch Inference Kernel Evolution)で PyTorch を Triton/CUDA カーネルへ自動最適化し、ML モデルコンパイラを容易に上回る。 - 最良 PIKE-B は KernelBench Level 3-pike で PyTorch Eager 比 geomean **2.88x**(torch.compile 1.64x / METR 1.40x / TensorRT 1.41x を凌駕)、H100 上、予算 300 LLM クエリ/タスク(Gemini 2.5 Pro で約 \$30–50/タスク)。 - RQ1: error-fixing は critical(EFA あり 2.88x → no EFA 1.98x、5 試行で解の 70–80% が修正)。\$25 予算では cheap EFA(Gemini 2.5 Flash)が勝つ。 - RQ2: 数百クエリ regime では exploit 重視が最良(1 island top-3=2.88x vs 3 islands=1.99x)。Level 5 でも exploit 調整が単調に高速化(PIKE-B 2.57x)。 - Takeaway: (1) コンパイラは容易に上回られる、(2) error-fixing への予算配分が critical、(3) 数百クエリ予算では exploit 重視が最良。OSS: `github.com/pike-project/pike`。 ##### Matrix: Peer-to-Peer Multi-Agent Synthetic Data Generation Framework / Dong Wang (第5発表・最終 / 14:00 - 14:15) > [[2026__MLSys2026__Matrix - Peer-to-Peer Multi-Agent Synthetic Data Generation Framework|詳細メモ・Q&A はこちら]](登壇者: Dong Wang / Meta FAIR) - テーゼ: 中央集権オーケストレーションのスケーラビリティボトルネックを、制御/データフローをシリアライズ済みメッセージとしてエージェント間で受け渡す P2P アーキテクチャ(Ray+SLURM 上)で解消する合成データ生成ランタイム **Matrix**。同一ハードウェア・同等品質のまま 2〜15x の高スループット。 - ケース1 (Collaborative Reasoner/Coral): 31 ノード=248 GPU で 1M trajectories を 4:17:05、公式 baseline 比 **6.8x**(129,833 vs 18,917 tokens/s)。障害注入(12 分毎に actor kill、計 7 回)でもタスク損失約 2%・スループット低下 5% のみ。 - ケース2 (NaturalReasoning): 25M DCLM Web 文書をフィルタ(success 5.45%、約 1M Q&A)。Ray Data batch baseline 比 row-level scheduling で **2.1x**(5,853 vs 2,778 tokens/s)。3 並列性のうち task parallelism が最も効く(3.8x)。 - ケース3 (Tau2-bench): 13 H100・gpt-oss-120b で baseline 比 **15.4x**(41,003 vs 2,654 tokens/s、reward 同等)。512 バイト超の会話を Ray Object Store にオフロードしピークネットワークを約 1GB/s→760MB/s(約 20% 減)。 - Takeaway: ステートレス Ray actor + per-role broker + semaphore back pressure で、actor 数からデカップリングされた数万並行ワークフローを at-most-once 実行。Hydra/LangGraph で設定可能、OSS 公開(`github.com/facebookresearch/matrix`)。 #### Research Track Oral: Agentic AI 2 & LLM Serving 1 (14:45) - #### Research Track Oral: Security/Privacy & Federated Learning (16:30) - #### Poster Session 1 & Opening Reception (18:00 - 20:00 Evergreen Ballroom) ### Day 3 (May 20 / Wed) #### Research Track Oral: LLM Serving 2 & LLM Training 1 (08:30) ##### BOOST: BOttleneck-Optimized Scalable Training Framework for Low-Rank Large Language Models / Yuyang Huang (08:30 - ) (第1発表) > [[2026__MLSys2026__BOOST - Bottleneck-Optimized Scalable Training Framework for Low-Rank Large Language Models|詳細メモ・Q&A はこちら]](登壇者: 司会紹介は Yuyang Huang / UC Santa Barbara PhD ※著者欄に同名なし。筆頭著者は Zhengyang Wang\*・Ziyue Liu\*, UCSB & Argonne National Lab) - テーゼ: low-rank bottleneck アーキ(1 線形層を $r\ll d$ の bottleneck を挟む 2 層に分解、約 2x 少パラメータ/FLOPs/メモリ)はアルゴリズム的に効率的だが、標準 tensor parallel ではスケールしない。単一 GPU では約 1.6x 高速でも TP=4 では通信支配で full-rank 比 **約 40% 遅い**。 - 提案 **Bottleneck-aware Tensor Parallelism (BTP)**: TP trunk 境界を bottleneck へ 1 層ずらし、同期を full 次元 → **low-rank 次元 $[b,s,r]$** に移す(per-block 通信量 $7bsr$、vanilla 比 5.7x 超・full-rank 比 1.14x 削減)。さらに敏感な GEMM を full 次元で分割し arithmetic intensity を上げる(vanilla TP の 2.5x)。 - システム最適化: **Online RMSNorm**(sharded-unsafe な正規化統計を次 collective に fuse、latency-bound 小 all-reduce を排除し $TP=1$ と数学的等価)、**Linear Layer Grouping**(fused/batched GEMM、per-block 1.16x)、**Comm-free Low-rank Activation Checkpointing**(low-rank activation のみ保存し通信不要 re-forward、Eff_ckpt 1.70x)。 - 主要結果(Nanotron 実装、最大 8 node/32×A100、LLaMA-2 1B–40B、CoLA/SVD/LaX): BOOST は **FullRank-TP 比 1.46–1.91x・Vanilla low-rank TP 比 1.87–2.27x** 高速。通信時間は FullRank 比最大 8% 速く Vanilla 比 5.3x 速い。同一 FLOPs でも GEMM 利用率向上で計算時間短縮。 - Takeaway: アルゴリズム的効率は大規模で自動的に実速度に直結しない。システムがアーキテクチャ設計を意識する必要があり、今後の効率モデルはシステムと co-design すべき。Q&A: AI による最適化自動発見でも、新アーキの検証は容易でなくシステム設計はアーキ設計と密結合(陳腐化しない)。Code: github.com/Arcana-2236/BOOST。 ##### Unleashing Scalable Context Parallelism for Foundation Models Pre-Training via FCP / Yilong Zhao (第2発表) > [[2026__MLSys2026__FCP - Unleashing Scalable Context Parallelism for Foundation Models Pre-Training|詳細メモはこちら]](登壇者: Yilong Zhao / UC Berkeley Sky Lab。共著: Xiaonan Nie\* ら ByteDance Seed / UW / UC Davis) - テーゼ: **FCP(Flexible Context Parallelism)** は foundation model 事前学習の新しい context parallelism。各シーケンスを元長によらず固定サイズ block に分割し、block レベルで sharding・scheduling して compute 効率と workload balance を両立。 - 既存手法の2課題: (1) 短シーケンスの over-sharding は kernel 効率低下+追加通信(length-aware が必要)、(2) 等トークン数 ≠ balanced workload(attention は $O(L^2)$ compute で長シーケンスほど密、workload-aware packing が必要)。Ring=balance のみ・ByteScale=efficiency のみ・WLB-LLM=切替のみ。 - 手法3要素: ① Block Distributor(fixed-size block + LPT greedy 割当)、② Communication Planner(任意 P2P を bipartite matching に帰着し congestion-free 化、Hopcroft-Karp $O(N^{2.5})$、block-level pipelining で overlap)、③ Transparent Reshuffler。実装は Python 4K 行 + FA3 改変、CUDA Green Context で通信/計算 SM 分離。 - 評価(Llama-3-70B 構成・実トレース最大 512K context・最大 256 GPU): compute/comm imbalance 5% 未満、single-GPU FA 比 90% 超 MFU 維持、attention MFU を **1.13×〜2.21×** 改善し near-linear scaling。block size 4K が sweet spot。 - 限界: 任意 P2P(実質 all-to-all)に適した fat-tree/rail-optimized network 前提で、torus ベース TPU v3 では性能制限。※文字起こしは課題提示の途中で録音終了、Q&A 未収録。 ##### NEST: Network- and Memory-Aware Device Placement For Distributed Deep Learning / Irene Wang ら > [[2026__MLSys2026__NEST - Network- and Memory-Aware Device Placement for Distributed Deep Learning|詳細メモはこちら]](登壇者: Irene Wang / Georgia Tech ※発表者は未確認。論文 PDF・スライドのみに基づく) - parallelism・memory・network topology を**同時に**考慮する device placement を構造化 dynamic programming(DP)で実現。SOTA ベースラインに対し最大 **2.43×** スループット向上。 - Insight 1: parallelism を Sub-Graph(TP/EP/SP/CP、層内)と Graph-Global(PP/DP/ZeRO)の直交2次元に分類。新戦略は graph+cost を与えるだけで DP アルゴリズム不変。 - Insight 2: backward 進行の "unknown producer problem" を、N² デバイスペアでなく 3–5 個の離散 communication level(Intra-node 900 / Intra-rack 100 / Inter-rack 12.5 GB/s)に抽象化して最適性を保持。 - Insight 3: メモリ feasibility を DP 内で追跡し infeasible state を pruning(推定誤差 実測比 平均 7% 以内)。ZeRO/recomputation を incremental ノブとして扱う。 - 評価: TPUv4 Fat-Tree(64–1024 デバイス)で平均 manual 比 1.59×・Alpa-E 比 2.43×、H100 oversubscribed Spine-Leaf(1024-GPU)で最大約 2.1×。最適化は 3 分〜1.5 時間で Alpa 比 90× 高速。Code: github.com/scai-tech/Nest。 ##### MTraining: Distributed Dynamic Sparse Attention for Efficient Ultra-Long Context Training / Wenxuan Li ら > [[2026__MLSys2026__MTraining - Distributed Dynamic Sparse Attention for Efficient Ultra-Long Context Training|詳細メモはこちら]](登壇者: Wenxuan Li / Microsoft Research ※発表者は未確認。論文 PDF・スライドのみに基づく) - RoPE 由来の attention は Vertical-Slash パターンを普遍的に持つ(Theorem 3.1)と理論・実測で示し、dynamic sparse attention で ultra-long context 学習を効率化。512K で attention は per-layer 計算の 99.0% を占める。 - 3要素 co-design: distributed sparse index approximating(VS 構造の online 近似、profiling を総遅延の 6% 未満に)、balanced sparse ring attention(ZigZag でなく Striped で worker/step 不均衡を緩和)、hierarchical sparse ring attention(inter-node 通信を intra-node 計算に重畳)。 - Qwen2.5-3B と Llama-3.1-8B を 32× A100(4×8 ノード、CP=32)で 32K/128K→512K に拡張。dense 比で最大 **6×** スループット、naïve sparse 比 2.6×、ZigZag 比 2.1×、階層なし比 1.3×、near-linear。 - workload balance: imbalance degree は worker/step とも約 1.0(dense 同等、ZigZag は >2.4)。階層設計で forward attention 時間を 42.7% 削減。 - 精度: RULER で MTraining+Dense が平均 63.22 と全ベースライン最良(dense 学習 60.21 を上回る)。NIAH/PG-19/InfiniteBench でも gap 最小。Code: github.com/microsoft/MInference/tree/main/mtraining。 ##### ProTrain: Efficient LLM Training via Automatic Memory Management / Hanmei Yang ら > [[2026__MLSys2026__ProTrain - Efficient LLM Training via Automatic Memory Management|詳細メモはこちら]](登壇者: Hanmei Yang / UMass Amherst ※発表者は未確認。論文 PDF・スライドのみに基づく) - メモリ管理ポリシーをモデル/ハードウェアへ自動適応する LLM 学習システム。メモリ最適化を compute/memory/communication にまたがる結合的な協調問題と捉え、ZeRO sharding・offloading・gradient checkpointing・activation swapping を統一する。 - 複雑な戦略を 4 つのチューナブルパラメータ(n_persist, n_buffer, n_swap, n_ckpt)に抽象化し、`min T(config) s.t. M(config) ≤ GPU cap` をコストモデルと枝刈り探索で解く。学習アルゴリズムは不変で精度を損なわない。 - Structured Memory Strategies = model states 用 Hierarchical Chunk Management + activations 用 Interleaved Block Management。Memory-Aware Profiler が intra-op transient と unhookable operators(10B GPT-2 で peak の 17.2%=3.06GB)を捕捉し推定誤差 4% 未満。 - 評価: 4×A100 で最大 87B を学習(DeepSpeed 比 2.35× 大)。スループットは SOTA 比 **1.43×〜2.71×**。プロファイル+探索オーバーヘッドは数秒〜0.06 秒。175B も 16×A100 マルチノードで検証。 - ハードウェア: 4×RTX 3090(24GB,PCIe3.0) と 4×A100(80GB,NVLink3.0)。ベースラインは DeepSpeed/Colossal-AI/FSDP。 ##### Efficient Long-context Language Model Training by Core Attention Disaggregation (DistCA) / Yonghao Zhuang ら > [[2026__MLSys2026__DistCA - Efficient Long-Context Language Model Training by Core Attention Disaggregation|詳細メモはこちら]](登壇者: Yonghao Zhuang / CMU・UCSD ※発表者は未確認。論文 PDF・スライドのみに基づく) - 長コンテキスト訓練では core attention(CA)が $O(l^2)$・残りが $O(l)$ と複雑性が異なり、document packing で DP/PP グループ間に straggler が生じる。メモリ均等化と compute 均等化の同時達成が困難。 - 提案 **CAD** は CA が (1) divisible/composable(FlashAttention は 128-token 単位、異なる document の shard を融合 batch 可、shard≥128 で peak throughput)・(2) stateless(パラメータも保存 activation も不要、QKV 送信のみ)の 2 観察に基づき、CA を **attention server** プールへ分離・再バッチして均等化。 - システム **DistCA**: communication-aware greedy scheduler(priority $E=\Delta F_{max}/V_{comm}$、$O(NK)$・50〜300ms)、all2all で qkv/CA 出力を往復、**ping-pong 実行**で通信を計算に完全オーバーラップ、**in-place attention server** でメモリ維持。 - 評価: 512 H200 GPU(最大 64 ノード)・512K context、Llama-3-8B/34B、Pretrain/ProLong。**Megatron-LM 比最大 1.9×(3D)/1.83×(4D・8B)、WLB-ideal 比 1.35×、FlexSP+ 比 1.20×**。QKV split/merge は iteration の 0.42〜2.15%。 - 実装は約 2K 行 Python+1K 行 CUDA/C++(NVSHMEM)で Megatron-LM に統合。Code: github.com/hao-ai-lab/DistCA。 > [!note] セッション構成について > 本セッションのディレクトリ名は "LLM Training 1"。音声文字起こしで発表順を確認できたのは BOOST(第1発表)と FCP(第2発表)のみで、NEST / MTraining / ProTrain / DistCA の登壇順・正確な発表時刻・発表者個人は資料から特定できなかった(論文 PDF・スライドのみに基づき作成)。 #### Keynote: Amin Vahdat — SVP and Chief Technologist, AI & Infrastructure (10:30 - 11:30) > [[2026__MLSys2026__Amin Vahdat Keynote - The Architecture of Intelligence|詳細メモ・Q&A はこちら]](登壇者: Amin Vahdat / Google, SVP & Chief Technologist, AI & Infrastructure) - テーゼ: 産業革命との類比。蒸気機関が「筋力」を人間/動物の力から切り離して数百万倍に増幅したように、AI は「知能」を増幅する(mind multiplier)。効率化は総消費を減らさず逆に増やす(Jevons パラドックス、石炭 5x→需要激増、1865 年)。知能需要は飽くなきもの。 - 知能への道は大きなモデルだけでなく**計算スタックの根本的再アーキテクチャ**を要する。需要は年率 10x、スケーリング効率を「毎年 4x、5 年で 1000x」加速する必要があり、Moore's law 等は鈍化。Sutton "Bitter Lesson"。 - ハードは**専門化の第 2 の波**(ネットワークスイッチに次ぐ、CPU 比 100x〜1000x)。TPU の歩み(v1 → 256 pod → 256/1k/4k/8.9k+ 接続 → 第 8 世代で**学習用 v8T/推論用 v8I** の 2 チップ)、~10MW 級スーパーコンピュータ。 - ネットワークが全スケールの鍵: chip〜rack〜建屋〜惑星〜宇宙。v8I の **board fly トポロジ**(直径 1/2)、**OCS(光回線交換)**で故障時もトポロジ即再構成、**ICI** を計算に統合し最大 9,600 TPU で 2PB 共有メモリ帯域、**Jupiter** は 47 Pbps bisection(~100 万 TPU/GPU 非ブロッキング)、**B4** WAN、投機的な宇宙 "space factory"(太陽光 ~5x 効率)。 - ソフトは単一ワークロードのベンチでなく**フリート全体の goodput** が指標(Borg、**GX = Google Accelerator Units** のクレジット経済、近刊 OSDI 論文)。Google の第一義指標は performance per division Watt/per carbon。技術者は移行の "messy middle" を導く責任を負う。 #### Fireside Chat (11:30) #### Research Track Oral: LLM Serving 3 & ML for Systems (13:30) > [\!note] セッション構成について > 本セッションのディレクトリ名は "LLM Serving 3 & ML for Systems"(ここに含めたのは ML for Systems の 6 トーク)。音声文字起こしで発表順を確認できたのは FlashInfer-Bench(第1)→ Virtual Machine NUMA Placement(第2)→ When Machine Learning Isn't Sure(第3)→ Practical Adversarial Multi-Armed Bandits(第4)の 4 件。残る Automated Algorithm Design / Unified LLM Model for PPA は文字起こし対象外で登壇順・正確な発表時刻・発表者個人を特定できなかった(論文 PDF・スライドのみに基づき作成し末尾に配置)。 ##### FlashInfer-Bench: Building the Virtuous Cycle for AI-driven LLM Systems / Shanli Xing (ML for Systems) > [[2026__MLSys2026__FlashInfer-Bench - Building the Virtuous Cycle for AI-driven LLM Systems|詳細メモ・Q&A はこちら]](登壇者: Shanli Xing / University of Washington) - テーゼ: LLM エージェントが生成する GPU カーネルを本番推論エンジンへ回す「好循環(virtuous cycle)」を作る。生成→ベンチマーク→デプロイを閉じる標準フレームワークが FlashInfer-Bench。 - 中核 FlashInfer Trace(Definition/Workload/Solution/Evaluation の 4 スキーマ)で人間・エージェント・コンパイラ非依存にカーネルを記述。実サービングトレースから 79 definitions / 2,474 workloads のデータセットを構築。 - ベンチマークは決定的/低精度/確率的カーネルを正当性検証し、sandbox 分離で reward hacking を防止。`flashinfer_bench.apply()` が SGLang/vLLM へゼロコード変更で最良カーネルを動的注入(E2E オーバーヘッド 0.8% 未満)。 - B200 評価の知見: 正当性エラーの大半はコンパイル失敗(32 中 30)、モデルは tcgen05 等の HW intrinsics を活用できず、Triton は高正当性・CUDA は高ピーク性能の言語トレードオフ。エージェントは cuBLAS 呼び出しを学習し GEMM で対 PyTorch 116×(平均 26×)。 - 正当性率は gpt-5 83.9% / o3 71.3% / gemini-2.5-pro 48.8%。GQA Ragged・MLA・MoE は FlashInfer ベースラインの 0.4× 未満で tiling/pipelining 不足が課題。限界は multi-GPU/通信カーネル未対応。 ##### Virtual Machine NUMA Placement at Scale: Learning the Norm, Shielding the Tail / Yibo Zhao (ML for Systems) > [[2026__MLSys2026__Virtual Machine NUMA Placement at Scale - Learning the Norm, Shielding the Tail|詳細メモ・Q&A はこちら]](登壇者: Yibo Zhao / Northeastern University、Microsoft 協業) - テーゼ「learn the norm and shield the tail」。NUMA placement の不適切さは最大 30% 超の性能劣化を生むが、VM の多様性・日次 drift・tail 問題のため大規模最適配置は困難。システム名は Catur。 - 平均性能は RL(POMDP/DQN)で学習。既存ヒューリスティックを抽象化した 4 つの primitive(CoreBestFit 等、配置の 98.5% をカバー)を行動空間にして model collapse を防ぎ、load-aware reward shaping で skew した hard case から学ぶ。 - tail は speculative shielding で遮蔽。NUMA-state transition tree を 1-3 step 先まで木探索し、性能異常(COR+RMR>40%)に至る action を回避。correctable anomaly を baseline の 222K-383K から約 17K へ 13-23x 削減。 - 1 億超 VM の production trace で評価。average resource defect を baseline 比 34.2%-50.0% 削減(Catur 0.73% vs 1.11-1.46%)、ticket ratio も約 30-48% 削減。drift には 11 iteration で適応し再訓練コスト 93.9% 削減。 - takeaway: 学習ベース意思決定を実クラウドへ deploy する blueprint。CloudX に early trial で deploy 済み。RL は約 1ms で critical path に乗り、speculative shielding/Oracle は offline 限定。 ##### When Machine Learning Isn't Sure: Building Resilient ML-Based Computer Systems by Embracing Uncertainty / Varun Gohil (ML for Systems) > [[2026__MLSys2026__When Machine Learning Isn't Sure - Building Resilient ML-Based Computer Systems by Embracing Uncertainty|詳細メモ・Q&A はこちら]](登壇者: Varun Gohil / MIT CSAIL, advised by Christina Delimitrou。共著: MIT 4 名 + Google 4 名(Sundar Dev・Gaurang Upasani・David Lo・Parthasarathy Ranganathan)) - テーゼ: ML model は poor generalizability ゆえ OOD データで mispredict し、誤予測がシステムに伝播して bad decision を生む。**accuracy は proactive に測れないため、測定可能な uncertainty を generalizability の proxy** として使い、`uncertainty > threshold` のとき ML 予測を棄却して伝統的 heuristic(human / non-ML)に graceful に fall back する。 - uncertainty estimator を 3 種に分類しトレードオフ整理(Table 3): **Bayesian**(efficacy 高・latency ms–secs・model-agnostic 不可・unit-consistent)、**Conformal Prediction**(efficacy 高・latency ms・model-agnostic 可・calibration data 必要)、**Distance-based**(efficacy 低中・latency μs・bytes メモリ)。唯一最適な estimator は無い。 - ケーススタディ Sinan(DeathStarBench social network を 7-node にデプロイ、user>150 で OOD): 素の Sinan は OOD で QoS violation が 450 users で 22% 超に急増。**fixed model architecture 制約があるため model-agnostic な conformal prediction が最適**で QoS violation を削減(CNN→BNN+Bayesian は最良だが architecture 変更が必要で不可)。conformal は ML 予測と同単位(ms)で unit-consistent、threshold は 15% relative uncertainty(約 10ms)。 - 3 ケースの俯瞰: Server Provisioning(latency ~hours・制約なし)→ **Bayesian**、Microservice Mgmt(~ms・fixed arch)→ **Conformal**、Storage I/O Routing(~μs・fixed arch、Heimdall ベース、distance 推定 7μs vs BNN 238μs)→ **Distance-based**。最適 estimator はタスクの runtime budget と design 制約に依存。 - Takeaway: (1) poor generalizability が "ML for Systems" を unreliable にする、(2) uncertainty を generalizability の proxy に proactive 利用、(3) estimator 特性をタスクの runtime・design 制約と align させる。Q&A: 本手法は model retraining/adaptation と orthogonal(estimator も同様に再 calibration する)。 ##### Practical Adversarial Multi-Armed Bandits with Sublinear Runtime / Kasper Overgaard Mortensen (ML for Systems) > [[2026__MLSys2026__Practical Adversarial Multi-Armed Bandits with Sublinear Runtime|詳細メモ・Q&A はこちら]](登壇者: Kasper Overgaard Mortensen / Aarhus University) - 非定常な敵対的 combinatorial MAB を「結果品質より runtime」の観点で扱い、arm 数 k に sublinear なアルゴリズムを目指す。動機は database index tuning で既存 bandit(DBABandit/HMAB)が非定常ワークロードで「何もしない」より遅くなる極端ケース。 - Exp3 を効率化: sum-heap サンプリング+log scale weight(数値安定)で per-step $\mathcal{O}(\log k)$ 化(「実は 10 年前に解かれていた忘れられた folklore」を end-to-end 実用化)。combinatorial 版 Exp3.M を $\mathcal{O}(k \log m)$ → $\mathcal{O}(m \log k)$ に改善。 - 提案 **QBL(Queuing Behind the Leader)**: Exp3 の single-weight 更新と follow-the-leader を融合し、選んだ arm だけ更新。leader が改善し続ける間は update を skip、悪化/良すぎたら priority queue で demote(ランダム化付き、高々 k 回で必ず置換)。計算量 $\mathcal{O}(m \log k)$、調整パラメータは $\gamma$ の 1 つのみ。 - 実験: index tuning(TPC-H 10/50GB)で QBL.M は index 再生成を回避し index 利用率 ≈60%(DBABandit 50% / HMAB 39%)。模擬非定常環境(Mod2 / Stochastic constrained / Tent map)で dynamic regret・runtime とも高 k で優位。コード github.com/AU-DIS/QBL。 - regret 保証は未解決(preliminary step)。シンプルで scalable な adversarial bandit baseline と controlled regret への一歩。 ##### Automated Algorithm Design for Auto-Tuning Optimizers / Floris-Jan Willemsen ら (ML for Systems) > [[2026__MLSys2026__Automated Algorithm Design for Auto-Tuning Optimizers|詳細メモはこちら]](登壇者: Floris-Jan Willemsen / LIACS, Leiden University ※発表者は未確認。論文 PDF・スライドのみに基づく) - テーゼ: auto-tuning の最適化アルゴリズムを人手設計せず、**LLM に自動生成・進化させる**初の閉ループ・メタ最適化フレームワーク。Kernel Tuner(auto-tuner)× LLaMEA(LLM 進化アルゴリズム)を統合し、LLM はアルゴリズムのロジックのみ生成(カーネル/データ/精度には不干渉)。 - 動機: HW 寿命は短く(スパコン平均 5.2 年・GPU アーキ 1.96 年)アプリは長寿命(平均 30.2 年)。auto-tuning 探索空間は large・discontinuous・irregular で良構成が稀。「なぜ auto-tuning 専用 optimizer が無いのか」という research gap に対し設計を自動化。 - 手法: EA メタ戦略(parent 4 + offspring 12/世代、mutation 12 種)で候補 optimizer を生成、Kernel Tuner 上の性能スコア(ランダム探索比の性能-時間曲線下面積)で評価・淘汰。GPT o4-mini 使用、100 LLM calls/run × 5 run(計 4000 calls)、約 25% は失敗するが進化で淘汰。 - 評価: BAT の 4 カーネル(dedispersion/convolution/hotspot/GEMM)× 6 GPU = 24 探索空間(train 12 / test 12)。探索空間情報の追加で平均 **+14.6%**(dedispersion/GEMM で顕著)、ターゲット特化で平均 **+30.7%**。best 2 つ(HybridVNDX, AdaptiveTabuGreyWolf)は人手設計(Kernel Tuner GA/SA, pyATF DE)を平均 **72.4%** 上回る(GA 比 +0.126・SA 比 +0.282・DE 比 +0.274)。 - Takeaway: LLM 生成 optimizer は人手設計に匹敵・凌駕し、未学習の GPU/アプリへも汎化。best は `pip install kernel-tuner` に取込済み、LLaMEA は `pip install llamea`、実装は BLADE suite。Code: github.com/XAI-liacs/BLADE。 ##### Unified LLM Model for Power, Performance, and Area Prediction from Hardware Code / Armin Abdollahi (ML for Systems) > [[2026__MLSys2026__Unified LLM Model for Power, Performance, and Area Prediction from Hardware Code|詳細メモはこちら]](登壇者: Armin Abdollahi / USC ※発表者は未確認、論文・スライドのみに基づく) - RTL(Verilog)から合成を走らせず PPA(area / delay / total power / static power)を予測する統一 condition-aware モデル **RocketPPA**。PPA は RTL 単体の性質でなく technology node(15nm/45nm)× optimization(area/delay)の 4 regime で変わるため、条件トークンで 1 モデルが全 regime を扱う。 - 構成は LLaMA-3.1-8B-Instruct エンコーダ + LoRA(約 8.4M 学習パラメータ、≈0.11%)+ MoE 回帰ヘッド(N=6 experts, top-3 gating, +4.7M、推論時 ≈2.35M active)。area/delay/power に別ヘッド。 - 設計空間を構造化する contrastive learning を学習時のみ追加(cross-condition / PPA-similarity / structural の 3 positive-pair 戦略、λ=0.5)。projection head は推論時に破棄し deployment コストはゼロ。 - VerilogEval(138 codes、特に Level-3 の 72 hardest)で評価。10% 許容誤差で MetRex 比 Area **+13.6pp** / Delay **+9.4pp** / Static Power **+14.7pp**。推論は **0.12 秒/設計**で CircuitFusion/MetRex 比 20× 超・MasterRTL 比 30× 超高速。 - LLM-driven repair で 20,953 合成可能モジュール(MG-Verilog/verilog_github/VeriGen)を curate。Leave-One-Regime-Out 劣化は最大約 2.5pp、cross-node few-shot(15nm 5%/10% calibration)で 4.2pp/2.7pp 劣化に留まり実用適応可能。Ablation で contrastive が精度に +2.5pp 寄与。 #### Research Track Oral: LLM Serving 4 & LLM Training 2 (15:15) - #### Research Track Oral: LLM Training 3 & Model Compression (17:00) ##### Zorse: Optimizing LLM Training Efficiency on Heterogeneous GPU Clusters / Runsheng (Benson) Guo (第1発表) > [[2026__MLSys2026__Zorse - Optimizing LLM Training Efficiency on Heterogeneous GPU Clusters|詳細メモ・Q&A はこちら]](登壇者: Runsheng (Benson) Guo / University of Waterloo。共著: Utkarsh Anand, Khuzaima Daudjee [Waterloo], Rathijit Sen [Microsoft GSL]) - テーゼ: 段階取得で生じる異世代・異ネットワーク帯域の heterogeneous GPU クラスタで、PP と DP の trade-off を解消し効率的に LLM を訓練する PyTorch FSDP ベースのシステム Zorse。 - **Pipeline-Efficient ZeRO DP**: モデルを多数の ministage に分割・interleave し、一度に 2 ministage のみ GPU 保持・残りは CPU offload。AllGather を層あたり 1 回に削減し memory 効率と通信効率を両立。 - **Heterogeneous Pipeline Parallelism + 2 フェーズ planner**: ステージ間 GPU 数・ステージ内 GPU 種別の非対称化を許容。Phase1 で min-$k$-cut 近似(帯域最小分割)、Phase2 で ministage/micro-batch 構成を列挙し 3 分以内に最適構成決定(latency/memory モデル誤差 10% 以内)。 - 主要結果: Llama 7B–65B・3 クラスタ(最大 128 GPU)で SOTA(TorchTitan-Het / HexiScale / Cephalo)比**最大 3× 高速**。ベースラインが OOM する構成でも訓練可。ministage 数で memory−40%・throughput−20% に tune 可(offload overhead 3% 未満)。 - Takeaway: heterogeneous 訓練の HFU は homogeneous subset と comparable。アルゴリズム効率を実速度に変えるにはシステムがアーキを意識する必要。 ##### GriNNder: Breaking the Memory Capacity Wall in Full-Graph GNN Training with Storage Offloading / Jaeyong Song (第2発表) > [[2026__MLSys2026__GriNNder - Breaking the Memory Capacity Wall in Full-Graph GNN Training with Storage Offloading|詳細メモ・Q&A はこちら]](登壇者: Jaeyong Song / Seoul National University, AIS Lab) - テーゼ: full-graph GNN 訓練の **GPU/host メモリ容量壁**(100M 頂点・512 隠れ・3 層で **1.2TB** GPU メモリ要求)を、NVMe ストレージへの offloading で打破する GriNNder。 - 中核機構 **cache-(re)gather-bypass**: forward で snapshot を完全スキップ、backward 時に活性を host cache から **regather/recompute**。partition-wise / hierarchical caching(cross-partition 依存が power-law)と custom gradient engine で read amplification と snapshot 冗長を排除。 - 主要数値: SOTA HongTu 比**最大 9.78×**(5 層 GCN)/ 3 層で **6.95×**、single GPU で 16-GPU 分散ベースラインに匹敵、host memory ピークを HongTu 比 **5.75×** 削減。 - ハードウェア: i9(32 threads)+128GB DDR5 + RTX 5000 (24GB) + PCIe5 NVMe SSD の単一ワークステーション。 - Takeaway: 高帯域 PCIe5/NVMe をメモリ階層として使えば single GPU でも 100M+ 規模 full-graph 訓練が実用化でき、コスト効率で分散構成を代替しうる。Code: github.com/AIS-SNU/GriNNder。 ##### HexiScale: Facilitating Large Language Model Training over Heterogeneous Hardware / Ran Yan (第3発表) > [[2026__MLSys2026__HexiScale - Facilitating Large Language Model Training over Heterogeneous Hardware|詳細メモ・Q&A はこちら]](登壇者: Ran Yan / HKUST。共著: Youhe Jiang, Xiaonan Nie, Fangcheng Fu, Bin Cui, Binhang Yuan / HKUST・北京大学・上海交通大学) - テーゼ: 散在する旧世代・異種 GPU を統合し LLM 訓練の参入障壁を下げる。data/pipeline/tensor 並列の全枠組みで**非対称(asymmetric)並列**を許し(pipeline 内・間で TP degree・層数・batch size を可変に)、placement を制約付き最適化として定式化、**two-phase graph partitioning**(global graph partitioning + pipeline construction)で効率解を求めるオープンソース訓練システム。 - 主要数値: 非対称化で symmetric 比 **1.6×**(case study)。同一 FLOPS の homo ベースライン比は平均 **0.83×・最大 1.01×**、hetero-aware ベースライン比 **1.5×〜2.4×** 高スループット。 - scheduler は random graph partition 比 **1.3×〜3.3×**、1024 GPU でも scheduling 約 372s と manageable。 - 2 課題: device heterogeneity(強力な GPU が弱い GPU に律速され under-utilize)と network heterogeneity(NVLink 300+ GB/s vs PCIe/ethernet 0.5 GB/s)。 - Takeaway: ヘテロ GPU でも homo に肉薄するスループットを達成。OSDI/SOSP 等の baseline に採用済みで、非対称並列とグラフ分割スケジューラの両輪が鍵。 ##### A Lightweight High-Throughput Collective-Capable NoC for Large-Scale ML Accelerators / Luca Colagrande (第4発表) > [[2026__MLSys2026__A Lightweight High-Throughput Collective-Capable NoC for Large-Scale ML Accelerators|詳細メモ・Q&A はこちら]](登壇者: Luca Colagrande / ETH Zurich, IIS・PULP Platform、指導 Luca Benini) - テーゼ: オープンソース NoC **FlooNoC** を拡張し、ML 加速器の regular トラフィックに最適化した軽量・高スループットな **multicast / reduction 対応 NoC** を提案(picobello SoC、4×4 compute tiles + L2 tiles、wide/narrow network 上で実証)。 - 中核 **Direct Compute Access (DCA)**: 相互接続ファブリックに compute cluster の既存 ALU への直接アクセスを与え、512-bit wide reduction を新規 ALU なしで実現。「in-network arithmetic reduction はコスト過大」の定説を初めて覆す。 - multi-address (addr+mask) encoding で 2D mesh の複数宛先を log スケールで表現(宛先数に対し定数)。 - 主要数値: router 面積 **+16.5%**(multicast +5.8% / narrow redu +2.9% / wide redu +8.2%)、NI **+3.5%**、**system <1%**。multicast geomean **2.9×(最大 5.3×)**・reduction geomean **2.5×(最大 2.8×)**、GEMM 最大 **3.8× 高速・1.17× 省エネ**。 - Takeaway: collective 加速をほぼ無視できる system 面積コストで実現。フルオープンソース(pulp-platform/{FlooNoC, picobello})。 ##### DreamDDP: Accelerating Low-Bandwidth Geo-Distributed LLM Training with Layer-wise Partial Synchronization / Zhenheng Tang ほか(代理発表)(第5発表) > [[2026__MLSys2026__DreamDDP - Accelerating Low-Bandwidth Geo-Distributed LLM Training with Layer-wise Partial Synchronization|詳細メモはこちら]](登壇者: 代理発表(文字起こしでは "Willie"、断定不可)。著者: Zhenheng Tang・Zichen Tang ら / HKUST・HKUST(GZ)・香港浸会大学・哈爾濱工業大学) - テーゼ: geo 分散・低帯域(10Mbps〜1Gbps、データセンター内より 1〜3 桁低い)では通信時間が計算時間を支配。Local SGD は通信を $1/H$ に減らすが full synchronization が BP との通信オーバーラップを妨げる。DreamDDP は**モデル同期を layer 単位で疎結合化(partial synchronization, PLSGD)**し in-place 同期を後続 layer の BP とオーバーラップ。 - 手法: (1) S-SGD と同等の収束率 $\mathcal{O}(1/R)$ を理論保証する PLSGD、(2) GPU メモリ追加なしの in-place オーバーラップ、(3) 3 性質で探索空間を $\mathcal{O}(2^{\min(L-H,H)})$ に削減する DFS スケジューラ。 - 主要数値: 32 GPU・ResNet/GPT-2/Llama-2/Qwen で、ASC-WFBP 比 **1.73×〜5.22×**、FLSGD 比 **1.16×〜1.5×** のイテレーション高速化。wall-clock 収束は ASC-WFBP 比**最大 3.91×**、FLSGD 比**最大 1.56×**。 - Takeaway: Local SGD の「全モデル一括同期」を layer 単位に分解し、収束率を犠牲にせず通信–計算オーバーラップを取り戻す。スライド PDF 無し・文字起こしも冒頭で途切れのため**詳細は論文 PDF が主出典**。Code: github.com/trl730109/DreamDDP(MIT)。 ##### FP8-Flow-MoE: A Casting-Free FP8 Recipe without Double Quantization Error / Fengjuan Wang ほか (第6発表・推定) > [[2026__MLSys2026__FP8-Flow-MoE - A Casting-Free FP8 Recipe without Double Quantization Error|詳細メモはこちら]](登壇者: Fengjuan Wang ら / Zhejiang Lab ※発表者個人は録音対象外で特定不可。論文 PDF・スライドのみに基づく) - テーゼ: FP8 MoE 訓練は BF16 主体データフローの冗長キャストで FP8 の利点を失い、キャスト除去すると double quantization error(layout 跨ぎで不整合なスケーリングファクタ)が生じる。 - 手法: **scaling-aware transpose**(2 のべき乗スケールで指数ビット操作のみの row→column 変換、Algorithm 1)と **fused FP8 operators** で量子化整合的な FP8 中心データフローを構築し、明示的キャストを **12 → 2** に削減。 - 主要数値(DeepSeek-V3 671B / 32 ノード Hopper): BF16 比スループット **+6〜16%**、TE blockwise FP8 比最大 **+21%**(EP32)。peak memory を BF16 比 ~8GB・TE FP8 比 **16.5GB** 削減。EP32 で BF16/TE FP8 が OOM する一方 FP8-Flow-MoE は安定。 - 収束: BF16 とほぼ同一(相対 loss 誤差 0.19% 未満、200B トークン)。 - Takeaway: FP8 の有効性は drop-in カーネル置換でなくデータフロー設計に依存。TransformerEngine / Megatron-LM 互換の plug-and-play レシピ(複数 PR が upstream マージ済み)。 > [!note] セッション構成について > 本セッションのディレクトリ名は "LLM Training 3"。音声文字起こしで発表順を確認できたのは Zorse(第1)→ GriNNder(第2)→ HexiScale(第3)→ NoC(第4)→ DreamDDP(第5、冒頭で録音終了)。FP8-Flow-MoE は録音対象外で登壇順・正確な発表時刻・発表者個人を特定できなかった(論文 PDF・スライドのみに基づき第6・最終と推定)。各トークの 17:00 PDT 開始・15 分枠は推定。 #### Poster Session 2 (18:30 - 20:30 Evergreen Ballroom) ### Day 4 (May 21 / Thu) #### Industry & Research Track: Agentic AI/MLSys & LLM Serving 5 (08:30) - #### Keynote: Rethinking Pretraining: Data and Architecture / Luke Zettlemoyer (10:30) > [[2026__MLSys2026__Rethinking Pretraining - Data and Architecture|詳細メモ・Q&A はこちら]](登壇者: Luke Zettlemoyer / University of Washington・Meta) - テーゼ: 事前学習で重要なのは結局**データ**。新アーキ(Transformer 変種・MoE)は「データからより多くを引き出す」発想が動機で、狙いはスケーリング曲線の**交差**と**新能力の解禁**。 - 第 1 部(LIMA/ALMA/s1/RLVR): 最小限の post-training でも能力が出る → 「高度な能力は事前学習に既にあり、再配置・制御の問題」。約 1,000 例で SOTA post-training の約 80%、s1 は CoT 1,000 例+"wait" 挿入で高級モデルに匹敵。 - 第 2 部 BLT(tokenizer-free): バイトレベル階層 Transformer。エントロピー高所で動的 patching し難所に FLOPs を配分。BPE 嫌い(前処理・変更困難・言語間不公平)。推論コスト固定で曲線交差、タイプミス頑健性ほぼ 100%。新論文で「学習予算大ほど最適圧縮率は下がる/最適圧縮は言語依存」。 - 第 3 部 FlexOlmo(UW×AI2): dense からモジュラー MoE へ。public ベース+private expert を独立学習し、**非パラメトリック・ルータ**で再学習なしに expert を追加・削除(決定境界を private 側に寄せる)。news expert を除くと news 性能だけ低下=情報の局所化。8 experts 規模。 - 結論: 事前学習 vs post-training は要・科学(監督比率が指標)。BLT/FlexOlmo はスケール継続と post-training・安全性が課題。コード・モデルは公開。 #### Industry & Research Track: LLM Serving 6 & Efficient ML (13:00) - #### Industry & Research Track: LLM Training 4 & Benchmarks (14:45) - #### Industry & Research Track: Benchmarks & Compilers/Kernels (16:30) - #### Poster Session 3 (18:00 - 20:00 Evergreen Ballroom) ### Day 5 (May 22 / Fri) #### Industry & Research Track: Compilers/Hardware & Efficient Computation (08:15) - #### Keynote: The Path to Inference Efficiency / Christos Kozyrakis (09:45) > #### Competition Track: Google / NVIDIA / Amazon (11:00) - #### Social: Ice Cream Social (NVIDIA) (13:30 - 15:00 Juniper room) ## Networking - ## Notes & Thoughts