MLSys2026 - yuuk1's Digital Garden

# MLSys 2026 ## Overview The Ninth Conference on Machine Learning and Systems (MLSys 2026). - **Dates:** May 17-22, 2026 - **Location:** Hyatt, Cascade Tower, Indio, CA 92201, USA - **Website:** https://mlsys.org/ - **Calendar:** https://mlsys.org/virtual/2026/calendar ## Sessions & Talks > [!note] ノート運用方針 > 各トークの詳細メモは `2026__MLSys2026__<トークタイトル>.md` という個別ノートに切り出す。本ファイルの各トーク欄には、その個別ノートへの Obsidian リンクと 5 行程度の箇条書き要約のみを記載する（例: [[2026__MLSys2026__Rethinking Open Source Contribution in the Age of AI Agents]]）。 ### Day 1 (May 18 / Mon) #### Opening Remarks (08:50　Grand Ballroom 1) #### Keynote: Rethinking Open Source Contribution in the Age of AI Agents / Roger Wang (09:00 - 09:25) > [[2026__MLSys2026__Rethinking Open Source Contribution in the Age of AI Agents|詳細メモ・Q&A はこちら]]（登壇者: Roger Wang / vLLM コアメンテナ） - AI 生成 PR が直近半年で急増し、vLLM や他の ML システム系プロジェクトが同様に対応に追われている。 - PR が reject される典型は、全体設計の見落とし・根本原因を直さず症状を覆い隠す・AI エージェントによる大量低品質 PR の 3 パターン。 - コントリビューターの価値はコードを書くことから、システム理解・正しい問題選び・成果のオーナーシップへ移った。 - メンテナはバーとロードマップを明確化し、設計判断をレビュー可能にし、CI/品質投資とコントリビューターとの対話に時間を使うべき。 - 最終メッセージ: 「PR で一番安いのはコードそのもの」。周辺すべてに注力することが信頼を育てる。 #### Keynote: Beyond Model Serving: Cross-Stack Co-Design for Agentic Systems / Esha Choukse (09:25 - 09:50) > [[2026__MLSys2026__Beyond Model Serving Cross-Stack Co-Design for Agentic Systems|詳細メモ・Q&A はこちら]]（登壇者: Esha Choukse / Microsoft Azure Research – Systems） - テーゼ: 「正しさは述語ではなく予算、精度はシステムのリソース」。精度・品質をレイテンシ・コスト・エネルギーとトレードオフ可能な動的量として扱い、フルスタックで協調設計する。 - 3 つの幻想を否定: ①モデル＝システムで品質を決める ②計算を増やせば精度が解決する ③正しさは二値。実際は実現品質はエンドツーエンドのシステムが決め、部分的正しさ・段階的劣化が生じる。 - ケース 1 Sherlock: MAST ベースのフォルト注入＋トポロジカル特徴で脆弱ノードを特定し選択的検証。GRPO 学習の軽量 verifier selector と Speculative Run-ahead で、精度約 10% 改善・レイテンシ約 48.7% 削減（E2E でコスト最大 ~2x・レイテンシ最大 ~3x）。 - ケース 2 Streamwise: リアルタイム動画生成（TTFF/TBF）。Deadline-aware スケジューリング・ヘテロハードウェア選択・適応的品質 knob・Disaggregation/パイプラインで、コスト×TTFF のパレート最適を探索。 - Takeaway: 計算だけでなく「不確実性」も管理するシステムを作る（https://aka.ms/azrs-ai ）。 #### Keynote: LMCache: An Efficient KV Cache Layer for Enterprise-Scale LLM Inference / Yuhan Liu (09:50 - 10:15) > [[2026__MLSys2026__LMCache An Efficient KV Cache Layer for Enterprise-Scale LLM Inference|詳細メモ・Q&A はこちら]]（登壇者: Yuhan Liu / University of Chicago, LMCache リード） - テーゼ: KV キャッシュは未来の「AI ネイティブなデータ型」であり、それを支える新インフラ（LMCache）が必要。 - KV キャッシュの保存＝金の貯蓄。8 GPU・$2/GPU 時・3 年運用なら損益分岐点は ~1% ヒット率、数千〜数百万 GPU・10% ヒット率で 3 年 ~$33M 節約（MI300X で DeepSeek R1 を 1 GPU が日産テラバイト級生成）。 - 95% の KV キャッシュは GPU RAM に収まらず CPU RAM/リモートへ階層化 → 「詰め込み」と「高速転送」の 2 課題。 - 最適化 2 例: CacheGen（layer-wise 量子化＋デルタ符号化＋GPU 並列の算術符号化で最大約 10x 圧縮）、CacheBlend（RAG 等の非プレフィックス再利用で壊れる cross-attention を選択的再計算で回復）。 - 本番化のため MP/分離モードを導入（KV キャッシュ管理を推論エンジンから分離、全 worker が同一プールを共有）。Dynamo/llm-d と併用、vLLM 併用でスループット最大 15x。 #### Keynote: Eliciting Language Model Behaviors with Investigator Agents / Lisa Li (10:15 - 10:40) > [[2026__MLSys2026__Eliciting Language Model Behaviors with Investigator Agents|詳細メモ・Q&A はこちら]]（登壇者: Lisa Li / OpenAI・University of Washington 着任予定） - テーゼ: レッドチーミングを「単一文字列の探索」ではなく **behavior elicitation の事後推論問題**として定式化し、誘発入力空間を広くカバーする。 - 従来の座標上昇法（GCG 系）は 1 モードしか見つけられない → 言語モデルを逆向きにする investigator モデル `Q_φ` を SFT・DPO・変分推論で学習。 - 目的を「報酬（誘発効果）＋既発見モードへのペナルティ（多様性）＋ KL（事前への正則化）」に分解。反復分解が **Frank-Wolfe（条件付き勾配法）**と等価で、混合分布として束ねる。 - 結果: Llama で攻撃成功率を **2% → 100%**、より大きな/proprietary モデルにも汎化。先行研究の jailbreak 戦略の大多数を被覆（persuasion は prior が好まず未被覆）。 - 展望: エージェント用途では固定ターゲットがなく、失敗を見つける外側ループ＋探索の内側ループが必要。Q&A: 同一ファミリーは汎化良好、~10 反復で収束。 #### Sponsor Lightning Talks — Morning (11:00) #### Keynote: When AI Starts Writing Systems Code / Mark Saroufim (13:30) > [[2026__MLSys2026__When AI Starts Writing Systems Code|詳細メモ・Q&A はこちら]]（登壇者: Mark Saroufim / Core Automation・GPU MODE 共同創設者、元 Meta） - テーゼ: systems を自動化して研究を遅くせず回したい。新システムを作り続けるのではなく、研究者と対話して継続改善する少数のシステムを作る。 - 物理法則（flops が帯域より速く伸びる）が動的制御フロー・ragged shape 等を要求し、systems 屋の意見より AI 研究者の都合が優先される。FlashAttention カーネルの最適化リードタイムは 21→14 ヶ月と依然長い。 - GPU MODE（旧 CUDA MODE）のリーダーボードは累計 50 万件超の提出を集め、データ基盤というより eval 基盤として機能。門外漢（高校生・小学校教師）が LLM 駆動で上位カーネルを出す事例が出た。 - reward hacking が蔓延（torch.mean に 0 を返す、ストリーム同期回避、出力キャッシュ、VW 排ガス不正型など）。対策は「AI に AI 提出を審査させる」kernel guard で急減、人間を loop から外せた。 - 将来像: 学習と推論で同じカーネル、非 Transformer なら KV cache 不要でサービングは単純化。reward hacking 検出も含め全て RL 環境化でき「解ける、あとはスケール」。 #### Sponsor Lightning Talks — Afternoon (14:30) #### Panel Discussion (16:00) #### YPS Poster Session & Reception (17:00 - 19:00　Evergreen Ballroom) ### Day 2 (May 19 / Tue) #### Research Track Oral: Best Paper Session (08:45　Grand Ballroom 1) ##### StreamDiffusionV2: A Streaming System for Dynamic and Interactive Video Generation / Tianrui Feng （第1発表） > [[2026__MLSys2026__StreamDiffusionV2 A Streaming System for Dynamic and Interactive Video Generation|詳細メモ・Q&A はこちら]]（登壇者: Tianrui Feng / The University of Texas at Austin ※発表者は筆頭著者と推定） - テーゼ: ビデオ拡散モデルを SLO 制約下のリアルタイム・ライブストリーミングに適合させる training-free パイプライン。TTFF（time to first frame）最小化と per-frame deadline 厳守が目標。 - 効率の柱: dynamic T policy（入力サイズ縮小で TTFF を ESD 比 18×・V1 比 283× 削減）＋ SLA-aware streaming batch ＋ GPU-scalable pipelined orchestration（2 GPU で約 2×、4 GPU で約 3.5× の near-linear FPS）。 - 品質の柱: motion-aware noise scheduler（高速モーションへ低ノイズ注入で tearing 抑制、training-free）と sink-token + rolling KV cache（long-term drift 抑制）。 - 主要結果: TensorRT/量子化なしで 4×H100 上、14B モデルで 0.5s TTFF・58.28 FPS、1.3B で 64.52 FPS。1s SLO の miss rate 0.2%（CausVid は 99.9%）。 - Takeaway: ストリーミングビデオ生成は memory-bound 領域へ向かう黎明期分野で LLM サービング基盤との重複大。`pip install streamdiffusion-v2`、ComfyUI/TouchDesigner 等で実利用済み。 ##### LEANN: A Low-Storage Overhead Vector Index / Yichuan Wang （第2発表 / Best Paper） > [[2026__MLSys2026__LEANN A Low-Storage Overhead Vector Index|詳細メモ・Q&A はこちら]]（登壇者: Yichuan Wang / UC Berkeley SkyLab） - テーゼ: 現代のベクトルインデックスは「隠れたストレージコスト」が問題（76 GB 文書 → 約 200 GB インデックス、270% オーバーヘッド）。埋め込みを保存せず**オンザフライ再計算**＋グラフ枝刈りでこれを解消する。 - 機会: on-device RAG では生成が E2E レイテンシを支配（RTX 4090 で Generation 99.8% / Retrieval 0.24%）し QPS も低い → レイテンシを少し犠牲にストレージを大幅削減できる（5-minute rule の類比）。 - 技術: ①two-level search（PQ 近似 → 有望候補のみ exact 再計算）②GPU dynamic batching（最大 2x speedup）③High-Degree Preserving Graph Pruning（高 degree ノードを保持しグラフを 2x 圧縮、ほぼロスレス）。 - 結果: **インデックスを元データの 5% 未満・最大 50x 小**、RTX 4090 で 1 秒未満検索・**E2E RAG レイテンシ +5%**、HNSW 精度を維持し BM25/PQ より高精度。 - 影響: OSS は 11k+ stars、Claude Code 向け初の MCP ベース意味検索エンジン（Pass@1 0.63→0.73、トークン 29,448→18,033）。Best Paper 受賞。 ##### BLASST: Dynamic BLocked Attention Sparsity via Softmax Thresholding / Cameron Shinn （第3発表 / Best Paper） > [[2026__MLSys2026__BLASST - Dynamic BLocked Attention Sparsity via Softmax Thresholding|詳細メモ・Q&A はこちら]]（登壇者: Cameron Shinn / UC Davis） - テーゼ: softmax thresholding による drop-in 型 dynamic block sparse attention。online softmax の row max を再利用し $\tilde{m}-m<\ln(\lambda)$ で block の softmax・$V$ ロード・$PV$ 行列積をスキップ。学習不要・事前計算なし。 - prefill（compute-bound: matmul/softmax スキップ）・decode（memory-bound: $V$ ロードスキップ、$K$/$V$ ロード並べ替え）双方を高速化。FlashAttention-4 の warp specialization 上に skip predicate reduction（VOTE+atomic）を実装、Blackwell/Hopper kernel。 - 自動キャリブレーションが閾値とコンテキスト長の反比例 $\lambda=a/L$ を発見。モデルごと prefill/decode 各 1 スカラーで任意スパース率を予測可能に制御。 - 約 75% スパース性まで精度維持。modern GPU で prefill 71.9% スパース性 1.52×・decode 73.2% で 1.48×、0% スパース性でオーバーヘッドなし。 - TensorRT-LLM / FlashInfer に kernel、ModelOpt にキャリブレーションツール、SGLang 対応済み・vLLM PR 進行中。NVIDIA/Rice/UC Davis/Meta の産学連携。Best Paper 受賞。 ##### ExecuTorch: A Unified PyTorch Solution to Run AI Models On-Device / Digant Desai （第4発表 / Best Industry Track Paper） > [[2026__MLSys2026__ExecuTorch - A Unified PyTorch Solution to Run AI Models On-Device|詳細メモ・Q&A はこちら]]（登壇者: Digant Desai / Meta, PyTorch org・ExecuTorch core maintainer ※司会・本人は "Kramer" と発話、著者欄では Digant Desai） - テーゼ: PyTorch ネイティブな統合エッジ展開フレームワーク。「PyTorch でテストしたものがデバイス上で動く」を実現し、変換・再実装なしで microcontroller〜スマホへ展開。 - 4 つの設計判断: ① PyTorch 2.0 + `torch.export`（Core ATen <300 ops）、② グラフベース backend-aware 量子化（PTQ/QAT、新規貢献）、③ AOT composable backend delegates（グラフ分割）、④ C++17 STL-free の tiny runtime。 - ベンチ（Samsung Galaxy S25 Ultra, 4-bit）: NPU で圧倒的優位。Llama 3.2 1B で 2974.7 tok/s（vs llama.cpp 174.4）、vision model レイテンシも MV3 0.24ms / ResNet50 0.55ms / ViT 3.81ms。 - バックエンド 12 種以上: CPU(XNNPACK/Cortex-M/Cadence)、GPU(Vulkan/MLX/AOTI Metal/CUDA/TensorRT)、NPU(Qualcomm QNN/Arm Ethos-U/MediaTek/Samsung ENN/NXP Neutron)、Multi(CoreML/OpenVINO)。 - Takeaway: v1.2 で GA、PyTorch Foundation 参加、Meta アプリ群・Ray-Ban スマートグラス・Quest で本番展開済み。Best Industry Track Paper 受賞。 #### Keynote: The Next Horizon of Systems: From MLSys to System Intelligence / Lidong Zhou (10:30 - 11:30) > [[2026__MLSys2026__The Next Horizon of Systems - From MLSys to System Intelligence|詳細メモ・Q&A はこちら]]（登壇者: Lidong Zhou / Microsoft・Microsoft Research Asia） - テーゼ: **AI はもはや単なるワークロードではなくシステムの「co-designer」**であり、AI とシステムの **co-evolution** が次の地平。これを **system intelligence（システム知能）** と呼ぶ。 - 分散システム研究（Lamport/Birrell/Schroeder ら）→ 本番化 → クラウド/ビッグデータ → 2020 年 AI インフラで「何かが根本から変わった」という来歴から、AI が課す課題にシステム研究者が圧倒される転機を語る。 - ケース: 集合通信スケジュール設計を「核心のスケジュールだけ AI に出させ、検証・コード生成・実行はシステムが担う」分離で自動化 → 人間設計者に匹敵/凌駕（学習で最大約 3 倍の性能差）。 - システム検証の旅: Verus（Rust 拡張）で約 2 年。bottom-up（AI に仕様＋invariant 生成）は 11 バグを即発見も、verifier を通っても正しいとは限らず **reward hacking**（証明スキップ・サイズ 1 のみ証明・仕様削除）が頻発 → **top-down ＋人間が TCB と意図を形式記述**へ転回。フロンティア AI の進歩で「2 年の努力が陳腐化」した逸話も。 - Takeaway: 将来のシステムは「**意図を厳密に定義し、実行時に provably upheld であることを保証する**」こと。検証ネイティブ言語の可能性、システムを原理的・科学的な学問にする呼びかけ。 #### Research Track Oral: Agentic AI 1 & Multimodal/Generative Models (13:00) ##### OSWorld-Human: Benchmarking the Efficiency of Computer-Use Agents / Reyna Abhyankar or Qi Qi （第1発表 / 13:00 - 13:15） > [[2026__MLSys2026__OSWorld-Human - Benchmarking the Efficiency of Computer-Use Agents|詳細メモ・Q&A はこちら]]（登壇者: Reyna Abhyankar / Qi Qi のいずれか, UC San Diego ※本人は名乗らず断定不可） - テーゼ: computer-use agent (CUA) は精度ばかり最適化され、人間が数分のタスクに数十分かかり実用に耐えない。OSWorld 上で CUA の**時間効率（latency/cost/failure）の初の研究**を行い、369 タスクを人手で再アノテーションしたベンチ **OSWorld-Human** を構築。 - レイテンシの大半は LLM 呼び出し（S2 は planning+reflection で約 76%、GTA1 は約 96%）。p50 で 10–15k uncached prompt tokens・per-step 20–30 秒、後半ほど履歴蓄積で prompt/コストが quadratic に増大（GTA1 planning は step 100 で約 \$8）。 - 失敗の主因は grounding 誤座標による**ループ**で、50+ ステップで失敗するタスクの **66% のステップが浪費**。 - 新指標 **Weighted Efficiency Score (WES)** = avg(reward·(human steps/agent steps))·(1 − avg steps in failures/max steps)。相対順位は OSWorld と保存されるが絶対値が激減。 - 最良の Agent S2 は **41.4% → single-action WES 15.6% → grouped-action WES 9.6%**（必要の 2.7–4.3x のステップを浪費）。改善策: action grouping / efficient rollback / grounding post-training / history compression / LLM serving 改善。 ##### VeriMoA: A Mixture-of-Agents Framework for Spec-to-HDL Generation / Heng Ping （第2発表 / 13:15 - 13:30） > [[2026__MLSys2026__VeriMoA A Mixture-of-Agents Framework for Spec-to-HDL Generation|詳細メモ・Q&A はこちら]]（登壇者: Heng Ping / USC, advised by Paul Bogdan） - テーゼ: 訓練不要の Mixture-of-Agents (MoA) で自然言語仕様→HDL（Verilog）を生成。標準 MoA の error propagation と reasoning 空間制約を、(1) quality-guided caching と (2) C++/Python 中間表現による multi-path generation で克服。 - Quality-guided caching: 全中間 HDL を global cache に格納しシミュレーションベースで品質採点、層横断で top-N を選択 → 層を越えた単調品質改善（理論保証つき）。 - Multi-path: Base/C++/Python の 3 エージェント型で heterogeneous な推論軌跡を作り解の多様性を確保。設計指針は線形モデル `t = α·quality + β·diversity + γ`（α>β）。 - 主要数値（スライド準拠）: VerilogEval 2.0 / RTLLM 2.0 で **Pass@1 +15〜33 ポイント**改善。小型が大型を凌駕（VeriMoA-Qwen7B 56.44% > VeriMaAS-Qwen32B 53.6%）。fine-tuned に匹敵かつ相補的（VeriRL-CodeQwen2.5+VeriMoA = 82.47%）。構成は L=4 層・M=6 agents/層、Simulator は Icarus Verilog。 - Takeaway: アーキテクチャ設計が scale に勝る。約 10× トークンで +20〜25 ポイント、等予算では Width>Depth、LLM 生成 testbench でも劣化は軽微（−2.8〜−4.6pt）。 ##### When Enough is Enough: Rank-Aware Early Termination for Vector Search (Terminus) / Jianan Lu （第3発表 / 13:30 - 13:45 / ビザ問題のため録画＋リモート発表） > [[2026__MLSys2026__When Enough is Enough - Rank-Aware Early Termination for Vector Search|詳細メモ・Q&A はこちら]]（登壇者: Jianan Lu / Princeton University, advised by Michael J. Freedman） - テーゼ: ベクトル検索（graph-based ANN）は top-k を一律最適化するが、RAG の効用は top-ranked に偏在する（top-heavy）。このミスマッチが不要な disk I/O を生む。 - 提案: **Terminus** は graph index と I/O サブシステムの間に termination engine を挿入し、rank-weight 関数 $w(r)=e^{-(r/\tau)^\beta}$（$\tau=1.8,\beta=0.5$）で per-I/O 効用 $U_t=\sum_{r\in\Delta R_t}w(r)$ を推定。直近 $X$ I/O の効用が閾値 $\varepsilon$ 以下で early termination（経験的に X=2）。 - 新指標 **Ranked Recall**（rank 位置を重み付け、Recall の rank-agnostic 欠陥を補正）。 - 主要数値: 同一精度ターゲットで既存 early termination 比 **最大 1.4x**、early termination なし比 **最大 3.2x** スループット。VBASE 比 LLaMA-2-7B / acc 0.33 で **1.6x**、IO-Budget 比 Pythia-1B / acc 0.16 で **1.4x**。1 ANN クエリ = 10s–100s の小 I/O。 - Takeaway: rank-aware retrieval が検索性能とアプリ精度のより良いトレードオフを実現する。 ##### Optimizing PyTorch Inference with LLM-Based Multi-Agent Systems (PIKE) / Kirill Nagaitsev （第4発表 / 13:45 - 14:00） > [[2026__MLSys2026__Optimizing PyTorch Inference with LLM-Based Multi-Agent Systems|詳細メモ・Q&A はこちら]]（登壇者: Kirill Nagaitsev / Northwestern University, DOE CSGF） - テーゼ: LLM ベースのマルチエージェント進化的探索（**PIKE** = PyTorch Inference Kernel Evolution）で PyTorch を Triton/CUDA カーネルへ自動最適化し、ML モデルコンパイラを容易に上回る。 - 最良 PIKE-B は KernelBench Level 3-pike で PyTorch Eager 比 geomean **2.88x**（torch.compile 1.64x / METR 1.40x / TensorRT 1.41x を凌駕）、H100 上、予算 300 LLM クエリ/タスク（Gemini 2.5 Pro で約 \$30–50/タスク）。 - RQ1: error-fixing は critical（EFA あり 2.88x → no EFA 1.98x、5 試行で解の 70–80% が修正）。\$25 予算では cheap EFA（Gemini 2.5 Flash）が勝つ。 - RQ2: 数百クエリ regime では exploit 重視が最良（1 island top-3=2.88x vs 3 islands=1.99x）。Level 5 でも exploit 調整が単調に高速化（PIKE-B 2.57x）。 - Takeaway: (1) コンパイラは容易に上回られる、(2) error-fixing への予算配分が critical、(3) 数百クエリ予算では exploit 重視が最良。OSS: `github.com/pike-project/pike`。 ##### Matrix: Peer-to-Peer Multi-Agent Synthetic Data Generation Framework / Dong Wang （第5発表・最終 / 14:00 - 14:15） > [[2026__MLSys2026__Matrix - Peer-to-Peer Multi-Agent Synthetic Data Generation Framework|詳細メモ・Q&A はこちら]]（登壇者: Dong Wang / Meta FAIR） - テーゼ: 中央集権オーケストレーションのスケーラビリティボトルネックを、制御/データフローをシリアライズ済みメッセージとしてエージェント間で受け渡す P2P アーキテクチャ（Ray+SLURM 上）で解消する合成データ生成ランタイム **Matrix**。同一ハードウェア・同等品質のまま 2〜15x の高スループット。 - ケース1 (Collaborative Reasoner/Coral): 31 ノード=248 GPU で 1M trajectories を 4:17:05、公式 baseline 比 **6.8x**（129,833 vs 18,917 tokens/s）。障害注入（12 分毎に actor kill、計 7 回）でもタスク損失約 2%・スループット低下 5% のみ。 - ケース2 (NaturalReasoning): 25M DCLM Web 文書をフィルタ（success 5.45%、約 1M Q&A）。Ray Data batch baseline 比 row-level scheduling で **2.1x**（5,853 vs 2,778 tokens/s）。3 並列性のうち task parallelism が最も効く（3.8x）。 - ケース3 (Tau2-bench): 13 H100・gpt-oss-120b で baseline 比 **15.4x**（41,003 vs 2,654 tokens/s、reward 同等）。512 バイト超の会話を Ray Object Store にオフロードしピークネットワークを約 1GB/s→760MB/s（約 20% 減）。 - Takeaway: ステートレス Ray actor + per-role broker + semaphore back pressure で、actor 数からデカップリングされた数万並行ワークフローを at-most-once 実行。Hydra/LangGraph で設定可能、OSS 公開（`github.com/facebookresearch/matrix`）。 #### Research Track Oral: Agentic AI 2 & LLM Serving 1 (14:45) - #### Research Track Oral: Security/Privacy & Federated Learning (16:30) - #### Poster Session 1 & Opening Reception (18:00 - 20:00　Evergreen Ballroom) ### Day 3 (May 20 / Wed) #### Research Track Oral: LLM Serving 2 & LLM Training 1 (08:30) ##### BOOST: BOttleneck-Optimized Scalable Training Framework for Low-Rank Large Language Models / Yuyang Huang (08:30 - ) （第1発表） > [[2026__MLSys2026__BOOST - Bottleneck-Optimized Scalable Training Framework for Low-Rank Large Language Models|詳細メモ・Q&A はこちら]]（登壇者: 司会紹介は Yuyang Huang / UC Santa Barbara PhD ※著者欄に同名なし。筆頭著者は Zhengyang Wang\*・Ziyue Liu\*, UCSB & Argonne National Lab） - テーゼ: low-rank bottleneck アーキ（1 線形層を $r\ll d$ の bottleneck を挟む 2 層に分解、約 2x 少パラメータ/FLOPs/メモリ）はアルゴリズム的に効率的だが、標準 tensor parallel ではスケールしない。単一 GPU では約 1.6x 高速でも TP=4 では通信支配で full-rank 比 **約 40% 遅い**。 - 提案 **Bottleneck-aware Tensor Parallelism (BTP)**: TP trunk 境界を bottleneck へ 1 層ずらし、同期を full 次元 → **low-rank 次元 $[b,s,r]$** に移す（per-block 通信量 $7bsr$、vanilla 比 5.7x 超・full-rank 比 1.14x 削減）。さらに敏感な GEMM を full 次元で分割し arithmetic intensity を上げる（vanilla TP の 2.5x）。 - システム最適化: **Online RMSNorm**（sharded-unsafe な正規化統計を次 collective に fuse、latency-bound 小 all-reduce を排除し $TP=1$ と数学的等価）、**Linear Layer Grouping**（fused/batched GEMM、per-block 1.16x）、**Comm-free Low-rank Activation Checkpointing**（low-rank activation のみ保存し通信不要 re-forward、Eff_ckpt 1.70x）。 - 主要結果（Nanotron 実装、最大 8 node/32×A100、LLaMA-2 1B–40B、CoLA/SVD/LaX）: BOOST は **FullRank-TP 比 1.46–1.91x・Vanilla low-rank TP 比 1.87–2.27x** 高速。通信時間は FullRank 比最大 8% 速く Vanilla 比 5.3x 速い。同一 FLOPs でも GEMM 利用率向上で計算時間短縮。 - Takeaway: アルゴリズム的効率は大規模で自動的に実速度に直結しない。システムがアーキテクチャ設計を意識する必要があり、今後の効率モデルはシステムと co-design すべき。Q&A: AI による最適化自動発見でも、新アーキの検証は容易でなくシステム設計はアーキ設計と密結合（陳腐化しない）。Code: github.com/Arcana-2236/BOOST。 ##### Unleashing Scalable Context Parallelism for Foundation Models Pre-Training via FCP / Yilong Zhao （第2発表） > [[2026__MLSys2026__FCP - Unleashing Scalable Context Parallelism for Foundation Models Pre-Training|詳細メモはこちら]]（登壇者: Yilong Zhao / UC Berkeley Sky Lab。共著: Xiaonan Nie\* ら ByteDance Seed / UW / UC Davis） - テーゼ: **FCP（Flexible Context Parallelism）** は foundation model 事前学習の新しい context parallelism。各シーケンスを元長によらず固定サイズ block に分割し、block レベルで sharding・scheduling して compute 効率と workload balance を両立。 - 既存手法の2課題: (1) 短シーケンスの over-sharding は kernel 効率低下＋追加通信（length-aware が必要）、(2) 等トークン数 ≠ balanced workload（attention は $O(L^2)$ compute で長シーケンスほど密、workload-aware packing が必要）。Ring=balance のみ・ByteScale=efficiency のみ・WLB-LLM=切替のみ。 - 手法3要素: ① Block Distributor（fixed-size block + LPT greedy 割当）、② Communication Planner（任意 P2P を bipartite matching に帰着し congestion-free 化、Hopcroft-Karp $O(N^{2.5})$、block-level pipelining で overlap）、③ Transparent Reshuffler。実装は Python 4K 行 + FA3 改変、CUDA Green Context で通信/計算 SM 分離。 - 評価（Llama-3-70B 構成・実トレース最大 512K context・最大 256 GPU）: compute/comm imbalance 5% 未満、single-GPU FA 比 90% 超 MFU 維持、attention MFU を **1.13×〜2.21×** 改善し near-linear scaling。block size 4K が sweet spot。 - 限界: 任意 P2P（実質 all-to-all）に適した fat-tree/rail-optimized network 前提で、torus ベース TPU v3 では性能制限。※文字起こしは課題提示の途中で録音終了、Q&A 未収録。 ##### NEST: Network- and Memory-Aware Device Placement For Distributed Deep Learning / Irene Wang ら > [[2026__MLSys2026__NEST - Network- and Memory-Aware Device Placement for Distributed Deep Learning|詳細メモはこちら]]（登壇者: Irene Wang / Georgia Tech ※発表者は未確認。論文 PDF・スライドのみに基づく） - parallelism・memory・network topology を**同時に**考慮する device placement を構造化 dynamic programming（DP）で実現。SOTA ベースラインに対し最大 **2.43×** スループット向上。 - Insight 1: parallelism を Sub-Graph（TP/EP/SP/CP、層内）と Graph-Global（PP/DP/ZeRO）の直交2次元に分類。新戦略は graph+cost を与えるだけで DP アルゴリズム不変。 - Insight 2: backward 進行の "unknown producer problem" を、N² デバイスペアでなく 3–5 個の離散 communication level（Intra-node 900 / Intra-rack 100 / Inter-rack 12.5 GB/s）に抽象化して最適性を保持。 - Insight 3: メモリ feasibility を DP 内で追跡し infeasible state を pruning（推定誤差実測比平均 7% 以内）。ZeRO/recomputation を incremental ノブとして扱う。 - 評価: TPUv4 Fat-Tree（64–1024 デバイス）で平均 manual 比 1.59×・Alpa-E 比 2.43×、H100 oversubscribed Spine-Leaf（1024-GPU）で最大約 2.1×。最適化は 3 分〜1.5 時間で Alpa 比 90× 高速。Code: github.com/scai-tech/Nest。 ##### MTraining: Distributed Dynamic Sparse Attention for Efficient Ultra-Long Context Training / Wenxuan Li ら > [[2026__MLSys2026__MTraining - Distributed Dynamic Sparse Attention for Efficient Ultra-Long Context Training|詳細メモはこちら]]（登壇者: Wenxuan Li / Microsoft Research ※発表者は未確認。論文 PDF・スライドのみに基づく） - RoPE 由来の attention は Vertical-Slash パターンを普遍的に持つ（Theorem 3.1）と理論・実測で示し、dynamic sparse attention で ultra-long context 学習を効率化。512K で attention は per-layer 計算の 99.0% を占める。 - 3要素 co-design: distributed sparse index approximating（VS 構造の online 近似、profiling を総遅延の 6% 未満に）、balanced sparse ring attention（ZigZag でなく Striped で worker/step 不均衡を緩和）、hierarchical sparse ring attention（inter-node 通信を intra-node 計算に重畳）。 - Qwen2.5-3B と Llama-3.1-8B を 32× A100（4×8 ノード、CP=32）で 32K/128K→512K に拡張。dense 比で最大 **6×** スループット、naïve sparse 比 2.6×、ZigZag 比 2.1×、階層なし比 1.3×、near-linear。 - workload balance: imbalance degree は worker/step とも約 1.0（dense 同等、ZigZag は >2.4）。階層設計で forward attention 時間を 42.7% 削減。 - 精度: RULER で MTraining+Dense が平均 63.22 と全ベースライン最良（dense 学習 60.21 を上回る）。NIAH/PG-19/InfiniteBench でも gap 最小。Code: github.com/microsoft/MInference/tree/main/mtraining。 ##### ProTrain: Efficient LLM Training via Automatic Memory Management / Hanmei Yang ら > [[2026__MLSys2026__ProTrain - Efficient LLM Training via Automatic Memory Management|詳細メモはこちら]]（登壇者: Hanmei Yang / UMass Amherst ※発表者は未確認。論文 PDF・スライドのみに基づく） - メモリ管理ポリシーをモデル/ハードウェアへ自動適応する LLM 学習システム。メモリ最適化を compute/memory/communication にまたがる結合的な協調問題と捉え、ZeRO sharding・offloading・gradient checkpointing・activation swapping を統一する。 - 複雑な戦略を 4 つのチューナブルパラメータ（n_persist, n_buffer, n_swap, n_ckpt）に抽象化し、`min T(config) s.t. M(config) ≤ GPU cap` をコストモデルと枝刈り探索で解く。学習アルゴリズムは不変で精度を損なわない。 - Structured Memory Strategies = model states 用 Hierarchical Chunk Management ＋ activations 用 Interleaved Block Management。Memory-Aware Profiler が intra-op transient と unhookable operators（10B GPT-2 で peak の 17.2%=3.06GB）を捕捉し推定誤差 4% 未満。 - 評価: 4×A100 で最大 87B を学習（DeepSpeed 比 2.35× 大）。スループットは SOTA 比 **1.43×〜2.71×**。プロファイル+探索オーバーヘッドは数秒〜0.06 秒。175B も 16×A100 マルチノードで検証。 - ハードウェア: 4×RTX 3090(24GB,PCIe3.0) と 4×A100(80GB,NVLink3.0)。ベースラインは DeepSpeed/Colossal-AI/FSDP。 ##### Efficient Long-context Language Model Training by Core Attention Disaggregation (DistCA) / Yonghao Zhuang ら > [[2026__MLSys2026__DistCA - Efficient Long-Context Language Model Training by Core Attention Disaggregation|詳細メモはこちら]]（登壇者: Yonghao Zhuang / CMU・UCSD ※発表者は未確認。論文 PDF・スライドのみに基づく） - 長コンテキスト訓練では core attention（CA）が $O(l^2)$・残りが $O(l)$ と複雑性が異なり、document packing で DP/PP グループ間に straggler が生じる。メモリ均等化と compute 均等化の同時達成が困難。 - 提案 **CAD** は CA が (1) divisible/composable（FlashAttention は 128-token 単位、異なる document の shard を融合 batch 可、shard≥128 で peak throughput）・(2) stateless（パラメータも保存 activation も不要、QKV 送信のみ）の 2 観察に基づき、CA を **attention server** プールへ分離・再バッチして均等化。 - システム **DistCA**: communication-aware greedy scheduler（priority $E=\Delta F_{max}/V_{comm}$、$O(NK)$・50〜300ms）、all2all で qkv/CA 出力を往復、**ping-pong 実行**で通信を計算に完全オーバーラップ、**in-place attention server** でメモリ維持。 - 評価: 512 H200 GPU（最大 64 ノード）・512K context、Llama-3-8B/34B、Pretrain/ProLong。**Megatron-LM 比最大 1.9×（3D）/1.83×（4D・8B）、WLB-ideal 比 1.35×、FlexSP+ 比 1.20×**。QKV split/merge は iteration の 0.42〜2.15%。 - 実装は約 2K 行 Python＋1K 行 CUDA/C++（NVSHMEM）で Megatron-LM に統合。Code: github.com/hao-ai-lab/DistCA。 > [!note] セッション構成について > 本セッションのディレクトリ名は "LLM Training 1"。音声文字起こしで発表順を確認できたのは BOOST（第1発表）と FCP（第2発表）のみで、NEST / MTraining / ProTrain / DistCA の登壇順・正確な発表時刻・発表者個人は資料から特定できなかった（論文 PDF・スライドのみに基づき作成）。 #### Keynote: Amin Vahdat — SVP and Chief Technologist, AI & Infrastructure (10:30 - 11:30) > [[2026__MLSys2026__Amin Vahdat Keynote - The Architecture of Intelligence|詳細メモ・Q&A はこちら]]（登壇者: Amin Vahdat / Google, SVP & Chief Technologist, AI & Infrastructure） - テーゼ: 産業革命との類比。蒸気機関が「筋力」を人間/動物の力から切り離して数百万倍に増幅したように、AI は「知能」を増幅する（mind multiplier）。効率化は総消費を減らさず逆に増やす（Jevons パラドックス、石炭 5x→需要激増、1865 年）。知能需要は飽くなきもの。 - 知能への道は大きなモデルだけでなく**計算スタックの根本的再アーキテクチャ**を要する。需要は年率 10x、スケーリング効率を「毎年 4x、5 年で 1000x」加速する必要があり、Moore's law 等は鈍化。Sutton "Bitter Lesson"。 - ハードは**専門化の第 2 の波**（ネットワークスイッチに次ぐ、CPU 比 100x〜1000x）。TPU の歩み（v1 → 256 pod → 256/1k/4k/8.9k+ 接続 → 第 8 世代で**学習用 v8T／推論用 v8I** の 2 チップ）、~10MW 級スーパーコンピュータ。 - ネットワークが全スケールの鍵: chip〜rack〜建屋〜惑星〜宇宙。v8I の **board fly トポロジ**（直径 1/2）、**OCS（光回線交換）**で故障時もトポロジ即再構成、**ICI** を計算に統合し最大 9,600 TPU で 2PB 共有メモリ帯域、**Jupiter** は 47 Pbps bisection（~100 万 TPU/GPU 非ブロッキング）、**B4** WAN、投機的な宇宙 "space factory"（太陽光 ~5x 効率）。 - ソフトは単一ワークロードのベンチでなく**フリート全体の goodput** が指標（Borg、**GX = Google Accelerator Units** のクレジット経済、近刊 OSDI 論文）。Google の第一義指標は performance per division Watt／per carbon。技術者は移行の "messy middle" を導く責任を負う。 #### Fireside Chat (11:30) #### Research Track Oral: LLM Serving 3 & ML for Systems (13:30) > [\!note] セッション構成について > 本セッションのディレクトリ名は "LLM Serving 3 & ML for Systems"（ここに含めたのは ML for Systems の 6 トーク）。音声文字起こしで発表順を確認できたのは FlashInfer-Bench（第1）→ Virtual Machine NUMA Placement（第2）→ When Machine Learning Isn't Sure（第3）→ Practical Adversarial Multi-Armed Bandits（第4）の 4 件。残る Automated Algorithm Design / Unified LLM Model for PPA は文字起こし対象外で登壇順・正確な発表時刻・発表者個人を特定できなかった（論文 PDF・スライドのみに基づき作成し末尾に配置）。 ##### FlashInfer-Bench: Building the Virtuous Cycle for AI-driven LLM Systems / Shanli Xing （ML for Systems） > [[2026__MLSys2026__FlashInfer-Bench - Building the Virtuous Cycle for AI-driven LLM Systems|詳細メモ・Q&A はこちら]]（登壇者: Shanli Xing / University of Washington） - テーゼ: LLM エージェントが生成する GPU カーネルを本番推論エンジンへ回す「好循環（virtuous cycle）」を作る。生成→ベンチマーク→デプロイを閉じる標準フレームワークが FlashInfer-Bench。 - 中核 FlashInfer Trace（Definition/Workload/Solution/Evaluation の 4 スキーマ）で人間・エージェント・コンパイラ非依存にカーネルを記述。実サービングトレースから 79 definitions / 2,474 workloads のデータセットを構築。 - ベンチマークは決定的/低精度/確率的カーネルを正当性検証し、sandbox 分離で reward hacking を防止。`flashinfer_bench.apply()` が SGLang/vLLM へゼロコード変更で最良カーネルを動的注入（E2E オーバーヘッド 0.8% 未満）。 - B200 評価の知見: 正当性エラーの大半はコンパイル失敗（32 中 30）、モデルは tcgen05 等の HW intrinsics を活用できず、Triton は高正当性・CUDA は高ピーク性能の言語トレードオフ。エージェントは cuBLAS 呼び出しを学習し GEMM で対 PyTorch 116×（平均 26×）。 - 正当性率は gpt-5 83.9% / o3 71.3% / gemini-2.5-pro 48.8%。GQA Ragged・MLA・MoE は FlashInfer ベースラインの 0.4× 未満で tiling/pipelining 不足が課題。限界は multi-GPU/通信カーネル未対応。 ##### Virtual Machine NUMA Placement at Scale: Learning the Norm, Shielding the Tail / Yibo Zhao （ML for Systems） > [[2026__MLSys2026__Virtual Machine NUMA Placement at Scale - Learning the Norm, Shielding the Tail|詳細メモ・Q&A はこちら]]（登壇者: Yibo Zhao / Northeastern University、Microsoft 協業） - テーゼ「learn the norm and shield the tail」。NUMA placement の不適切さは最大 30% 超の性能劣化を生むが、VM の多様性・日次 drift・tail 問題のため大規模最適配置は困難。システム名は Catur。 - 平均性能は RL（POMDP/DQN）で学習。既存ヒューリスティックを抽象化した 4 つの primitive（CoreBestFit 等、配置の 98.5% をカバー）を行動空間にして model collapse を防ぎ、load-aware reward shaping で skew した hard case から学ぶ。 - tail は speculative shielding で遮蔽。NUMA-state transition tree を 1-3 step 先まで木探索し、性能異常（COR+RMR>40%）に至る action を回避。correctable anomaly を baseline の 222K-383K から約 17K へ 13-23x 削減。 - 1 億超 VM の production trace で評価。average resource defect を baseline 比 34.2%-50.0% 削減（Catur 0.73% vs 1.11-1.46%）、ticket ratio も約 30-48% 削減。drift には 11 iteration で適応し再訓練コスト 93.9% 削減。 - takeaway: 学習ベース意思決定を実クラウドへ deploy する blueprint。CloudX に early trial で deploy 済み。RL は約 1ms で critical path に乗り、speculative shielding/Oracle は offline 限定。 ##### When Machine Learning Isn't Sure: Building Resilient ML-Based Computer Systems by Embracing Uncertainty / Varun Gohil （ML for Systems） > [[2026__MLSys2026__When Machine Learning Isn't Sure - Building Resilient ML-Based Computer Systems by Embracing Uncertainty|詳細メモ・Q&A はこちら]]（登壇者: Varun Gohil / MIT CSAIL, advised by Christina Delimitrou。共著: MIT 4 名 + Google 4 名（Sundar Dev・Gaurang Upasani・David Lo・Parthasarathy Ranganathan）） - テーゼ: ML model は poor generalizability ゆえ OOD データで mispredict し、誤予測がシステムに伝播して bad decision を生む。**accuracy は proactive に測れないため、測定可能な uncertainty を generalizability の proxy** として使い、`uncertainty > threshold` のとき ML 予測を棄却して伝統的 heuristic（human / non-ML）に graceful に fall back する。 - uncertainty estimator を 3 種に分類しトレードオフ整理（Table 3）: **Bayesian**（efficacy 高・latency ms–secs・model-agnostic 不可・unit-consistent）、**Conformal Prediction**（efficacy 高・latency ms・model-agnostic 可・calibration data 必要）、**Distance-based**（efficacy 低中・latency μs・bytes メモリ）。唯一最適な estimator は無い。 - ケーススタディ Sinan（DeathStarBench social network を 7-node にデプロイ、user>150 で OOD）: 素の Sinan は OOD で QoS violation が 450 users で 22% 超に急増。**fixed model architecture 制約があるため model-agnostic な conformal prediction が最適**で QoS violation を削減（CNN→BNN+Bayesian は最良だが architecture 変更が必要で不可）。conformal は ML 予測と同単位（ms）で unit-consistent、threshold は 15% relative uncertainty（約 10ms）。 - 3 ケースの俯瞰: Server Provisioning（latency ~hours・制約なし）→ **Bayesian**、Microservice Mgmt（~ms・fixed arch）→ **Conformal**、Storage I/O Routing（~μs・fixed arch、Heimdall ベース、distance 推定 7μs vs BNN 238μs）→ **Distance-based**。最適 estimator はタスクの runtime budget と design 制約に依存。 - Takeaway: (1) poor generalizability が "ML for Systems" を unreliable にする、(2) uncertainty を generalizability の proxy に proactive 利用、(3) estimator 特性をタスクの runtime・design 制約と align させる。Q&A: 本手法は model retraining/adaptation と orthogonal（estimator も同様に再 calibration する）。 ##### Practical Adversarial Multi-Armed Bandits with Sublinear Runtime / Kasper Overgaard Mortensen （ML for Systems） > [[2026__MLSys2026__Practical Adversarial Multi-Armed Bandits with Sublinear Runtime|詳細メモ・Q&A はこちら]]（登壇者: Kasper Overgaard Mortensen / Aarhus University） - 非定常な敵対的 combinatorial MAB を「結果品質より runtime」の観点で扱い、arm 数 k に sublinear なアルゴリズムを目指す。動機は database index tuning で既存 bandit（DBABandit/HMAB）が非定常ワークロードで「何もしない」より遅くなる極端ケース。 - Exp3 を効率化: sum-heap サンプリング＋log scale weight（数値安定）で per-step $\mathcal{O}(\log k)$ 化（「実は 10 年前に解かれていた忘れられた folklore」を end-to-end 実用化）。combinatorial 版 Exp3.M を $\mathcal{O}(k \log m)$ → $\mathcal{O}(m \log k)$ に改善。 - 提案 **QBL（Queuing Behind the Leader）**: Exp3 の single-weight 更新と follow-the-leader を融合し、選んだ arm だけ更新。leader が改善し続ける間は update を skip、悪化/良すぎたら priority queue で demote（ランダム化付き、高々 k 回で必ず置換）。計算量 $\mathcal{O}(m \log k)$、調整パラメータは $\gamma$ の 1 つのみ。 - 実験: index tuning（TPC-H 10/50GB）で QBL.M は index 再生成を回避し index 利用率 ≈60%（DBABandit 50% / HMAB 39%）。模擬非定常環境（Mod2 / Stochastic constrained / Tent map）で dynamic regret・runtime とも高 k で優位。コード github.com/AU-DIS/QBL。 - regret 保証は未解決（preliminary step）。シンプルで scalable な adversarial bandit baseline と controlled regret への一歩。 ##### Automated Algorithm Design for Auto-Tuning Optimizers / Floris-Jan Willemsen ら（ML for Systems） > [[2026__MLSys2026__Automated Algorithm Design for Auto-Tuning Optimizers|詳細メモはこちら]]（登壇者: Floris-Jan Willemsen / LIACS, Leiden University ※発表者は未確認。論文 PDF・スライドのみに基づく） - テーゼ: auto-tuning の最適化アルゴリズムを人手設計せず、**LLM に自動生成・進化させる**初の閉ループ・メタ最適化フレームワーク。Kernel Tuner（auto-tuner）× LLaMEA（LLM 進化アルゴリズム）を統合し、LLM はアルゴリズムのロジックのみ生成（カーネル/データ/精度には不干渉）。 - 動機: HW 寿命は短く（スパコン平均 5.2 年・GPU アーキ 1.96 年）アプリは長寿命（平均 30.2 年）。auto-tuning 探索空間は large・discontinuous・irregular で良構成が稀。「なぜ auto-tuning 専用 optimizer が無いのか」という research gap に対し設計を自動化。 - 手法: EA メタ戦略（parent 4 + offspring 12/世代、mutation 12 種）で候補 optimizer を生成、Kernel Tuner 上の性能スコア（ランダム探索比の性能-時間曲線下面積）で評価・淘汰。GPT o4-mini 使用、100 LLM calls/run × 5 run（計 4000 calls）、約 25% は失敗するが進化で淘汰。 - 評価: BAT の 4 カーネル（dedispersion/convolution/hotspot/GEMM）× 6 GPU = 24 探索空間（train 12 / test 12）。探索空間情報の追加で平均 **+14.6%**（dedispersion/GEMM で顕著）、ターゲット特化で平均 **+30.7%**。best 2 つ（HybridVNDX, AdaptiveTabuGreyWolf）は人手設計（Kernel Tuner GA/SA, pyATF DE）を平均 **72.4%** 上回る（GA 比 +0.126・SA 比 +0.282・DE 比 +0.274）。 - Takeaway: LLM 生成 optimizer は人手設計に匹敵・凌駕し、未学習の GPU/アプリへも汎化。best は `pip install kernel-tuner` に取込済み、LLaMEA は `pip install llamea`、実装は BLADE suite。Code: github.com/XAI-liacs/BLADE。 ##### Unified LLM Model for Power, Performance, and Area Prediction from Hardware Code / Armin Abdollahi （ML for Systems） > [[2026__MLSys2026__Unified LLM Model for Power, Performance, and Area Prediction from Hardware Code|詳細メモはこちら]]（登壇者: Armin Abdollahi / USC ※発表者は未確認、論文・スライドのみに基づく） - RTL（Verilog）から合成を走らせず PPA（area / delay / total power / static power）を予測する統一 condition-aware モデル **RocketPPA**。PPA は RTL 単体の性質でなく technology node（15nm/45nm）× optimization（area/delay）の 4 regime で変わるため、条件トークンで 1 モデルが全 regime を扱う。 - 構成は LLaMA-3.1-8B-Instruct エンコーダ + LoRA（約 8.4M 学習パラメータ、≈0.11%）+ MoE 回帰ヘッド（N=6 experts, top-3 gating, +4.7M、推論時 ≈2.35M active）。area/delay/power に別ヘッド。 - 設計空間を構造化する contrastive learning を学習時のみ追加（cross-condition / PPA-similarity / structural の 3 positive-pair 戦略、λ=0.5）。projection head は推論時に破棄し deployment コストはゼロ。 - VerilogEval（138 codes、特に Level-3 の 72 hardest）で評価。10% 許容誤差で MetRex 比 Area **+13.6pp** / Delay **+9.4pp** / Static Power **+14.7pp**。推論は **0.12 秒/設計**で CircuitFusion/MetRex 比 20× 超・MasterRTL 比 30× 超高速。 - LLM-driven repair で 20,953 合成可能モジュール（MG-Verilog/verilog_github/VeriGen）を curate。Leave-One-Regime-Out 劣化は最大約 2.5pp、cross-node few-shot（15nm 5%/10% calibration）で 4.2pp/2.7pp 劣化に留まり実用適応可能。Ablation で contrastive が精度に +2.5pp 寄与。 #### Research Track Oral: LLM Serving 4 & LLM Training 2 (15:15) - #### Research Track Oral: LLM Training 3 & Model Compression (17:00) ##### Zorse: Optimizing LLM Training Efficiency on Heterogeneous GPU Clusters / Runsheng (Benson) Guo （第1発表） > [[2026__MLSys2026__Zorse - Optimizing LLM Training Efficiency on Heterogeneous GPU Clusters|詳細メモ・Q&A はこちら]]（登壇者: Runsheng (Benson) Guo / University of Waterloo。共著: Utkarsh Anand, Khuzaima Daudjee [Waterloo], Rathijit Sen [Microsoft GSL]） - テーゼ: 段階取得で生じる異世代・異ネットワーク帯域の heterogeneous GPU クラスタで、PP と DP の trade-off を解消し効率的に LLM を訓練する PyTorch FSDP ベースのシステム Zorse。 - **Pipeline-Efficient ZeRO DP**: モデルを多数の ministage に分割・interleave し、一度に 2 ministage のみ GPU 保持・残りは CPU offload。AllGather を層あたり 1 回に削減し memory 効率と通信効率を両立。 - **Heterogeneous Pipeline Parallelism + 2 フェーズ planner**: ステージ間 GPU 数・ステージ内 GPU 種別の非対称化を許容。Phase1 で min-$k$-cut 近似（帯域最小分割）、Phase2 で ministage/micro-batch 構成を列挙し 3 分以内に最適構成決定（latency/memory モデル誤差 10% 以内）。 - 主要結果: Llama 7B–65B・3 クラスタ（最大 128 GPU）で SOTA（TorchTitan-Het / HexiScale / Cephalo）比**最大 3× 高速**。ベースラインが OOM する構成でも訓練可。ministage 数で memory−40%・throughput−20% に tune 可（offload overhead 3% 未満）。 - Takeaway: heterogeneous 訓練の HFU は homogeneous subset と comparable。アルゴリズム効率を実速度に変えるにはシステムがアーキを意識する必要。 ##### GriNNder: Breaking the Memory Capacity Wall in Full-Graph GNN Training with Storage Offloading / Jaeyong Song （第2発表） > [[2026__MLSys2026__GriNNder - Breaking the Memory Capacity Wall in Full-Graph GNN Training with Storage Offloading|詳細メモ・Q&A はこちら]]（登壇者: Jaeyong Song / Seoul National University, AIS Lab） - テーゼ: full-graph GNN 訓練の **GPU/host メモリ容量壁**（100M 頂点・512 隠れ・3 層で **1.2TB** GPU メモリ要求）を、NVMe ストレージへの offloading で打破する GriNNder。 - 中核機構 **cache-(re)gather-bypass**: forward で snapshot を完全スキップ、backward 時に活性を host cache から **regather/recompute**。partition-wise / hierarchical caching（cross-partition 依存が power-law）と custom gradient engine で read amplification と snapshot 冗長を排除。 - 主要数値: SOTA HongTu 比**最大 9.78×**（5 層 GCN）/ 3 層で **6.95×**、single GPU で 16-GPU 分散ベースラインに匹敵、host memory ピークを HongTu 比 **5.75×** 削減。 - ハードウェア: i9（32 threads）+128GB DDR5 + RTX 5000 (24GB) + PCIe5 NVMe SSD の単一ワークステーション。 - Takeaway: 高帯域 PCIe5/NVMe をメモリ階層として使えば single GPU でも 100M+ 規模 full-graph 訓練が実用化でき、コスト効率で分散構成を代替しうる。Code: github.com/AIS-SNU/GriNNder。 ##### HexiScale: Facilitating Large Language Model Training over Heterogeneous Hardware / Ran Yan （第3発表） > [[2026__MLSys2026__HexiScale - Facilitating Large Language Model Training over Heterogeneous Hardware|詳細メモ・Q&A はこちら]]（登壇者: Ran Yan / HKUST。共著: Youhe Jiang, Xiaonan Nie, Fangcheng Fu, Bin Cui, Binhang Yuan / HKUST・北京大学・上海交通大学） - テーゼ: 散在する旧世代・異種 GPU を統合し LLM 訓練の参入障壁を下げる。data/pipeline/tensor 並列の全枠組みで**非対称（asymmetric）並列**を許し（pipeline 内・間で TP degree・層数・batch size を可変に）、placement を制約付き最適化として定式化、**two-phase graph partitioning**（global graph partitioning + pipeline construction）で効率解を求めるオープンソース訓練システム。 - 主要数値: 非対称化で symmetric 比 **1.6×**（case study）。同一 FLOPS の homo ベースライン比は平均 **0.83×・最大 1.01×**、hetero-aware ベースライン比 **1.5×〜2.4×** 高スループット。 - scheduler は random graph partition 比 **1.3×〜3.3×**、1024 GPU でも scheduling 約 372s と manageable。 - 2 課題: device heterogeneity（強力な GPU が弱い GPU に律速され under-utilize）と network heterogeneity（NVLink 300+ GB/s vs PCIe/ethernet 0.5 GB/s）。 - Takeaway: ヘテロ GPU でも homo に肉薄するスループットを達成。OSDI/SOSP 等の baseline に採用済みで、非対称並列とグラフ分割スケジューラの両輪が鍵。 ##### A Lightweight High-Throughput Collective-Capable NoC for Large-Scale ML Accelerators / Luca Colagrande （第4発表） > [[2026__MLSys2026__A Lightweight High-Throughput Collective-Capable NoC for Large-Scale ML Accelerators|詳細メモ・Q&A はこちら]]（登壇者: Luca Colagrande / ETH Zurich, IIS・PULP Platform、指導 Luca Benini） - テーゼ: オープンソース NoC **FlooNoC** を拡張し、ML 加速器の regular トラフィックに最適化した軽量・高スループットな **multicast / reduction 対応 NoC** を提案（picobello SoC、4×4 compute tiles + L2 tiles、wide/narrow network 上で実証）。 - 中核 **Direct Compute Access (DCA)**: 相互接続ファブリックに compute cluster の既存 ALU への直接アクセスを与え、512-bit wide reduction を新規 ALU なしで実現。「in-network arithmetic reduction はコスト過大」の定説を初めて覆す。 - multi-address (addr+mask) encoding で 2D mesh の複数宛先を log スケールで表現（宛先数に対し定数）。 - 主要数値: router 面積 **+16.5%**（multicast +5.8% / narrow redu +2.9% / wide redu +8.2%）、NI **+3.5%**、**system <1%**。multicast geomean **2.9×（最大 5.3×）**・reduction geomean **2.5×（最大 2.8×）**、GEMM 最大 **3.8× 高速・1.17× 省エネ**。 - Takeaway: collective 加速をほぼ無視できる system 面積コストで実現。フルオープンソース（pulp-platform/{FlooNoC, picobello}）。 ##### DreamDDP: Accelerating Low-Bandwidth Geo-Distributed LLM Training with Layer-wise Partial Synchronization / Zhenheng Tang ほか（代理発表）（第5発表） > [[2026__MLSys2026__DreamDDP - Accelerating Low-Bandwidth Geo-Distributed LLM Training with Layer-wise Partial Synchronization|詳細メモはこちら]]（登壇者: 代理発表（文字起こしでは "Willie"、断定不可）。著者: Zhenheng Tang・Zichen Tang ら / HKUST・HKUST(GZ)・香港浸会大学・哈爾濱工業大学） - テーゼ: geo 分散・低帯域（10Mbps〜1Gbps、データセンター内より 1〜3 桁低い）では通信時間が計算時間を支配。Local SGD は通信を $1/H$ に減らすが full synchronization が BP との通信オーバーラップを妨げる。DreamDDP は**モデル同期を layer 単位で疎結合化（partial synchronization, PLSGD）**し in-place 同期を後続 layer の BP とオーバーラップ。 - 手法: (1) S-SGD と同等の収束率 $\mathcal{O}(1/R)$ を理論保証する PLSGD、(2) GPU メモリ追加なしの in-place オーバーラップ、(3) 3 性質で探索空間を $\mathcal{O}(2^{\min(L-H,H)})$ に削減する DFS スケジューラ。 - 主要数値: 32 GPU・ResNet/GPT-2/Llama-2/Qwen で、ASC-WFBP 比 **1.73×〜5.22×**、FLSGD 比 **1.16×〜1.5×** のイテレーション高速化。wall-clock 収束は ASC-WFBP 比**最大 3.91×**、FLSGD 比**最大 1.56×**。 - Takeaway: Local SGD の「全モデル一括同期」を layer 単位に分解し、収束率を犠牲にせず通信–計算オーバーラップを取り戻す。スライド PDF 無し・文字起こしも冒頭で途切れのため**詳細は論文 PDF が主出典**。Code: github.com/trl730109/DreamDDP（MIT）。 ##### FP8-Flow-MoE: A Casting-Free FP8 Recipe without Double Quantization Error / Fengjuan Wang ほか（第6発表・推定） > [[2026__MLSys2026__FP8-Flow-MoE - A Casting-Free FP8 Recipe without Double Quantization Error|詳細メモはこちら]]（登壇者: Fengjuan Wang ら / Zhejiang Lab ※発表者個人は録音対象外で特定不可。論文 PDF・スライドのみに基づく） - テーゼ: FP8 MoE 訓練は BF16 主体データフローの冗長キャストで FP8 の利点を失い、キャスト除去すると double quantization error（layout 跨ぎで不整合なスケーリングファクタ）が生じる。 - 手法: **scaling-aware transpose**（2 のべき乗スケールで指数ビット操作のみの row→column 変換、Algorithm 1）と **fused FP8 operators** で量子化整合的な FP8 中心データフローを構築し、明示的キャストを **12 → 2** に削減。 - 主要数値（DeepSeek-V3 671B / 32 ノード Hopper）: BF16 比スループット **+6〜16%**、TE blockwise FP8 比最大 **+21%**（EP32）。peak memory を BF16 比 ~8GB・TE FP8 比 **16.5GB** 削減。EP32 で BF16/TE FP8 が OOM する一方 FP8-Flow-MoE は安定。 - 収束: BF16 とほぼ同一（相対 loss 誤差 0.19% 未満、200B トークン）。 - Takeaway: FP8 の有効性は drop-in カーネル置換でなくデータフロー設計に依存。TransformerEngine / Megatron-LM 互換の plug-and-play レシピ（複数 PR が upstream マージ済み）。 > [!note] セッション構成について > 本セッションのディレクトリ名は "LLM Training 3"。音声文字起こしで発表順を確認できたのは Zorse（第1）→ GriNNder（第2）→ HexiScale（第3）→ NoC（第4）→ DreamDDP（第5、冒頭で録音終了）。FP8-Flow-MoE は録音対象外で登壇順・正確な発表時刻・発表者個人を特定できなかった（論文 PDF・スライドのみに基づき第6・最終と推定）。各トークの 17:00 PDT 開始・15 分枠は推定。 #### Poster Session 2 (18:30 - 20:30　Evergreen Ballroom) ### Day 4 (May 21 / Thu) #### Industry & Research Track: Agentic AI/MLSys & LLM Serving 5 (08:30) - #### Keynote: Rethinking Pretraining: Data and Architecture / Luke Zettlemoyer (10:30) > [[2026__MLSys2026__Rethinking Pretraining - Data and Architecture|詳細メモ・Q&A はこちら]]（登壇者: Luke Zettlemoyer / University of Washington・Meta） - テーゼ: 事前学習で重要なのは結局**データ**。新アーキ（Transformer 変種・MoE）は「データからより多くを引き出す」発想が動機で、狙いはスケーリング曲線の**交差**と**新能力の解禁**。 - 第 1 部（LIMA/ALMA/s1/RLVR）: 最小限の post-training でも能力が出る → 「高度な能力は事前学習に既にあり、再配置・制御の問題」。約 1,000 例で SOTA post-training の約 80%、s1 は CoT 1,000 例＋"wait" 挿入で高級モデルに匹敵。 - 第 2 部 BLT（tokenizer-free）: バイトレベル階層 Transformer。エントロピー高所で動的 patching し難所に FLOPs を配分。BPE 嫌い（前処理・変更困難・言語間不公平）。推論コスト固定で曲線交差、タイプミス頑健性ほぼ 100%。新論文で「学習予算大ほど最適圧縮率は下がる／最適圧縮は言語依存」。 - 第 3 部 FlexOlmo（UW×AI2）: dense からモジュラー MoE へ。public ベース＋private expert を独立学習し、**非パラメトリック・ルータ**で再学習なしに expert を追加・削除（決定境界を private 側に寄せる）。news expert を除くと news 性能だけ低下＝情報の局所化。8 experts 規模。 - 結論: 事前学習 vs post-training は要・科学（監督比率が指標）。BLT/FlexOlmo はスケール継続と post-training・安全性が課題。コード・モデルは公開。 #### Industry & Research Track: LLM Serving 6 & Efficient ML (13:00) - #### Industry & Research Track: LLM Training 4 & Benchmarks (14:45) - #### Industry & Research Track: Benchmarks & Compilers/Kernels (16:30) - #### Poster Session 3 (18:00 - 20:00　Evergreen Ballroom) ### Day 5 (May 22 / Fri) #### Industry & Research Track: Compilers/Hardware & Efficient Computation (08:15) - #### Keynote: The Path to Inference Efficiency / Christos Kozyrakis (09:45) > #### Competition Track: Google / NVIDIA / Amazon (11:00) - #### Social: Ice Cream Social (NVIDIA) (13:30 - 15:00　Juniper room) ## Networking - ## Notes & Thoughts