2026__MLSys2026__トピッククラスタリング入門

# MLSys 2026 トピッククラスタリング入門このノートは [[MLSys2026]] の講演メモをもとに、MLSys に詳しくないエンジニア向けに、発表群をトピックの類似性でクラスタリングしたものである。公式セッション名ではなく、「どの技術課題を扱っているか」「どのワークロードを対象にしているか」「どの層を最適化しているか」を基準に整理する。 MLSys は Machine Learning and Systems の略で、機械学習モデルそのものだけでなく、モデルを学習・推論・配備・監視するためのシステム全体を扱う分野である。ウェブシステムでいえば、アプリケーションコードだけでなく、ロードバランサ、キャッシュ、データベース、キュー、監視、障害復旧まで含めて考えるのに近い。MLSys では、その対象が LLM、画像生成モデル、推薦モデル、GPU クラスタ、推論エンジン、コンパイラ、アクセラレータに広がる。 ## 全体傾向 MLSys 2026 の中心は、「モデルを速く動かす」だけではなく、「AI を含むシステム全体をどう制御・検証・運用するか」へ広がっている。 1. **LLM サービングが最大の焦点である。** 初回応答時間、トークン間遅延、サービスレベル目標、GPU コスト、電力、異種 GPU 配置が同時に扱われている。 2. **KV キャッシュと長コンテキストが新しいデータ管理問題になった。** 過去トークンの内部状態をどう保存・圧縮・再利用・転送するかが、性能とコストを左右する。 3. **エージェントは単なるアプリケーションではなく、長く、遅く、失敗しやすい新ワークロードとして扱われている。** 計画、記憶、検索、ツール呼び出し、セキュリティがシステム課題になる。 4. **訓練と推論は、単一 GPU 最適化からフリート全体の最適化へ移っている。** 並列化、通信、障害、ストラグラー、エネルギー、グッドプットが主題になる。 5. **AI がシステムを作る側にも回り始めた。** カーネル、配置、演算子、最適化器を LLM やエージェントで生成する発表が増えた一方で、検証と報酬ハック対策が中心課題になっている。 ## クラスタ 1: エージェント化するシステム / AI for Systems このクラスタは、AI エージェントを「実行されるアプリケーション」としてだけでなく、「システムを設計・最適化・検証する主体」として扱う発表群である。背景として、最近の LLM はコードを書き、ログを読み、プロファイル結果を解釈し、ツールを呼び出せる。そのため、これまで人間が行っていたカーネル最適化、シャーディング探索、テスト生成、セキュリティ検知の一部を任せられる可能性がある。一方で、AI 生成物は局所的に正しく見えても、全体設計を壊す、報酬ハックをする、意図と違う最適化をする、といった失敗を起こす。代表例は以下である。 - [[2026__MLSys2026__Rethinking Open Source Contribution in the Age of AI Agents|Rethinking Open Source Contribution]]: AI 生成 PR が増える時代に、コードそのものよりシステム理解、問題選び、オーナーシップが重要になるというキーノート。 - [[2026__MLSys2026__When AI Starts Writing Systems Code|When AI Starts Writing Systems Code]]: AI が GPU カーネルやシステムコードを書く時代の評価基盤と報酬ハックを扱う。 - [[2026__MLSys2026__Optimizing PyTorch Inference with LLM-Based Multi-Agent Systems|PIKE]]: LLM ベースのマルチエージェント探索で PyTorch 推論を Triton/CUDA カーネルへ最適化する。 - [[2026__MLSys2026__PROMPTS - PeRformance Optimization via Multi-Agent Planning for LLM Training and Serving|PROMPTS]]: LLM 学習・推論のシャーディング最適化を、プロファイル解釈と提案生成に分けたマルチエージェントで支援する。 - [[2026__MLSys2026__Agentic Operator Generation for ML ASICs|Agentic Operator Generation]]: 新興 ML ASIC 向けの演算子実装を、エージェントとコンパイラフィードバックで大量生成する。 - [[2026__MLSys2026__FlashInfer-Bench - Building the Virtuous Cycle for AI-driven LLM Systems|FlashInfer-Bench]]: AI 生成カーネルを検証し、本番推論エンジンへ戻す循環を作る。 - [[2026__MLSys2026__ADR - An Agentic Detection System for Enterprise Agentic AI Security|ADR]]: 企業内エージェントのツール呼び出しやプロンプト連鎖を観測し、危険な振る舞いを検知する。このクラスタの共通点は、AI の出力をそのまま信用しないことである。コンパイラ、リンタ、サンドボックス、ベンチマーク、形式仕様、人間が定義した信頼境界を組み合わせて、生成と検証を分離する設計が多い。隣接クラスタは、LLM 訓練・サービング最適化、ベンチマーク、データ・モデル設計である。 ## クラスタ 2: LLM サービング基盤と SLO・コスト最適化 LLM サービングとは、LLM を API やプロダクト機能として提供し、リクエストを受けて応答を返す実行基盤である。通常のウェブ API と同じく、遅延、スループット、コスト、障害復旧が重要になる。ただし LLM では、入力文脈の長さ、出力トークン数、GPU メモリ、KV キャッシュ、プリフィルとデコードの違いが絡むため、設計空間が大きい。ここで重要な用語は二つある。**プリフィル**は、入力文脈全体を読み込み、生成前の内部状態を作る段階である。**デコード**は、出力を 1 トークンずつ逐次生成する段階である。プリフィルは大きな計算を並列化しやすく、デコードはメモリ帯域や逐次性が支配的になりやすい。この二つを同じ GPU 群で処理するか、分離するかが大きな設計判断になる。代表例は以下である。 - [[2026__MLSys2026__Beyond Model Serving Cross-Stack Co-Design for Agentic Systems|Beyond Model Serving]]: 精度、レイテンシ、コスト、エネルギーをシステム資源として扱うキーノート。 - [[2026__MLSys2026__Stream2LLM - Overlap Context Streaming and Prefill for Reduced Time-to-First-Token|Stream2LLM]]: RAG などの文脈取得とプリフィルを重ね合わせ、初回トークンまでの時間を短縮する。 - [[2026__MLSys2026__SuperInfer - SLO-Aware Rotary Scheduling and Memory Management for LLM Inference on Superchips|SuperInfer]]: GH200 の CPU/GPU 結合メモリを使い、SLO を意識した KV キャッシュオフロードを行う。 - [[2026__MLSys2026__BEAM - Joint Resource-Power Optimization for Energy-Efficient LLM Inference under SLO Constraints|BEAM]]: SLO を満たした後の余裕を電力削減に使う。 - [[2026__MLSys2026__MorphServe - Efficient and Workload-Aware LLM Serving via Runtime Quantized Layer Swapping and KV Cache Resizing|MorphServe]]: 実行中に重み精度と KV キャッシュ容量を切り替え、バーストに適応する。 - [[2026__MLSys2026__Beyond the Buzz - A Pragmatic Exploration of Prefill-Decode Disaggregation in Large Scale Inference|Beyond the Buzz]]: プリフィル/デコード分離がどの条件で有効かを、大規模シミュレーションで整理する。 - [[2026__MLSys2026__Optimizing Deployment Configurations for LLM Inference - Challenges and Insights|Meta Inference Team の発表]]: 実運用の Llama サービングで、ハードウェア、並列化、分離実行、SLO の設計空間を探索する。 - [[2026__MLSys2026__Meeting SLOs Slashing Hours - Automated Enterprise LLM Optimization with OptiKIT|OptiKIT]]: 圧縮、評価、ベンチマーク、デプロイチューニングを企業向けに自動化する。このクラスタでは、単に「速いモデル」を選ぶだけでは足りない。入力長、出力長、リクエスト分布、キャッシュ再利用率、GPU 世代、ネットワーク、電力制限、SLO を含めて配備構成を決める必要がある。隣接クラスタは、KV キャッシュ、アテンション/復号高速化、MoE・分散通信、フリート効率である。 ## クラスタ 3: KV キャッシュ・長コンテキスト・RAG/検索メモリ KV キャッシュは、LLM が過去トークンに対して計算した注意機構の中間状態である。これを保存しておくと、次のトークンを生成するときに過去文脈を最初から再計算せずに済む。長い入力や多ターン対話では、KV キャッシュが巨大になり、GPU メモリを圧迫する。一般的なシステムでいえば、KV キャッシュはアプリケーションキャッシュに似ている。ただし、LLM の KV キャッシュはモデル内部状態であり、雑に捨てると出力品質が壊れる。そのため、どの状態を残すか、どこに置くか、どの精度で保存するか、いつ再計算するかが研究課題になる。代表例は以下である。 - [[2026__MLSys2026__LMCache An Efficient KV Cache Layer for Enterprise-Scale LLM Inference|LMCache]]: KV キャッシュを GPU 外へ保存・共有するインフラ層として扱う。 - [[2026__MLSys2026__LEANN A Low-Storage Overhead Vector Index|LEANN]]: ベクトル検索インデックスで埋め込み保存を避け、オンザフライ再計算と枝刈りでストレージを削減する。 - [[2026__MLSys2026__When Enough is Enough - Rank-Aware Early Termination for Vector Search|Terminus]]: RAG では上位検索結果ほど重要であることを利用し、検索を早期終了する。 - [[2026__MLSys2026__ContextPilot Fast Long-Context Inference via Context Reuse|ContextPilot]]: 長コンテキスト推論で文脈再利用を増やし、プリフィル遅延を下げる。 - [[2026__MLSys2026__Hippocampus An Efficient and Scalable Memory Module for Agentic AI|Hippocampus]]: エージェント向け長期記憶を、圧縮された検索可能な構造として管理する。 - [[2026__MLSys2026__TeleRAG Efficient Retrieval-Augmented Generation Inference with Lookahead Retrieval|TeleRAG]]: RAG の検索を LLM 生成と並行させ、検索待ちを隠す。 - [[2026__MLSys2026__SkipKV Selective Skipping of KV Generation and Storage for Efficient Inference with Large Reasoning Models|SkipKV]]、[[2026__MLSys2026__OPKV A High-Throughput Plugin-Driven Framework for Recallable Sparsity in Paged KV Cache Systems|OPKV]]、[[2026__MLSys2026__FlexiCache Leveraging Temporal Stability of Attention Heads for Efficient KV Cache Management|FlexiCache]]、[[2026__MLSys2026__Kitty Accurate and Efficient 2-bit KV Cache Quantization with Dynamic Channel-wise Precision Boost|Kitty]]: KV キャッシュをスキップ、疎化、階層化、量子化する。 - [[2026__MLSys2026__Using Span Queries to Optimize Cache and Attention Locality|Span Queries]]: RAG、チャット、エージェント的ワークロードをスパンクエリとして表現し、KV キャッシュ局所性を最適化する。このクラスタの見方は、「LLM は計算だけでなく状態を大量に持つ分散システムである」ということである。長コンテキストやエージェント用途では、状態管理が性能とコストを決める。隣接クラスタは、LLM サービング、アテンション高速化、エージェント、ベンチマークである。 ## クラスタ 4: アテンション・デコーディング・生成モデル高速化アテンションは、入力中のどのトークンに注目するかを計算する仕組みである。LLM や画像・動画生成モデルでは、このアテンション計算やデコードが性能ボトルネックになりやすい。MLSys 2026 では、スパース化、投機的復号、拡散モデル、早期脱出、整数化などの手法が多く扱われた。投機的復号とは、小さなドラフトモデルや軽い計算で先に候補トークンを生成し、大きなモデルでまとめて検証する高速化手法である。CPU の分岐予測や先読み実行に近い発想だが、LLM では検証自体が高コストで、バッチサイズが大きいと利得が減る場合がある。代表例は以下である。 - [[2026__MLSys2026__BLASST - Dynamic BLocked Attention Sparsity via Softmax Thresholding|BLASST]]: アテンションのブロックを動的にスキップし、プリフィルとデコードを高速化する。 - [[2026__MLSys2026__MAC-Attention a Match-Amend-Complete scheme for fast and accurate attention computation|MAC-Attention]]: 直近クエリと似た過去アテンション計算を再利用し、長コンテキストデコードを高速化する。 - [[2026__MLSys2026__TiDAR Think in Diffusion Talk in Autoregression|TiDAR]]: 拡散による並列ドラフトと自己回帰検証を組み合わせる。 - [[2026__MLSys2026__PRISM Parametrically Refactor Inference for Speculative Decoding Draft Models|PRISM]]、[[2026__MLSys2026__SpecDiff-2 Scaling Diffusion Drafter Alignment For Faster Speculative Decoding|SpecDiff-2]]、[[2026__MLSys2026__Accelerating Large-Scale Reasoning Model Inference with Sparse Self-Speculative Decoding|SparseSpec]]: 投機的復号のドラフトや検証を改善する。 - [[2026__MLSys2026__Speculative Decoding Performance or Illusion|Speculative Decoding: Performance or Illusion?]]: 投機的復号が実エンジン上でどこまで効くかを体系的に測る。 - [[2026__MLSys2026__HELIOS Adaptive Model And Early-Exit Selection for Efficient LLM Inference Serving|HELIOS]]: 複数モデルと早期脱出を組み合わせる。 - [[2026__MLSys2026__IntAttention A Fully Integer Attention Pipeline for Efficient Edge Inference|IntAttention]]: アテンション計算を完全整数パイプラインにして、エッジ推論を高速化する。このクラスタでは、「理論的に計算を減らす」ことと「実際の推論エンジンで速くなる」ことの差が重要である。検証コスト、カーネル起動、メモリ帯域、バッチサイズ、KV キャッシュ配置が効くため、アルゴリズムとシステムの協調設計が必要になる。隣接クラスタは、KV キャッシュ、LLM サービング、リアルタイム生成、RL 訓練である。 ## クラスタ 5: LLM 訓練スケーリング・メモリ・並列化 LLM 訓練では、パラメータ、勾配、オプティマイザ状態、活性化、通信バッファを複数 GPU にどう分散するかが性能を決める。単純に GPU 数を増やすだけでは、通信やメモリ不足が律速になる。基本的な並列化には、データ並列、テンソル並列、パイプライン並列、コンテキスト並列、エキスパート並列がある。MLSys 2026 の発表では、これらを固定的に選ぶのではなく、モデル構造、系列長、ネットワーク、GPU 世代、メモリ容量に応じて組み合わせる方向が強い。代表例は以下である。 - [[2026__MLSys2026__BOOST - Bottleneck-Optimized Scalable Training Framework for Low-Rank Large Language Models|BOOST]]: 低ランクモデルの構造に合わせてテンソル並列の通信境界を変える。 - [[2026__MLSys2026__FCP - Unleashing Scalable Context Parallelism for Foundation Models Pre-Training|FCP]]: 長い系列を固定サイズブロックに分け、コンテキスト並列を柔軟にする。 - [[2026__MLSys2026__NEST - Network- and Memory-Aware Device Placement for Distributed Deep Learning|NEST]]: 並列化、メモリ、ネットワークトポロジを同時に考えるデバイス配置。 - [[2026__MLSys2026__MTraining - Distributed Dynamic Sparse Attention for Efficient Ultra-Long Context Training|MTraining]]: 超長文脈訓練で動的スパースアテンションを分散実行する。 - [[2026__MLSys2026__ProTrain - Efficient LLM Training via Automatic Memory Management|ProTrain]]: ZeRO、オフロード、チェックポイント、スワップを統一的に探索する。 - [[2026__MLSys2026__DistCA - Efficient Long-Context Language Model Training by Core Attention Disaggregation|DistCA]]: 注意計算だけを分離して再バッチし、長コンテキスト訓練の不均衡を緩和する。 - [[2026__MLSys2026__Zorse - Optimizing LLM Training Efficiency on Heterogeneous GPU Clusters|Zorse]]、[[2026__MLSys2026__HexiScale - Facilitating Large Language Model Training over Heterogeneous Hardware|HexiScale]]、[[2026__MLSys2026__HetRL Efficient Reinforcement Learning for LLMs in Heterogeneous Environments|HetRL]]: 異種 GPU や低帯域ネットワークを前提にした訓練。 - [[2026__MLSys2026__AXLearn Modular Hardware-Agnostic Large Model Training|AXLearn]]、[[2026__MLSys2026__veScale-FSDP Flexible and High-Performance FSDP at Scale|veScale-FSDP]]: 大規模訓練フレームワークの柔軟性と性能を両立する。このクラスタの共通点は、アルゴリズム上の効率がそのまま実速度にならないという認識である。モデル構造を変えるなら、通信境界、メモリ配置、カーネル、チェックポイント方式も一緒に変える必要がある。隣接クラスタは、MoE・分散通信、データ・モデル設計、フリート効率である。 ## クラスタ 6: MoE・分散通信・耐障害性 MoE は Mixture of Experts の略で、複数の専門家ネットワークのうち一部だけを入力ごとに使うモデル構造である。計算量を抑えながらモデル容量を増やせるが、実システムでは専門家へのルーティング、all-to-all 通信、負荷不均衡、重みロード、KV キャッシュ、障害復旧が難しくなる。このクラスタでは、MoE そのものだけでなく、分散通信、ストラグラー、障害、チェックポイント、ネットワークオンチップまで含めて扱う。代表例は以下である。 - [[2026__MLSys2026__Demystifying the Mixture of Experts Serving Tax|MoE Serving Tax]]: MoE が密モデルより遅くなる要因を、演算密度、通信、パディング、重みロード、不均衡に分解する。 - [[2026__MLSys2026__FarSkip-Collective Unhobbling Blocking Communication in Mixture of Experts Models|FarSkip-Collective]]: MoE の all-to-all 通信を計算と重ねるため、モデル構造側も変える。 - [[2026__MLSys2026__CRAFT Fine-Grained Cost-Aware Expert Replication For Efficient Mixture-of-Experts Serving|CRAFT]]: レイヤごとに専門家レプリカの利得を見積もり、少ないレプリカで負荷均衡を改善する。 - [[2026__MLSys2026__fabric-lib RDMA Point-to-Point Communication for LLM Systems|fabric-lib]]: LLM システム向けの可搬な RDMA 点対点通信ライブラリ。 - [[2026__MLSys2026__RaidServe High-performance Resilient Serving|RaidServe]]、[[2026__MLSys2026__GhostServe A Lightweight Checkpointing System in the Shadow for Fault-Tolerant LLM Serving|GhostServe]]: LLM サービングの GPU 障害に備えた耐障害設計。 - [[2026__MLSys2026__MoEBlaze Breaking the Memory Wall for Efficient MoE Training on Modern GPUs|MoEBlaze]]、[[2026__MLSys2026__FP8-Flow-MoE - A Casting-Free FP8 Recipe without Double Quantization Error|FP8-Flow-MoE]]: MoE 訓練のメモリとデータフローを最適化する。 - [[2026__MLSys2026__FreeScale Distributed Training for Sequence Recommendation Models with Minimal Scaling Cost|FreeScale]]、[[2026__MLSys2026__Guard Scalable Straggler Detection and Node Health Management for Large-Scale Training|Guard]]、[[2026__MLSys2026__Sparing Strategies to Minimize Reliability Impact on Large Training Jobs|Sparing Strategies]]: 大規模訓練での通信バブル、グレーノード、スペア戦略を扱う。このクラスタは、分散システムとしての AI 基盤を最も強く感じる領域である。単一モデルの FLOPS ではなく、通信の形、故障時の状態、負荷不均衡、復旧時間が性能を決める。隣接クラスタは、訓練スケーリング、LLM サービング、ベンチマークである。 ## クラスタ 7: エッジ・オンデバイス・マルチモーダル/リアルタイム生成 MLSys 2026 はデータセンターだけの話ではない。スマートフォン、マイクロコントローラ、衛星、ビデオ会議、リアルタイム動画生成、3D レンダリングなど、制約の厳しい環境で AI を動かす発表も多い。エッジやマルチモーダルでは、GPU クラスタと違い、電力、メモリ、端末内 NPU、ネットワーク遅延、リアルタイム性が強い制約になる。モデルを小さくするだけでなく、ランタイム、量子化、スケジューリング、ステージ分離を含めて設計する必要がある。代表例は以下である。 - [[2026__MLSys2026__ExecuTorch - A Unified PyTorch Solution to Run AI Models On-Device|ExecuTorch]]: PyTorch モデルをマイクロコントローラからスマートフォンまで展開する統合ランタイム。 - [[2026__MLSys2026__StreamDiffusionV2 A Streaming System for Dynamic and Interactive Video Generation|StreamDiffusionV2]]: リアルタイム動画生成を、初回フレーム遅延とフレームごとの締切を意識して実行する。 - [[2026__MLSys2026__db-SP Accelerating Sparse Attention for Visual Generative Models with Dual-Balanced Sequence Parallelism|db-SP]]、[[2026__MLSys2026__SwiftGS Algorithm and System Co-Optimization for Fast 3D Gaussian Splatting on GPUs|SwiftGS]]: 視覚生成モデルや 3D Gaussian Splatting の並列化・冗長削減。 - [[2026__MLSys2026__TriInfer Hybrid EPD Disaggregation for Efficient Multimodal Large Language Model Inference|TriInfer]]: マルチモーダル LLM のエンコード、プリフィル、デコードを異種インスタンスへ分離する。 - [[2026__MLSys2026__REPARO Loss-Resilient Generative Codec for Video Conferencing|REPARO]]: ビデオ会議のパケットロスを生成モデルで補完する。 - [[2026__MLSys2026__Rethinking DVFS for Mobile LLMs Unified Energy-Aware Scheduling with CORE|CORE]]: モバイル LLM で CPU、GPU、メモリの周波数を協調制御する。 - [[2026__MLSys2026__EarthSight A Distributed Framework for Low-Latency Satellite Intelligence|EarthSight]]: 衛星と地上局にまたがる低遅延推論基盤。このクラスタの共通点は、AI モデルが物理世界の制約に強く縛られることである。締切、帯域、電力、端末容量、ネットワーク断が、モデル品質と同じくらい重要になる。隣接クラスタは、LLM サービング、アテンション高速化、ベンチマークである。 ## クラスタ 8: ベンチマーク・プロファイリング・フリート効率システムは測れないものを改善できない。MLSys 2026 では、単一モデルの精度や単一カーネルの速度だけでなく、起動時間、失敗、ストラグラー、フリート全体の前進、実ワークロードの偏りを測る発表が目立った。ここで重要なのが **グッドプット** である。スループットは処理量そのものだが、グッドプットは実際に価値ある処理として成功・前進した量を見る。GPU が忙しくても、失敗したジョブややり直しばかりなら価値は低い。代表例は以下である。 - [[2026__MLSys2026__OSWorld-Human - Benchmarking the Efficiency of Computer-Use Agents|OSWorld-Human]]: コンピュータ操作エージェントを、成功率だけでなく人間比の時間効率で測る。 - [[2026__MLSys2026__Breaking the Ice - Analyzing Cold Start Latency in vLLM|Breaking the Ice]]: vLLM のコールドスタートを段階ごとに分解する。 - [[2026__MLSys2026__XProf - An Open Scalable and Extensible Profiling System for the Modern ML Stack|XProf]]: ホストとデバイスをまたぐ大規模 ML プロファイラ。 - [[2026__MLSys2026__AIRS - Scaling Live Inference in Resource Constrained Environments|AIRS]]: 制約された TPU 割当で、検索評価向け LLM 評定を大規模処理する。 - [[2026__MLSys2026__SAKURAONE - An Open Ethernet-Based AI HPC System and Its Observed Workload Dynamics in a Single-Tenant LLM Development Environment|SAKURAONE]]: オープン Ethernet ベース AI HPC システムの実測性能、障害、ジョブ分布を報告する。 - [[2026__MLSys2026__MLCommons Chakra - Advancing Performance Benchmarking and Co-design using Standardized Execution Traces|Chakra]]: 分散 AI ワークロードを標準実行トレースとして表す。 - [[2026__MLSys2026__ProfInfer - An eBPF-based Fine-Grained LLM Inference Profiler|ProfInfer]]: eBPF でオンデバイス LLM 推論を細粒度に観測する。 - [[2026__MLSys2026__Machine Learning Fleet Efficiency - Improving TPU Systems at Scale with ML Productivity Goodput|ML Productivity Goodput]]: TPU フリート全体の有効な学習前進を、スケジューリング、ランタイム、プログラム効率に分解する。このクラスタは、MLSys が実運用に近づいていることを示す。平均レイテンシや利用率だけでなく、P95/P99、キャンセル、障害復旧、チェックポイント済み作業、実トレースを見なければ、実際の価値は分からない。隣接クラスタは、LLM サービング、MoE・分散通信、エージェント化するシステムである。 ## クラスタ 9: データ・事前学習・モデル設計の再考最後のクラスタは、モデルアーキテクチャ、事前学習データ、学習後調整、最適化器、検証可能性を、システム制約と一体で見直す発表群である。 LLM の能力はモデルサイズだけで決まらない。どのデータで事前学習するか、トークナイザを使うか、MoE にするか、少量データでどう学習後調整するか、どの最適化器を使うか、ハードウェア上で効率よく動くかが絡み合う。代表例は以下である。 - [[2026__MLSys2026__Rethinking Pretraining - Data and Architecture|Rethinking Pretraining]]: 事前学習で重要なのはデータであり、BLT や FlexOlmo のようにデータから能力を引き出すアーキテクチャを考えるというキーノート。 - [[2026__MLSys2026__The Next Horizon of Systems - From MLSys to System Intelligence|System Intelligence]]: AI がシステムの共同設計者になり、意図と検証可能性が中心になるという視点。 - [[2026__MLSys2026__Learning from Less Measuring the Effectiveness of RLVR in Low Data and Compute Regimes|Learning from Less]]: 低データ・低計算の RLVR で、データ量より難易度分布が重要になることを示す。 - [[2026__MLSys2026__Pylo Towards Accessible Learned Optimizers in PyTorch|Pylo]]: 学習型最適化器を PyTorch で実用可能にする。 - [[2026__MLSys2026__Unified LLM Model for Power, Performance, and Area Prediction from Hardware Code|RocketPPA]]: Verilog から電力・性能・面積を予測し、ハードウェア設計を支援する。 - [[2026__MLSys2026__BOOST - Bottleneck-Optimized Scalable Training Framework for Low-Rank Large Language Models|BOOST]]、[[2026__MLSys2026__FP8-Flow-MoE - A Casting-Free FP8 Recipe without Double Quantization Error|FP8-Flow-MoE]]: モデル構造や数値表現を、通信・メモリ・カーネルと一緒に設計する。このクラスタのポイントは、モデル研究とシステム研究の境界が薄くなっていることである。よいアーキテクチャは、精度だけでなく、訓練しやすさ、推論しやすさ、検証しやすさ、配備しやすさまで含めて評価される。隣接クラスタは、訓練スケーリング、AI for Systems、エッジ実行である。 ## クラスタ間の見取り図 ```mermaid graph TD A["エージェント化するシステム"] --> B["LLM サービング"] A --> H["ベンチマーク・プロファイリング"] A --> I["データ・モデル設計"] B --> C["KV キャッシュ・長コンテキスト"] B --> D["アテンション・復号高速化"] B --> F["MoE・分散通信"] C --> D E["LLM 訓練スケーリング"] --> F E --> I F --> H G["エッジ・マルチモーダル"] --> B G --> D H --> B ``` この図で見ると、LLM サービングは多くのクラスタの交差点にある。KV キャッシュ、投機的復号、MoE、エージェント、フリート効率は、いずれもサービング基盤の設計に戻ってくる。一方、訓練側では長コンテキスト、異種 GPU、MoE、データ設計が結びつき、モデル構造とシステム構造を同時に考える必要がある。 ## 初学者向けの読み方 MLSys に詳しくないエンジニアがこの発表群を読むなら、最初から全論文を個別に追うより、以下の順で読むと理解しやすい。 1. [[2026__MLSys2026__Beyond Model Serving Cross-Stack Co-Design for Agentic Systems|Beyond Model Serving]] と [[2026__MLSys2026__The Next Horizon of Systems - From MLSys to System Intelligence|System Intelligence]] で、会議全体の問題意識を掴む。 2. [[2026__MLSys2026__LMCache An Efficient KV Cache Layer for Enterprise-Scale LLM Inference|LMCache]] と [[2026__MLSys2026__ContextPilot Fast Long-Context Inference via Context Reuse|ContextPilot]] で、LLM 推論が状態管理問題になっていることを理解する。 3. [[2026__MLSys2026__OSWorld-Human - Benchmarking the Efficiency of Computer-Use Agents|OSWorld-Human]] と [[2026__MLSys2026__Hippocampus An Efficient and Scalable Memory Module for Agentic AI|Hippocampus]] で、エージェントが新しいワークロードであることを見る。 4. [[2026__MLSys2026__BOOST - Bottleneck-Optimized Scalable Training Framework for Low-Rank Large Language Models|BOOST]]、[[2026__MLSys2026__FCP - Unleashing Scalable Context Parallelism for Foundation Models Pre-Training|FCP]]、[[2026__MLSys2026__NEST - Network- and Memory-Aware Device Placement for Distributed Deep Learning|NEST]] で、訓練基盤の並列化と配置問題を掴む。 5. [[2026__MLSys2026__Machine Learning Fleet Efficiency - Improving TPU Systems at Scale with ML Productivity Goodput|ML Productivity Goodput]]、[[2026__MLSys2026__SAKURAONE - An Open Ethernet-Based AI HPC System and Its Observed Workload Dynamics in a Single-Tenant LLM Development Environment|SAKURAONE]]、[[2026__MLSys2026__XProf - An Open Scalable and Extensible Profiling System for the Modern ML Stack|XProf]] で、実運用の評価軸を見る。 ## まとめ MLSys 2026 を一言でまとめるなら、「AI ワークロードの高速化」から「AI を含むシステム全体の制御・検証・運用」への拡張である。 LLM、エージェント、MoE、長コンテキスト、マルチモーダル生成は、いずれも大量の状態を持ち、実行時間が長く、失敗しやすく、ハードウェア制約に強く影響される。そのため、キャッシュ、スケジューリング、観測、障害復旧、メモリ階層、ネットワーク、エネルギー、セキュリティが研究の中心に押し出されている。実務エンジニアにとっての最も重要な読み替えは、AI システムを「モデル API」ではなく「状態を持つ分散システム」として見ることである。MLSys 2026 の発表群は、その状態をどの層で管理し、どの指標で評価し、どの失敗モードから守るべきかを示している。