2026__MLSys2026__カンファレンス全体傾向分析レポート

# MLSys 2026 カンファレンス全体傾向分析レポート本レポートは [[MLSys2026]] のセッションメモをもとに、MLSys 分野に詳しくないエンジニア向けに、カンファレンス全体の傾向を整理したものである。個々の論文の詳細よりも、「この分野で何が問題になっているのか」「どのような設計パターンが増えているのか」「一般的なシステムエンジニアがどう読み替えればよいのか」に重点を置く。 ## 要約 MLSys 2026 の中心は、機械学習モデルを単に速く動かす話から、LLM、エージェント、長コンテキスト、MoE、マルチモーダル生成を、コスト・信頼性・エネルギー・運用制約込みで成立させるシステム設計へ移っている。最も目立つ領域は LLM 推論基盤である。LLM サービングのセッションが複数日にわたり配置され、プリフィルとデコードの分離、KV キャッシュ管理、投機的復号、MoE サービング、SLO を意識したスケジューリングが何度も登場した。ここでいうサービングとは、モデルを API として提供し、リクエストの遅延、スループット、コスト、失敗時の復旧を管理する実行基盤のことである。同時に、エージェントが単なるアプリケーションではなく、新しいシステムワークロードとして扱われ始めている。エージェントは複数回の LLM 呼び出し、ツール実行、記憶、検索、計画、失敗からの回復を含むため、従来の「一回のプロンプトに一回応答する」推論とは性質が大きく異なる。[[2026__MLSys2026__OSWorld-Human - Benchmarking the Efficiency of Computer-Use Agents|OSWorld-Human]]、[[2026__MLSys2026__Hippocampus An Efficient and Scalable Memory Module for Agentic AI|Hippocampus]]、[[2026__MLSys2026__FlashAgents Accelerating Multi-Agent LLM Systems via Streaming Prefill Overlap|FlashAgents]]、[[2026__MLSys2026__Matrix - Peer-to-Peer Multi-Agent Synthetic Data Generation Framework|Matrix]]、[[2026__MLSys2026__ADR - An Agentic Detection System for Enterprise Agentic AI Security|ADR]] などは、その変化をよく示している。もう一つの大きな流れは、AI がシステムを最適化する側にも回り始めたことである。[[2026__MLSys2026__Optimizing PyTorch Inference with LLM-Based Multi-Agent Systems|PIKE]]、[[2026__MLSys2026__FlashInfer-Bench - Building the Virtuous Cycle for AI-driven LLM Systems|FlashInfer-Bench]]、[[2026__MLSys2026__PROMPTS - PeRformance Optimization via Multi-Agent Planning for LLM Training and Serving|PROMPTS]]、[[2026__MLSys2026__Agentic Operator Generation for ML ASICs|Agentic Operator Generation]] は、カーネル、シャーディング、アクセラレータ演算子、最適化器を LLM やエージェントで生成・探索する方向を示した。ただし、キーノートでは AI 生成コードの品質、報酬ハック、検証の難しさも強調されており、単純な自動化礼賛ではない。 ## MLSys とは何を扱う分野か MLSys は Machine Learning and Systems の略で、機械学習のモデルそのものだけでなく、そのモデルを学習・推論・運用するためのシステム全体を扱う分野である。深層学習の規模が大きくなるにつれて、モデルの精度だけを見ても実用上の価値は判断できなくなった。巨大モデルをどのハードウェアで動かすか、メモリに何を残すか、複数 GPU にどう分散するか、障害時にどう復旧するか、電力をどれだけ使うか、といった問いが性能とコストを決める。一般的なウェブサービスで言えば、アプリケーションコードだけでなく、ロードバランサ、キャッシュ、データベース、キュー、監視、デプロイ、障害対応まで含めて考えるのに近い。MLSys では、その対象が LLM や画像生成モデル、推薦モデル、訓練クラスタ、推論クラスタ、GPU カーネル、コンパイラ、アクセラレータに広がる。 MLSys 2026 で特徴的だったのは、モデルの計算量だけでなく、状態の扱いが主役になったことである。LLM 推論では、入力文脈を読み込むプリフィル、1 トークンずつ生成するデコード、過去トークンの中間状態である KV キャッシュが性能を左右する。エージェントでは、会話履歴、ツール結果、検索結果、長期記憶、失敗履歴が状態になる。大規模学習では、パラメータ、勾配、オプティマイザ状態、活性化、チェックポイント、通信キューが状態になる。今回の多くの発表は、この状態をどう圧縮し、分割し、再利用し、移動し、検証するかを扱っていた。 ## 傾向 1: LLM サービングは「計算」より「状態管理」の問題になった LLM 推論の素朴な理解では、GPU で巨大な行列計算を高速に行うことが中心に見える。しかし MLSys 2026 の発表群を見ると、実際のボトルネックはかなり細かく分解されている。特に長コンテキストや多ターン対話では、モデルの重み計算だけでなく、KV キャッシュの容量、転送、再利用、量子化、破棄、復元が支配的になる。 KV キャッシュとは、過去のトークンに対する注意機構の中間結果である。これを保存しておくと、次のトークン生成時に過去文脈を毎回最初から計算せずに済む。一方で、文脈が長くなり、リクエスト数が増えると、KV キャッシュは GPU メモリを圧迫する。GPU メモリは高価で容量が限られるため、どの KV キャッシュを GPU に置き、どれを CPU メモリやリモートストレージへ逃がし、どれを圧縮するかが重要になる。 [[2026__MLSys2026__LMCache An Efficient KV Cache Layer for Enterprise-Scale LLM Inference|LMCache]] は、KV キャッシュを一種の新しいデータ型として扱い、GPU メモリ、CPU メモリ、リモートストレージにまたがる階層的なキャッシュ層を提案していた。[[2026__MLSys2026__ContextPilot Fast Long-Context Inference via Context Reuse|ContextPilot]] は、長コンテキスト推論で文脈の再利用を増やし、プリフィル遅延を削減する。[[2026__MLSys2026__SkipKV Selective Skipping of KV Generation and Storage for Efficient Inference with Large Reasoning Models|SkipKV]]、[[2026__MLSys2026__OPKV A High-Throughput Plugin-Driven Framework for Recallable Sparsity in Paged KV Cache Systems|OPKV]]、[[2026__MLSys2026__FlexiCache Leveraging Temporal Stability of Attention Heads for Efficient KV Cache Management|FlexiCache]]、[[2026__MLSys2026__Kitty Accurate and Efficient 2-bit KV Cache Quantization with Dynamic Channel-wise Precision Boost|Kitty]] は、それぞれ異なる粒度で KV キャッシュを削減・階層化・量子化する。この流れは、ウェブシステムでキャッシュ階層が性能を決めるのと似ている。ただし LLM の KV キャッシュは単なるキーと値の保存ではない。生成品質に影響するモデル内部状態であり、雑に捨てると精度や安全性が壊れる。そのため、メモリ削減と品質維持の両方を満たす設計が必要になる。プリフィルとデコードの分離も重要なテーマである。プリフィルは入力文脈全体を処理する段階で、計算量が大きく並列化しやすい。デコードは出力を 1 トークンずつ生成する段階で、メモリ帯域や逐次性が支配的になりやすい。性質の違う二つの処理を同じ GPU 群に詰め込むと、どちらかが非効率になる。[[2026__MLSys2026__TriInfer Hybrid EPD Disaggregation for Efficient Multimodal Large Language Model Inference|TriInfer]]、[[2026__MLSys2026__Beyond the Buzz - A Pragmatic Exploration of Prefill-Decode Disaggregation in Large Scale Inference|Beyond the Buzz]]、[[2026__MLSys2026__Optimizing Deployment Configurations for LLM Inference - Challenges and Insights|Meta Inference Team の発表]] は、この分離をワークロードや SLO に応じて動的に考える方向を示している。 ## 傾向 2: エージェントは「長く、遅く、失敗する」ワークロードとして研究され始めたエージェントとは、LLM が単に文章を返すだけでなく、計画を立て、ツールを呼び出し、結果を観察し、次の行動を選ぶ仕組みである。ブラウザ操作、コード編集、検索、表計算、社内ツール操作などが典型例である。 MLSys 2026 では、エージェントの議論が抽象的な能力評価ではなく、時間効率、記憶、セキュリティ、ランタイム、合成データ生成などのシステム問題として現れた。[[2026__MLSys2026__OSWorld-Human - Benchmarking the Efficiency of Computer-Use Agents|OSWorld-Human]] は、コンピュータ操作エージェントが人間なら数分で終わるタスクに長時間かかる問題を扱い、成功率だけでは実用性を測れないことを示した。LLM 呼び出し、履歴の肥大化、誤った座標指定によるループが、時間とコストを大きく浪費する。 [[2026__MLSys2026__Hippocampus An Efficient and Scalable Memory Module for Agentic AI|Hippocampus]] や [[2026__MLSys2026__Ontology-Guided Long-Term Agent Memory for Conversational RAG|Ontology-Guided Long-Term Agent Memory]] は、長期記憶をどう検索・圧縮・復元するかを扱う。エージェントは一回の会話ではなく、複数セッションにまたがってユーザーの好みや過去の決定を利用するため、検索拡張生成、つまり RAG の設計がより難しくなる。RAG は外部データを検索して LLM に渡す方法で、検索品質、文脈長、コストが直接応答品質に影響する。 [[2026__MLSys2026__AgenticCache Cache-Driven Asynchronous Planning for Embodied AI Agents|AgenticCache]] や [[2026__MLSys2026__FlashAgents Accelerating Multi-Agent LLM Systems via Streaming Prefill Overlap|FlashAgents]] は、エージェントの計画や複数エージェント間のやり取りを高速化する。ここで重要なのは、エージェントの処理が直列に見えても、実際には先読み、キャッシュ、重畳によって隠せる遅延があるという点である。セキュリティ面では [[2026__MLSys2026__ADR - An Agentic Detection System for Enterprise Agentic AI Security|ADR]] が象徴的である。エージェントはツールを呼び出し、ファイルや認証情報に触れるため、通常のチャットボットより攻撃面が広い。プロンプト、推論、ツール呼び出し、結果の因果連鎖を再構成し、危険な振る舞いを検知する必要がある。これは従来のログ監視に近いが、自然言語の意図やツール操作の文脈も含む点で難しい。 ## 傾向 3: 学習基盤は「大きくする」だけでなく、異種性と長文脈に適応する段階に入った大規模学習の研究では、GPU 数を増やして巨大モデルを学習する話だけでなく、異種 GPU、長コンテキスト、MoE、メモリ階層、障害、エラスティック運用が強く出ている。長コンテキスト学習では、系列長が伸びると注意機構の計算量やメモリ使用量が急増する。[[2026__MLSys2026__FCP - Unleashing Scalable Context Parallelism for Foundation Models Pre-Training|FCP]]、[[2026__MLSys2026__MTraining - Distributed Dynamic Sparse Attention for Efficient Ultra-Long Context Training|MTraining]]、[[2026__MLSys2026__DistCA - Efficient Long-Context Language Model Training by Core Attention Disaggregation|DistCA]] は、長い文脈を固定長ブロックに分けたり、スパース性を利用したり、注意計算だけを別のサーバ群へ分離したりする。これは、データベースで巨大なクエリを分割実行するのに近いが、モデルの数学的等価性や学習安定性を保つ必要がある。異種 GPU も重要な現実である。すべての組織が同一世代・同一性能の GPU を大量に持てるわけではない。[[2026__MLSys2026__Zorse - Optimizing LLM Training Efficiency on Heterogeneous GPU Clusters|Zorse]]、[[2026__MLSys2026__HexiScale - Facilitating Large Language Model Training over Heterogeneous Hardware|HexiScale]]、[[2026__MLSys2026__HetRL Efficient Reinforcement Learning for LLMs in Heterogeneous Environments|HetRL]] は、異なる GPU やネットワークを前提に、並列化や配置を非対称に設計する。これはクラウドや社内クラスタの実情に近く、研究としての重要性が高い。 MoE も大きなテーマだった。MoE は Mixture of Experts の略で、モデル内に複数の専門家ネットワークを持ち、入力ごとに一部だけを使う構造である。理論上は計算量を抑えつつモデル容量を増やせるが、実システムでは専門家へのルーティング、all-to-all 通信、負荷不均衡、メモリ配置が問題になる。[[2026__MLSys2026__Demystifying the Mixture of Experts Serving Tax|MoE Serving Tax]]、[[2026__MLSys2026__CRAFT Fine-Grained Cost-Aware Expert Replication For Efficient Mixture-of-Experts Serving|CRAFT]]、[[2026__MLSys2026__MoEBlaze Breaking the Memory Wall for Efficient MoE Training on Modern GPUs|MoEBlaze]]、[[2026__MLSys2026__FP8-Flow-MoE - A Casting-Free FP8 Recipe without Double Quantization Error|FP8-Flow-MoE]] は、MoE の効率を左右する通信とメモリの問題を扱っている。 ## 傾向 4: AI がシステムを作る側に回り、検証が中心課題になった MLSys 2026 のキーノートでは、AI がシステムの共同設計者になるという主張が何度も現れた。[[2026__MLSys2026__The Next Horizon of Systems - From MLSys to System Intelligence|The Next Horizon of Systems]] は、AI を単なるワークロードではなく、システムを設計・検証・最適化する存在として捉えていた。[[2026__MLSys2026__When AI Starts Writing Systems Code|When AI Starts Writing Systems Code]] も、AI が GPU カーネルやシステムコードを書く時代のコントリビューションと品質管理を論じていた。研究発表でもこの流れは明確である。[[2026__MLSys2026__Optimizing PyTorch Inference with LLM-Based Multi-Agent Systems|PIKE]] は PyTorch 推論を Triton や CUDA カーネルへ自動最適化する。[[2026__MLSys2026__FlashInfer-Bench - Building the Virtuous Cycle for AI-driven LLM Systems|FlashInfer-Bench]] は、LLM エージェントが生成した GPU カーネルを検証し、本番推論エンジンへ戻す循環を作ろうとしている。[[2026__MLSys2026__PROMPTS - PeRformance Optimization via Multi-Agent Planning for LLM Training and Serving|PROMPTS]] は、TPU 上のシャーディング最適化をマルチエージェントで支援する。[[2026__MLSys2026__Agentic Operator Generation for ML ASICs|Agentic Operator Generation]] は、新興 ML アクセラレータ向け演算子をエージェントで大量生成する。ただし、ここで重要なのは、AI が生成したものをそのまま信用していない点である。多くの発表は、リーダーボード、サンドボックス、コンパイラ、リンタ、テスト、形式検証、ベンチマークを組み合わせている。AI は探索空間を広げるが、正しさを保証する層は別に必要である。これは通常のソフトウェア開発にも通じる。コード生成能力が上がるほど、仕様、テスト、レビュー、観測、責任境界の価値が上がる。MLSys 2026 の文脈では、生成されたカーネルが速いだけでは不十分で、正しい入力範囲、数値誤差、ハードウェア依存、報酬ハックへの耐性まで見る必要がある。 ## 傾向 5: 評価指標は利用率からグッドプットへ移っている従来のシステム評価では、GPU 利用率、スループット、平均レイテンシがよく使われる。しかし MLSys 2026 では、それだけでは本番価値を表せないという主張が多かった。 [[2026__MLSys2026__Machine Learning Fleet Efficiency - Improving TPU Systems at Scale with ML Productivity Goodput|ML Productivity Goodput]] は、単にリソースが busy であることと、学習が前進していることを分けて考える。スケジューリング、ランタイム、プログラム効率を分解して、フリート全体でどれだけ有効な仕事が進んだかを見る。これは、サーバが CPU 100% でもユーザー価値が出ていなければ意味がない、という一般的な運用の感覚に近い。 [[2026__MLSys2026__AIRS - Scaling Live Inference in Resource Constrained Environments|AIRS]] は、限られた TPU 割当の中で日次 1 億件以上の LLM 評定を処理する実運用パイプラインを扱う。[[2026__MLSys2026__XProf - An Open Scalable and Extensible Profiling System for the Modern ML Stack|XProf]] は、数千チップ規模でホストとデバイスをまたいだプロファイリングを低オーバーヘッドで行う。[[2026__MLSys2026__SAKURAONE - An Open Ethernet-Based AI HPC System and Its Observed Workload Dynamics in a Single-Tenant LLM Development Environment|SAKURAONE]] は、オープンな Ethernet ベースの AI HPC システムと実ワークロードの偏り、障害傾向を報告している。この流れは、MLSys が研究用ベンチマークだけでなく、実運用フリートの効率、信頼性、観測可能性を扱う分野になっていることを示す。特に大規模クラスタでは、単一ジョブが速いだけでは不十分で、待ち時間、キャンセル、障害、チェックポイント、再実行、電力制約、ハードウェアの世代差が全体効率を決める。 ## 傾向 6: エッジ、モバイル、マルチモーダルでも同じ問題が起きている LLM サービングの議論はデータセンター中心に見えるが、同じ構造はエッジやマルチモーダルにも現れている。[[2026__MLSys2026__ExecuTorch - A Unified PyTorch Solution to Run AI Models On-Device|ExecuTorch]] は、PyTorch のモデルをマイクロコントローラからスマートフォンまで展開する統合基盤を示した。[[2026__MLSys2026__IntAttention A Fully Integer Attention Pipeline for Efficient Edge Inference|IntAttention]] や [[2026__MLSys2026__Rethinking DVFS for Mobile LLMs Unified Energy-Aware Scheduling with CORE|CORE]] は、モバイル推論における整数化や周波数制御を扱う。マルチモーダルや生成モデルでは、リアルタイム動画生成、3D Gaussian Splatting、ビデオ会議の生成コーデック、衛星インテリジェンスなどが取り上げられた。[[2026__MLSys2026__StreamDiffusionV2 A Streaming System for Dynamic and Interactive Video Generation|StreamDiffusionV2]] はリアルタイム動画生成を SLO 制約下で扱い、[[2026__MLSys2026__TriInfer Hybrid EPD Disaggregation for Efficient Multimodal Large Language Model Inference|TriInfer]] はマルチモーダル LLM のエンコード、プリフィル、デコードを異種インスタンスに分離する。[[2026__MLSys2026__REPARO Loss-Resilient Generative Codec for Video Conferencing|REPARO]] や [[2026__MLSys2026__EarthSight A Distributed Framework for Low-Latency Satellite Intelligence|EarthSight]] は、AI システムがネットワークや現実世界の制約と結びつく例である。ここでも共通するのは、モデル単体ではなく、締切、帯域、電力、局所性、障害、端末制約を含めたシステム設計である。 ## 初学者向けの用語整理 | 用語 | このレポートでの意味 | 一般的なシステムとの対応 | | --- | --- | --- | | プリフィル | 入力文脈全体を処理し、生成前の内部状態を作る段階 | リクエスト開始時の重い初期化 | | デコード | 出力トークンを逐次生成する段階 | 小さな処理を低遅延で何度も繰り返すループ | | KV キャッシュ | 過去トークンに対する注意機構の中間状態 | アプリケーションキャッシュ。ただし品質に影響する内部状態 | | SLO | 達成すべきサービスレベル目標。例: 初回応答時間、トークン間遅延 | ウェブ API のレイテンシ目標 | | Goodput | 実際に価値ある仕事として前進した処理量 | 単なる CPU 使用率ではなく成功リクエスト数を見る考え方 | | MoE | 複数の専門家ネットワークから一部を選んで使うモデル構造 | シャーディングされたサービスにリクエストをルーティングする構造 | | RAG | 外部データを検索し、その結果を LLM に渡して回答する方式 | 検索エンジンと生成 API を組み合わせたパイプライン | | 投機的復号 | 小さなドラフト生成を先に行い、大きなモデルで検証して高速化する方式 | 先読み実行、分岐予測、楽観的実行に近い | | エキスパート並列 | MoE の専門家を複数デバイスに分散する方式 | サービスごとの分散配置と負荷分散 | | チェックポイント | 学習や推論状態を保存し、障害時に再開可能にする仕組み | データベースのスナップショットやジョブ再開点 | ## 実務エンジニアにとっての読み替え第一に、LLM システムでは「モデルを選ぶ」だけでは不十分である。入力長、出力長、同時接続数、キャッシュ再利用率、SLO、失敗時の復旧、GPU メモリ容量まで含めて、実行基盤を設計する必要がある。特に長コンテキストやエージェントでは、状態が増え続けるため、履歴圧縮、キャッシュ設計、検索設計が早い段階で重要になる。第二に、平均性能よりテイルと失敗を見る必要がある。エージェントがループする、検索が遅れる、KV キャッシュが溢れる、GPU の一部が劣化する、コールドスタートが長い、といった問題は平均値に隠れやすい。MLSys 2026 では、SLO 違反、P95/P99、障害復旧、グッドプット、不確実性を扱う研究が多く、実運用の関心に近い。第三に、異種性を前提にした設計が現実的になっている。H100 だけを大量に持つ前提ではなく、旧世代 GPU、低帯域ネットワーク、CPU メモリ、NVMe、モバイル SoC、TPU、NPU を組み合わせる研究が増えている。これは、限られた予算や既存資産の中で AI 基盤を作る組織にとって重要である。第四に、AI による自動最適化は有望だが、検証基盤とセットで考えるべきである。LLM がコードやカーネルや設定を生成できるほど、テスト、リンタ、サンドボックス、プロファイラ、形式的な仕様、権威あるコンパイラチェックが重要になる。人間の仕事は、すべてのコードを手で書くことから、問題設定、評価環境、失敗モードの定義へ移っている。 ## 代表的な読みどころ MLSys 2026 の全体像を短時間で掴むなら、まず以下のノートが有用である。 - [[2026__MLSys2026__Beyond Model Serving Cross-Stack Co-Design for Agentic Systems]]: 正しさ、品質、コスト、レイテンシをシステム資源として扱う視点。 - [[2026__MLSys2026__LMCache An Efficient KV Cache Layer for Enterprise-Scale LLM Inference]]: KV キャッシュを新しいインフラ層として見る視点。 - [[2026__MLSys2026__The Next Horizon of Systems - From MLSys to System Intelligence]]: AI とシステムの共同進化という大きな方向性。 - [[2026__MLSys2026__OSWorld-Human - Benchmarking the Efficiency of Computer-Use Agents]]: エージェント評価を成功率から時間効率へ広げる視点。 - [[2026__MLSys2026__FlashInfer-Bench - Building the Virtuous Cycle for AI-driven LLM Systems]]: AI 生成カーネルを本番システムへ戻す循環と検証。 - [[2026__MLSys2026__Machine Learning Fleet Efficiency - Improving TPU Systems at Scale with ML Productivity Goodput]]: フリート全体の実効効率を測る視点。 - [[2026__MLSys2026__SAKURAONE - An Open Ethernet-Based AI HPC System and Its Observed Workload Dynamics in a Single-Tenant LLM Development Environment]]: AI HPC クラスタの実測、障害、利用動態。 ## 結論 MLSys 2026 は、LLM インフラの会議に近づいたように見えるが、実際にはより広い変化を示している。中心的な問いは「モデルをどう速くするか」ではなく、「AI を含む複雑なシステムを、どう測り、分割し、配置し、キャッシュし、検証し、運用するか」である。 LLM、エージェント、MoE、長コンテキスト、マルチモーダル生成は、いずれも状態を大量に持ち、実行時間が長く、失敗しやすく、ハードウェア制約に強く影響される。この性質により、キャッシュ、スケジューリング、観測、障害復旧、メモリ階層、ネットワーク、エネルギー、セキュリティが研究の中心に押し出されている。 MLSys 分野に詳しくないエンジニアにとっての最も重要な読み替えは、AI システムを「モデル API」ではなく「状態を持つ分散システム」として見ることである。MLSys 2026 の発表群は、その状態をどの層で管理し、どの指標で評価し、どの失敗モードから守るべきかを、実運用に近い形で示している。