# MLSys2026 Industry Track Oral: Benchmarks and Evaluation 解説
## 要旨
- 対象は [[MLSys2026]] Day 4 の Industry Track Oral: Benchmarks and Evaluation。
- セッション名は「ベンチマークと評価」だが、主題はモデル精度の比較ではない。
- 中心的な問いは、大規模な機械学習システムを本番規模でどう観測し、再現し、改善につなげるかである。
- 共通する問題意識は以下である。
- GPU/TPU が稼働していることと、生産的な進捗があることは異なる。
- 推論・学習の遅さは、モデル、通信、メモリ、入出力、スケジューラ、コンパイラの複合要因で生じる。
- 本番ワークロードは機密性が高く、モデルやデータをそのまま共有できない。
- 単発のスコアでは、継続的な運用改善やハードウェア・ソフトウェア協調設計に十分でない。
## セッション全体の見取り図
- 観測基盤
- [[2026__MLSys2026__XProf - An Open Scalable and Extensible Profiling System for the Modern ML Stack|XProf]]
- [[2026__MLSys2026__ProfInfer - An eBPF-based Fine-Grained LLM Inference Profiler|ProfInfer]]
- 推論評価基盤
- [[2026__MLSys2026__AIRS - Scaling Live Inference in Resource Constrained Environments|AIRS]]
- クラスタ実証と運用トレース
- [[2026__MLSys2026__SAKURAONE - An Open Ethernet-Based AI HPC System and Its Observed Workload Dynamics in a Single-Tenant LLM Development Environment|SAKURAONE]]
- 標準化された実行トレース
- [[2026__MLSys2026__MLCommons Chakra - Advancing Performance Benchmarking and Co-design using Standardized Execution Traces|MLCommons Chakra]]
- フリート効率指標
- [[2026__MLSys2026__Machine Learning Fleet Efficiency - Improving TPU Systems at Scale with ML Productivity Goodput|Machine Learning Fleet Efficiency]]
## XProf
- XProf は、OpenXLA エコシステム向けの大規模機械学習プロファイラである。
- 目的は、CPU、TPU/GPU、コンパイラ、ランタイム、通信をまたいで、ボトルネックを同じ文脈で診断できるようにすることである。
- 重要な設計点は、観測のオーバーヘッドを小さく保つことである。
- TPU では 1% 未満のオーバーヘッドを目標とする。
- ホスト側収集オーバーヘッドは TPU で一貫して 0.3% 未満とされる。
- 観測によって実行挙動が大きく変わると、プロファイル結果の意味が失われる。
- 主な構成要素は以下である。
- TraceMe による軽量なホスト計装。
- XLA/HLO メタデータとの結合。
- TPU Global Timestamp Counter による分散時刻同期。
- MapReduce 型の分散後処理。
- PJRT C API 拡張によるデバイス非依存な統合。
- 技術的な要点は、低レベルのハードウェアイベントを高レベルのモデルコードや HLO 演算へ対応づける点にある。
- これにより、単に「アクセラレータ利用率が低い」と見るのではなく、以下の原因を切り分けられる。
- 入力パイプラインの詰まり。
- ホスト・デバイス間通信の待ち。
- 集合通信の遅延。
- メモリ帯域律速。
- コンパイラ生成コードの非効率。
- 電力・温度変動による影響。
- 産業的な意味は、プロファイリングを単発のデバッグではなく、フリート規模の継続的な効率改善基盤へ引き上げている点にある。
## AIRS
- AIRS は、Google 検索品質評価における LLM 評定器の推論基盤である。
- 背景には、検索結果や AI 機能の品質を評価するための評定需要の増大がある。
- 日次 1 億件以上の評定リクエストが発生する。
- TPU はライブユーザトラフィック向けに優先確保される。
- 評価用の TPU 供給は需要に対して制約される。
- AIRS の中心課題は、限られた推論資源を使って、重要な評価メトリクスを十分に速く生成することである。
- システムは大きく 2 層で構成される。
- Rating Fulfillment: 評定タスクの受理、キャッシュ確認、キュー、再試行、完了管理を担う。
- Model Management: モデルホスティング、TPU 利用率追跡、リソーススケールを担う。
- 採用している制御は実務的である。
- キャッシュ。
- キューイング。
- バッチング。
- クォータ会計。
- バックプレッシャ。
- 優先度制御。
- Page Quality や Needs Met の評定では 90 日の鮮度窓を使い、既存評定を再利用する。
- 平均 40% のキャッシュヒット率を達成。
- 実際にモデルへ流れる QPS をピークの 1-4% まで削減。
- 本発表の要点は、LLM-as-a-judge の精度評価そのものではない。
- 評価基盤が大規模推論システムになったとき、支配的な問題は以下へ移る。
- 評定の鮮度。
- 優先度。
- デッドライン。
- 共有 TPU プールの資源配分。
- 低優先度トラフィックの遅延許容。
- プロダクト評価を LLM 化すると、モデル単体ではなく、評価ワークフロー全体の制御設計が性能を決める。
## SAKURAONE
- SAKURAONE は、100 ノード、800 基の H100 GPU から成る AI HPC クラスタである。
- 特徴は、SONiC、RoCEv2、800GbE を用いたオープン Ethernet ベースの構成である。
- 主張は、専用寄りの InfiniBand スタックに対して、オープンな Ethernet スタックでも LLM 訓練に実用的な性能を出せるという点にある。
- 評価はピーク FLOPS に閉じていない。
- HPL。
- HPL-MxP。
- HPCG。
- IO500。
- MLPerf Training。
- 実ジョブトレース。
- 障害分析。
- MLPerf Training GPT-3 175B では、NVIDIA Eos との差が 9-17% 程度と報告される。
- クラスタ設計上の重要点は以下である。
- GPU-NIC アフィニティ。
- rail 最適化トポロジ。
- GPU 間通信とストレージ入出力パスの分離。
- leaf-spine Clos 構成。
- RoCEv2 の輻輳制御設定。
- 実ジョブトレースからは、GPU クラスタ運用に典型的な偏りが観測される。
- 1 ノードジョブはジョブ数の 76.9% を占める。
- 1 ノードジョブの GPU 占有時間は 1.8% にすぎない。
- 17 ノード以上のジョブはジョブ数では 3.3% だが、GPU 占有時間の 73.3% を占める。
- CANCELLED ジョブが GPU 占有時間の 73.5% を占める点も重要である。
- これは単純な失敗ではなく、損失曲線や検証結果を見て早期停止する LLM 開発の運用を反映している。
- FAILED ジョブの GPU 占有時間は小さく、早期に検知される失敗は長時間リソースを消費しない。
- 障害分析では、fabric よりも GPU 関連障害が支配的である。
- GPU 関連障害は 21 件中 9 件、42.9%。
- この発表の意義は、クラスタをベンチマークで評価するだけでなく、実際の開発フェーズ、ジョブ分布、キャンセル、障害まで含めて運用実態を示した点にある。
## MLCommons Chakra
- Chakra は、分散 AI/ML ワークロードの実行を標準化された実行トレースとして表す取り組みである。
- 背景には、実ワークロード共有の難しさがある。
- フロンティアモデルや本番ワークロードは機密性が高い。
- モデル、データ、コードをそのまま共有できない。
- しかしハードウェア設計やネットワーク設計には、実際の計算・通信パターンが必要である。
- Chakra の中心は、実行を DAG として表すスキーマである。
- ノードは計算、メモリ、通信を表す。
- エッジはデータ依存、制御依存、同期依存を表す。
- 集合通信は AllReduce、AllGather、ReduceScatter、All-to-All などとして表現する。
- tensor parallelism、pipeline parallelism、data parallelism、expert parallelism を同じ形式で扱う。
- Chakra の用途は複数ある。
- トレース解析。
- 実システム上でのリプレイ。
- Astra-sim などを用いたシミュレーション。
- 物理スイッチや NIC に対するハードウェア・イン・ザ・ループ検証。
- 重要なのは、モデル本体を共有せずに、性能上重要な実行挙動を共有できる点である。
- ケーススタディでは、MoE 的な All-to-All と AllReduce の混在がネットワーク輻輳制御に悪影響を与えることを示す。
- 高レートの AllReduce が輻輳制御を発火させる。
- All-to-All の多数の小フローが不均衡に絞られる。
- straggler が発生し、ジョブ完了時間を悪化させる。
- Chakra は、MLPerf のような固定ベンチマークを置き換えるというより、協調設計サイクルの共通言語を提供する。
- 本番で観測する。
- 代表的なトレースとして再現する。
- シミュレータやエミュレータで設計案を評価する。
- 実装して再び本番で検証する。
## ProfInfer
- ProfInfer は、eBPF を用いた LLM 推論向けの細粒度プロファイラである。
- 対象は、llama.cpp のようなオンデバイス推論エンジンである。
- オンデバイス推論では、TTFT や TPOT のような粗い指標だけでは原因分析が難しい。
- どの演算子が遅いのか。
- CPU、GPU、NPU のどこが律速なのか。
- メモリ帯域が問題なのか。
- ディスク入出力やページフォルトが問題なのか。
- 他タスクとのスケジューリング干渉があるのか。
- ProfInfer は、ソースコードを変更せずにプローブを取り付ける。
- uprobe / uretprobe でユーザ空間関数の入口・出口を観測する。
- tracepoint でスケジューリングイベントを観測する。
- PMC によりキャッシュミス、メモリアクセス、stall cycles などを取得する。
- 観測粒度は以下である。
- Token-level。
- Graph-level。
- Operator-level。
- Scheduler-level。
- `ggml_tensor` 構造体を読み、演算子種別、テンソル形状、依存関係を復元する。
- 主な観測結果は以下である。
- TTFT/TPOT の 97% 超が MatMul に費やされる。
- matrix-vector 乗算では CPU サイクルの大きな割合が stall になる。
- 一部の MoE モデルでは、ボトルネックがメモリ帯域ではなくディスク入出力になる。
- 活性化エキスパートがメモリから追い出されると、major page faults と実行時間が増える。
- オーバーヘッドは小さく、libbpf 構成では decode 速度低下が 1.19% 程度、全機能有効でも数% 台とされる。
- この発表の意義は、エッジ LLM の最適化対象をモデル圧縮だけでなく、実行時の演算子配置、ページング、スケジューリング、バックエンド選択へ広げている点にある。
## Machine Learning Fleet Efficiency
- 本発表は、Google の本番 TPU フリート効率を測るための ML Productivity Goodput(MPG)を提案する。
- 問題意識は明確である。
- 利用率が高いことは、生産的な進捗があることを意味しない。
- アクセラレータが busy でも、入力待ち、チェックポイント待ち、プリエンプション後のやり直し、冗長計算をしている可能性がある。
- capacity、occupancy、duty cycle は busy-ness を測るが、forward progress を直接測らない。
- MPG は以下の 3 成分に分解される。
$
\text{MPG} = \text{SG} \times \text{RG} \times \text{PG}
$
- Scheduling Goodput(SG)
- 分散ジョブに必要な全リソースが同時に割り当てられている割合。
- スケジューラやトポロジ制約の影響を表す。
- Runtime Goodput(RG)
- 割り当てられた時間のうち、チェックポイントに残る生産的な進捗があった割合。
- 入力待ち、コンパイル待ち、チェックポイント、プリエンプション損失を反映する。
- Program Goodput(PG)
- 生産的に実行している時間が、理論ピークにどれだけ近いかを表す。
- HLO グラフと演算形状から予測した実行時間と、実実行時間を比較する。
- PG は単純な演算単位の roofline 効率とは異なる。
- 演算単体ではなく、fusion や通信・計算オーバーラップを含む全体実行時間を評価する。
- コンパイラ最適化の効果やリグレッションをフリート規模で追跡できる。
- 報告された改善例は以下である。
- 通信と計算のオーバーラップにより、500B パラメータ級 LLM、1024 TPU チップで最大 1.38 倍のスループット改善。
- XLA の algebraic simplification により、上位 150 ワークロードの PG が 1.06-1.07 倍程度改善。
- CATWILD により TPU 訓練フリートの約 70% を継続チューニング。
- MPG の意義は、フリート効率を単一の利用率で見るのではなく、改善対象の層へ分解する点にある。
- SG が低ければスケジューリング問題。
- RG が低ければランタイムやプリエンプション、チェックポイント、入力処理の問題。
- PG が低ければプログラム、コンパイラ、ハードウェア適合の問題。
## 横断的な論点
- 観測の低侵襲化
- XProf と ProfInfer は、観測者効果を抑えながら、抽象度の異なる層を結合する。
- 本番規模では、プロファイラのオーバーヘッドとデータ量が診断可能性を左右する。
- 実行挙動の共有
- Chakra は、モデルやデータを晒さずに、性能上重要な実行パターンを共有する。
- 協調設計では、固定ベンチマークよりも実行トレースの再利用性が重要になる。
- 評価基盤の推論システム化
- AIRS は、評価そのものが巨大な LLM 推論ワークロードになることを示す。
- 精度だけでなく、鮮度、優先度、デッドライン、資源配分が評価品質を決める。
- クラスタ評価の運用化
- SAKURAONE は、ピーク FLOPS だけでなく、実ジョブ分布、キャンセル、障害を含む評価を行う。
- LLM 開発では、早期停止やフェーズ遷移がクラスタ利用を大きく変える。
- 利用率から生産的進捗へ
- MPG は、busy であることと productive であることを明確に分ける。
- 大規模フリートの改善には、スケジューリング、ランタイム、プログラム効率の分解が必要である。
## まとめ
- このセッションは、機械学習システムの評価軸が単発の性能スコアから、本番運用における継続的な観測・再現・改善へ移っていることを示す。
- ベンチマークは、固定されたモデルとデータセットで順位を出すためだけのものではない。
- 本番に近い評価では、以下が同時に必要になる。
- 低オーバーヘッドなプロファイリング。
- 機密性を保った実行トレース共有。
- 推論評価ワークロードの資源制御。
- クラスタの実利用トレース分析。
- 生産的進捗を測る指標。
- MLSys2026 のこのセッションは、「速いかどうか」ではなく、「どの層が、どの条件で、どれだけ意味のある進捗に貢献しているか」を測る方向への変化を示している。