@2025__O11yConTokyo2025__AIスパコン「さくらONE」のオブザーバビリティ

## 概要 [[坪内佑樹]]（[[さくらインターネット研究所]]）が Observability Conference Tokyo 2025 で発表したスライド。AI スパコンサービス「[[SAKURAONE]]」のオブザーバビリティ現状と、クラウドネイティブ分野とのギャップ（オブザーバビリティギャップ）を整理し、3 つのギャップ（学習処理性能のボトルネック特定・アプリかインフラかの問題切り分け・マイクロバーストモニタリング）を研究開発で解消する方針を示す。 ## 主要メッセージ - AI スパコンサービスのオブザーバビリティは「ハードモード」である。アプリケーションコードの計装不可・GPU/RDMA 通信の特殊性により、既存の OTel + Grafana ベースのリソース分析ではワークロード分析に届かない。 - OTel Collector を中心としたメトリクス・ログ・プロファイル基盤を構築済みだが、ログとプロファイルは有効利用できていない（p.34）。 - ギャップ解消の方向として、eBPF による GPU ゼロコード計装（CUDA API 層・ドライバ層・GPU 内部層）と、R-Pingmesh による RoCE ネットワーク常時監視を挙げる。 ## 視覚的に重要な図表 **p.13 さくらONE の構成** ![[_attachments/o11yconjp2025/page-013.png]] 12,000 CPU コア・800 GPU（H100）・800 NIC（400 GbE）・800 GbE インターコネクト・200 GbE ストレージネットワーク・2PB ストレージの 100 ノード構成。 **p.18 AI スパコンサービスのオブザーバビリティ要求** ![[_attachments/o11yconjp2025/page-018.png]] ユーザー観点（学習処理性能・計算資源利用率）とプロバイダ観点（障害・故障管理・計算資源利用率）を、ワークロード分析とリソース分析の 2 軸で整理。 **p.19 責任境界による計装・収集の制約** ![[_attachments/o11yconjp2025/page-019.png]] プロバイダはアプリケーションコードの計装不可・アプリログの収集不可。OS・ドライバ・デバイス・ジョブスケジューラのみが計装対象。 **p.32 データパイプラインの構成（全体像）** ![[_attachments/o11yconjp2025/page-032.png]] GPU ノード（100）・ログインノード（1）・インターコネクトスイッチから OTeL Collector Agent → OTeL Collector Gateway → VictoriaMetrics / VictoriaLogs / Pyroscope → Grafana のフロー。 **p.33 GPU ノードの構成** ![[_attachments/o11yconjp2025/page-033.png]] Node Exporter・DCGM Exporter・Lustre Exporter（GSI-HPC）・IPMI Exporter・Process Exporter・RDMA Exporter（自作、github.com/yuuki/rdma_exporter）が OTeL Collector Agent を経由。opentelemetry-ebpf-profiler でゼロコードプロファイリング。 **p.36 オブザーバビリティギャップ** ![[_attachments/o11yconjp2025/page-036.png]] ギャップ (1) 学習処理性能のボトルネック特定（ユーザー/性能観点）、(2) アプリかインフラの問題切り分け（障害・故障観点）、(3) マイクロバーストモニタリング（プロバイダ/投資効果観点）。 **p.43 GPU ゼロコード計装の最先端** ![[_attachments/o11yconjp2025/page-043.png]] CUDA API 層（uprobes / libcudart.so）・GPU ドライバ層（tracepoints / kprobes）・GPU 内部層（PTX へ eBPF コード注入、bpftime）の 3 階層。OSDI 2025・HDCS 2025 の最新研究を参照。 **p.44 GPU ゼロコード計装の課題** ![[_attachments/o11yconjp2025/page-044.png]] 分散トレーシングへの帰着には深層学習フレームワーク層・CUDA API 層・GPU ドライバ層・GPU 内部層の各イベントを相関させる必要があるが、そのようなツールは現存しない。研究開発領域。 **p.47 R-Pingmesh** ![[_attachments/o11yconjp2025/page-047.png]] RNIC 間のアクティブプルービングによる RoCE ネットワーク監視。サービストラフィックとは独立した RNIC 単位のプルービング、RoCE パケットによるプルービング、RTT・パケットロスの常時計測の 3 特徴。 **p.50 まとめ** ![[_attachments/o11yconjp2025/page-050.png]] 制約：アプリケーションログ/コードの計装・収集不可。現状：OTel + Grafana でメトリクス・ログ・プロファイル基盤を構築、リソース分析はうまくいっているがワークロード分析が未達。ギャップ：(1) 学習処理過程の分散トレース（eBPF で CUDA/ドライバ/内部層のイベント相関）、(2) アプリかインフラかの切り分け（メッシュ状の RDMA Ping システムの実装）、(3) マイクロバースト監視。 ## 口頭説明・補足 - GPU 利用率 100% であっても演算効率が高いとは限らず、テンソルコア使用率 40–50% でようやく良い効率とされる（p.23 周辺の口頭説明）。 - Grafana の HPE Clusterview パネルプラグインは HPC 専門家に好評で、ラック→サーバ→GPU の入れ子構造を空間的に可視化できる。使い方の理解に半日かかった（口頭説明）。 - ジョブビューのガントチャートは Observability Conference 登壇のために 3 日前に急ぎ作成した。Slurm ジョブ履歴を MariaDB から取得して Grafana で可視化している（口頭説明）。 - PyTorch Profiler のオーバーヘッドに関して、1.42 倍遅延を増加させるという報告がある（EuroMLSys 2023 の論文を引用、p.41）。 - 会場で AI スパコンや大規模 AI 学習に携わっている参加者はほぼ 0 人であり、馴染みのないシステムの事例として技術好奇心の刺激とオブザーバビリティ自体の理解を深める機会と位置づけた（口頭説明）。 - マイクロバースト（ギャップ (3)）は講演時間の制約でスキップ。100 ミリ秒単位で全帯域を使い切った後ゼロに戻るバースト的通信があり、5 秒間隔のスクレイプでは捉えられない問題がある（口頭説明）。 ## 概念・実体への接続 - [[GPU観測性]] — GPU ゼロコード計装の 3 階層整理。先行 SpeakerDeck で触れた内容を本講演で再確認・拡張。 - [[LLM学習モニタリング]] — リソース分析基盤の具体構成（OTel Collector + VictoriaMetrics + Grafana）とワークロード分析の未達を提示。 - [[集合通信]] — Ring アルゴリズムの可視化（p.39）、NCCL エラーコードの不透明さ（p.46）。 - [[RDMA]] — R-Pingmesh による RoCE ネットワーク常時監視。 - [[SAKURAONE]] — システム構成の詳細（100 ノード × 8 H100 GPU、TOP500 #49）。 - [[坪内佑樹]] — 登壇者。SRE から AI スパコンのオブザーバビリティへ。 - [[さくらインターネット研究所]] — 所属組織。 ## 限界・不確実点 - transcript は YouTube 自動字幕（日本語）であり、固有名詞・専門用語の精度に限界がある。 - ギャップ (3) マイクロバーストモニタリングの詳細は講演でスキップされたため、スライド上の情報のみ。 - 発表日は YouTube 動画と SpeakerDeck の公開日から 2025-06-26 と推定。 - R-Pingmesh の実装は発表時点で途中であり未デプロイ（p.48、口頭説明で「まだ実装途中でデプロイできていない」と明言）。