## 概要 [[坪内佑樹]]([[さくらインターネット研究所]])が Observability Conference Tokyo 2025 で発表したスライド。AI スパコンサービス「[[SAKURAONE]]」のオブザーバビリティ現状と、クラウドネイティブ分野とのギャップ(オブザーバビリティギャップ)を整理し、3 つのギャップ(学習処理性能のボトルネック特定・アプリかインフラかの問題切り分け・マイクロバーストモニタリング)を研究開発で解消する方針を示す。 ## 主要メッセージ - AI スパコンサービスのオブザーバビリティは「ハードモード」である。アプリケーションコードの計装不可・GPU/RDMA 通信の特殊性により、既存の OTel + Grafana ベースのリソース分析ではワークロード分析に届かない。 - OTel Collector を中心としたメトリクス・ログ・プロファイル基盤を構築済みだが、ログとプロファイルは有効利用できていない(p.34)。 - ギャップ解消の方向として、eBPF による GPU ゼロコード計装(CUDA API 層・ドライバ層・GPU 内部層)と、R-Pingmesh による RoCE ネットワーク常時監視を挙げる。 ## 視覚的に重要な図表 **p.13 さくらONE の構成** ![[_attachments/o11yconjp2025/page-013.png]] 12,000 CPU コア・800 GPU(H100)・800 NIC(400 GbE)・800 GbE インターコネクト・200 GbE ストレージネットワーク・2PB ストレージの 100 ノード構成。 **p.18 AI スパコンサービスのオブザーバビリティ要求** ![[_attachments/o11yconjp2025/page-018.png]] ユーザー観点(学習処理性能・計算資源利用率)とプロバイダ観点(障害・故障管理・計算資源利用率)を、ワークロード分析とリソース分析の 2 軸で整理。 **p.19 責任境界による計装・収集の制約** ![[_attachments/o11yconjp2025/page-019.png]] プロバイダはアプリケーションコードの計装不可・アプリログの収集不可。OS・ドライバ・デバイス・ジョブスケジューラのみが計装対象。 **p.32 データパイプラインの構成(全体像)** ![[_attachments/o11yconjp2025/page-032.png]] GPU ノード(100)・ログインノード(1)・インターコネクトスイッチから OTeL Collector Agent → OTeL Collector Gateway → VictoriaMetrics / VictoriaLogs / Pyroscope → Grafana のフロー。 **p.33 GPU ノードの構成** ![[_attachments/o11yconjp2025/page-033.png]] Node Exporter・DCGM Exporter・Lustre Exporter(GSI-HPC)・IPMI Exporter・Process Exporter・RDMA Exporter(自作、github.com/yuuki/rdma_exporter)が OTeL Collector Agent を経由。opentelemetry-ebpf-profiler でゼロコードプロファイリング。 **p.36 オブザーバビリティギャップ** ![[_attachments/o11yconjp2025/page-036.png]] ギャップ (1) 学習処理性能のボトルネック特定(ユーザー/性能観点)、(2) アプリかインフラの問題切り分け(障害・故障観点)、(3) マイクロバーストモニタリング(プロバイダ/投資効果観点)。 **p.43 GPU ゼロコード計装の最先端** ![[_attachments/o11yconjp2025/page-043.png]] CUDA API 層(uprobes / libcudart.so)・GPU ドライバ層(tracepoints / kprobes)・GPU 内部層(PTX へ eBPF コード注入、bpftime)の 3 階層。OSDI 2025・HDCS 2025 の最新研究を参照。 **p.44 GPU ゼロコード計装の課題** ![[_attachments/o11yconjp2025/page-044.png]] 分散トレーシングへの帰着には深層学習フレームワーク層・CUDA API 層・GPU ドライバ層・GPU 内部層の各イベントを相関させる必要があるが、そのようなツールは現存しない。研究開発領域。 **p.47 R-Pingmesh** ![[_attachments/o11yconjp2025/page-047.png]] RNIC 間のアクティブプルービングによる RoCE ネットワーク監視。サービストラフィックとは独立した RNIC 単位のプルービング、RoCE パケットによるプルービング、RTT・パケットロスの常時計測の 3 特徴。 **p.50 まとめ** ![[_attachments/o11yconjp2025/page-050.png]] 制約:アプリケーションログ/コードの計装・収集不可。現状:OTel + Grafana でメトリクス・ログ・プロファイル基盤を構築、リソース分析はうまくいっているがワークロード分析が未達。ギャップ:(1) 学習処理過程の分散トレース(eBPF で CUDA/ドライバ/内部層のイベント相関)、(2) アプリかインフラかの切り分け(メッシュ状の RDMA Ping システムの実装)、(3) マイクロバースト監視。 ## 口頭説明・補足 - GPU 利用率 100% であっても演算効率が高いとは限らず、テンソルコア使用率 40–50% でようやく良い効率とされる(p.23 周辺の口頭説明)。 - Grafana の HPE Clusterview パネルプラグインは HPC 専門家に好評で、ラック→サーバ→GPU の入れ子構造を空間的に可視化できる。使い方の理解に半日かかった(口頭説明)。 - ジョブビューのガントチャートは Observability Conference 登壇のために 3 日前に急ぎ作成した。Slurm ジョブ履歴を MariaDB から取得して Grafana で可視化している(口頭説明)。 - PyTorch Profiler のオーバーヘッドに関して、1.42 倍遅延を増加させるという報告がある(EuroMLSys 2023 の論文を引用、p.41)。 - 会場で AI スパコンや大規模 AI 学習に携わっている参加者はほぼ 0 人であり、馴染みのないシステムの事例として技術好奇心の刺激とオブザーバビリティ自体の理解を深める機会と位置づけた(口頭説明)。 - マイクロバースト(ギャップ (3))は講演時間の制約でスキップ。100 ミリ秒単位で全帯域を使い切った後ゼロに戻るバースト的通信があり、5 秒間隔のスクレイプでは捉えられない問題がある(口頭説明)。 ## 概念・実体への接続 - [[GPU観測性]] — GPU ゼロコード計装の 3 階層整理。先行 SpeakerDeck で触れた内容を本講演で再確認・拡張。 - [[LLM学習モニタリング]] — リソース分析基盤の具体構成(OTel Collector + VictoriaMetrics + Grafana)とワークロード分析の未達を提示。 - [[集合通信]] — Ring アルゴリズムの可視化(p.39)、NCCL エラーコードの不透明さ(p.46)。 - [[RDMA]] — R-Pingmesh による RoCE ネットワーク常時監視。 - [[SAKURAONE]] — システム構成の詳細(100 ノード × 8 H100 GPU、TOP500 #49)。 - [[坪内佑樹]] — 登壇者。SRE から AI スパコンのオブザーバビリティへ。 - [[さくらインターネット研究所]] — 所属組織。 ## 限界・不確実点 - transcript は YouTube 自動字幕(日本語)であり、固有名詞・専門用語の精度に限界がある。 - ギャップ (3) マイクロバーストモニタリングの詳細は講演でスキップされたため、スライド上の情報のみ。 - 発表日は YouTube 動画と SpeakerDeck の公開日から 2025-06-26 と推定。 - R-Pingmesh の実装は発表時点で途中であり未デプロイ(p.48、口頭説明で「まだ実装途中でデプロイできていない」と明言)。