# System@Scale: AI Observability **発表**: 2023-07-14 | **会議**: System@Scale (At Scale Conference) **登壇者**: [[Valentin Andrei]] / Riham Selim / Hao Wang / Lei Tian([[Meta]]) **URL**: https://atscaleconference.com/systemscale-ai-observability/ ## 概要 Meta が大規模 AI ワークロードのインフラ効率確保のために整備した観測性(オブザーバビリティ)スタックを公開した講演。観測性を「インフラが達成した性能レベルを最初に評価することを可能にする技術・ツール・データセット・ダッシュボードの総体」と定義し、4層のアーキテクチャで実装している。 ## 4層オブザーバビリティ・アーキテクチャ | 層 | 役割 | 主要ツール | |---|---|---| | 1. ベアメタルテレメトリ | ホスト/プロセスレベルのメトリクス基盤収集 | [[Dynolog]] | | 2. 高度イントロスペクション | CPU+GPU 詳細プロファイリング | [[Kineto]] / Strobelight(BPF) / [[Gpusnoop]] | | 3. スケール分析プラットフォーム | Meta Performance Profiling/Analysis Platform(自動回帰検知) | — | | 4. フリートダッシュボード | 最適化ガイダンスとインフラ計画 | — | ## 主要ツール ### Dynolog Meta が開発した分散テレメトリデーモン。ホストレベル・プロセスレベルのメトリクス収集を担い、フリート規模での観測性基盤として機能する。(→ [[Dynolog]]) ### LibAsicMon AI アクセラレータ(GPU・MTIA・推論アクセラレータ)向けプラットフォーム非依存のオブザーバビリティライブラリ。GPU 固有の API に依存せず、ヘテロジーニアスなアクセラレータを統一的に観測できる。(→ [[LibAsicMon]]) ### Kineto NVIDIA CUPTI を基盤に構築した CPU+GPU 統合プロファイリングライブラリ。PyTorch Profiler のバックエンドとして機能し、CPU と GPU の両側でイベントを収集・突き合わせる。(→ [[Kineto]]) ### Gpusnoop CUDA イベントとメモリ追跡のための BPF ベースプロファイラ。[[eBPF]] (BPF) を活用して低オーバーヘッド・非計装でユーザー空間とカーネルのイベントを傍受する。 ### DCGM NVIDIA Datacenter GPU Manager。ALU 利用率計測に使用。(既製品) ## 主要メトリクス - **FLOPs/sec** — AI インフラ効率の主メトリクス。計算量と時間で GPU の仕事量を正規化する - **Compute Unit Utilization** — GPU 計算ユニット利用率 - **Device Power** — デバイス消費電力 - **rDevice hour/Byte** — 正規化コストメトリクス。ジョブ/ユーザー/モデル/プロダクト横断でコストを比較する独自指標 ## 技術的観点 - **eBPF の役割**: Gpusnoop・Strobelight はユーザー空間・カーネルイベントの低オーバーヘッド・非計装プロファイリングに eBPF を活用する。GPU の内部状態に踏み込まずホスト側から CUDA イベントを傍受する - **フリート規模のリソース帰属**: ジョブ/ユーザー/モデル/プロダクト別に GPU 利用を帰属させ、最適化ガイダンスに使う。1 台単位の監視でなくフリート全体の傾向把握が目的 - **自動回帰検知**: スケール分析プラットフォームが GPU カーネル回帰を自動検知し、BPF によるメモリ割り当てリークも追跡する ## 関連 - 概念: [[GPU観測性]] / [[eBPF]] / [[テレメトリ]] / [[GPUクラスタ運用]] - エンティティ: [[Meta]] / [[Valentin Andrei]] / [[Dynolog]] / [[LibAsicMon]] / [[Kineto]] ## 出典 - 一次: https://atscaleconference.com/systemscale-ai-observability/ (2023-07-14) - ローカル: `.raw/articles/systemscale-ai-observability-2026-06-19.md`