# eACGM [[Sun Yat-sen University]] が IWQoS 2025 で提案した、AI/ML システムをハードウェア(GPU・ネットワーク)からソフトウェア(CUDA・Python・PyTorch・[[NCCL]])まで通して監視するフルスタックの非侵入(near zero-intrusion)監視・異常検知フレームワーク。(Source: [[@2025__IWQoS__eACGM - Non-instrumented Performance Tracing and Anomaly Detection towards Machine Learning Systems]]) 中核は二つ: - **ゼロ侵入のフルスタックトレース**: [[eBPF]] プローブと libnvml により、コード計装を一切要さずに全スタックのイベントとメトリクスを実行時収集する。PyTorch ランタイム関数のリバースエンジニアリングや NCCL API 計装で AI/ML 固有イベントを捉える。 - **GMM による教師なし異常検知**: 収集した多次元メトリクスに混合ガウス分布(GMM)を当て、確率密度が閾値 δ 未満のイベントを異常とみなす。 デュアルノード(A40×6/ノード)の GPT-2 分散訓練で評価し、NCCL 通信異常を 85.04% の精度で検知。KMeans・Isolation Forest・DBSCAN・XGBoost・SVM・Random Forest の 6 ベースラインを全層で上回る。OSS 実装は github.com/shady1543/eACGM。 ## 関連 - ソース: [[@2025__IWQoS__eACGM - Non-instrumented Performance Tracing and Anomaly Detection towards Machine Learning Systems]] - 開発機関: [[Sun Yat-sen University]] - 所属研究者: [[Ruilin Xu]] / [[Zongxuan Xie]] / [[Pengfei Chen]] - 関連技術: [[eBPF]] / [[NCCL]] - 概念: [[異常検知]] / [[分散トレーシング]] / [[LLM学習モニタリング]]