# SkeletonHunter [[Alibaba Group|Alibaba Cloud]] が SIGCOMM 2025 で提案した、コンテナ化された大規模モデル訓練のネットワーク障害を実行時に検知・箇所特定する監視・診断システム。(Source: [[@2025__SIGCOMM__SkeletonHunter - Diagnosing and Localizing Network Failures in Containerized Large Model Training]]) - Pingmesh アーキテクチャ(controller / agent / analyzer)を踏襲する。 - 中核は**トラフィックスケルトン**(訓練トラフィックが一貫して通過する重要なネットワークパスの集合)の推論。クラウド事業者はテナントのモデル並列化戦略を見られないため、RNIC のスループットのバーストサイクルを STFT で周波数領域に変換し階層クラスタリングで並列化グループ(DP/TP/PP/EP)を推論する。 - rail-optimized トポロジ([[Alibaba HPN]] が前提)の基本 ping リストで full-mesh から 87.5% 削減し、推論スケルトンでさらに 95% 超削減。2,048 RNIC で probing 時間を full-mesh の 2,034.12 秒から 25.09 秒へ短縮する。 - 検知した接続性異常は「楽観的なオーバーレイ・アンダーレイ分離」で問題コンポーネントへ箇所特定する。本番に 10 ヶ月以上(2024-03〜)デプロイし、6 ヶ月で 4,816 件の障害を precision 98.2% / recall 99.3% で検知、95.7% の精度で箇所特定した。 ## 関連 - ソース: [[@2025__SIGCOMM__SkeletonHunter - Diagnosing and Localizing Network Failures in Containerized Large Model Training]] - 開発機関: [[Alibaba Group]] - 関連システム: [[Alibaba HPN]] / [[R-Pingmesh]] - 概念: [[RDMAネットワーク監視]] / [[Fault Localization]] / [[LLM分散学習]] / [[集合通信]]