# Ravishankar K. Iyer [[@2025__SC__Characterizing GPU Resilience and Impact on AI - HPC Systems]] の責任著者([email protected])。所属は [[University of Illinois Urbana-Champaign]]。同論文では大規模 HPC システムの運用データ駆動レジリエンス特徴付け(error vs. fault の議論を含む)を率いた。論文の参照リストには Blue Waters の障害分析(Di Martino, Kalbarczyk, Iyer ほか, DSN 2014)など、ディペンダブルコンピューティング分野での長年の業績が確認できる。 ## 関連 - ソース: [[@2025__SC__Characterizing GPU Resilience and Impact on AI - HPC Systems]] - 組織: [[University of Illinois Urbana-Champaign]] / [[NCSA]] - 人物: [[Shengkun Cui]](共同筆頭著者) - 概念: [[GPUクラスタ運用]] - [[Kaleidoscope]] フレームワーク([[@2020__SC20__Live Forensics for HPC Systems - A Case Study on Distributed Storage Systems]], SC 2020)の共著者。[[Blue Waters]] HPC ストレージ上の 2 年間の本番障害フォレンジクスを [[Saurabh Jha]] とともに主導した。これが 2025 年 SC の GPU レジリエンス論文で参照される Blue Waters 分析の直接の先行研究にあたる。(Source: [[@2020__SC20__Live Forensics for HPC Systems - A Case Study on Distributed Storage Systems]]) ## 出典 - [[@2025__SC__Characterizing GPU Resilience and Impact on AI - HPC Systems]](責任著者・最終著者として登場、参照 [12] Blue Waters 障害分析の共著) - [[@2020__SC20__Live Forensics for HPC Systems - A Case Study on Distributed Storage Systems]](共著者として登場)