# Apostolos Kokolis
[[Meta]] の FAIR に所属する研究者。[[@2025__HPCA__Revisiting Reliability in Large-Scale Machine Learning Research Clusters]] の共同筆頭著者(* equal contribution)であり、RSC-1/RSC-2 の 11 か月・4 百万ジョブ・1.5 億超 A100 GPU 時間の信頼性分析に関与した。(Source: [[@2025__HPCA__Revisiting Reliability in Large-Scale Machine Learning Research Clusters]])
## 関連
- ソース: [[@2025__HPCA__Revisiting Reliability in Large-Scale Machine Learning Research Clusters]]
- エンティティ: [[Meta]]
- 概念: [[GPUクラスタ運用]] / [[耐障害LLM訓練]]