# Apostolos Kokolis [[Meta]] の FAIR に所属する研究者。[[@2025__HPCA__Revisiting Reliability in Large-Scale Machine Learning Research Clusters]] の共同筆頭著者(* equal contribution)であり、RSC-1/RSC-2 の 11 か月・4 百万ジョブ・1.5 億超 A100 GPU 時間の信頼性分析に関与した。(Source: [[@2025__HPCA__Revisiting Reliability in Large-Scale Machine Learning Research Clusters]]) ## 関連 - ソース: [[@2025__HPCA__Revisiting Reliability in Large-Scale Machine Learning Research Clusters]] - エンティティ: [[Meta]] - 概念: [[GPUクラスタ運用]] / [[耐障害LLM訓練]]