# Michael Kuchnik [[Meta]] の FAIR に所属する研究者。[[@2025__HPCA__Revisiting Reliability in Large-Scale Machine Learning Research Clusters]] の共同筆頭著者(* equal contribution)であり、大規模 ML 研究クラスタの障害タクソノミー、MTTF、ETTR 分析を扱う論文に参加した。(Source: [[@2025__HPCA__Revisiting Reliability in Large-Scale Machine Learning Research Clusters]]) ## 関連 - ソース: [[@2025__HPCA__Revisiting Reliability in Large-Scale Machine Learning Research Clusters]] - エンティティ: [[Meta]] - 概念: [[GPUクラスタ運用]] / [[耐障害LLM訓練]]