# Michael Kuchnik
[[Meta]] の FAIR に所属する研究者。[[@2025__HPCA__Revisiting Reliability in Large-Scale Machine Learning Research Clusters]] の共同筆頭著者(* equal contribution)であり、大規模 ML 研究クラスタの障害タクソノミー、MTTF、ETTR 分析を扱う論文に参加した。(Source: [[@2025__HPCA__Revisiting Reliability in Large-Scale Machine Learning Research Clusters]])
## 関連
- ソース: [[@2025__HPCA__Revisiting Reliability in Large-Scale Machine Learning Research Clusters]]
- エンティティ: [[Meta]]
- 概念: [[GPUクラスタ運用]] / [[耐障害LLM訓練]]