## Memo ## Memo with LLM ## Abstract 多くのデータ集約型アプリケーションの発展に伴い、高度な計算問題を解決するために大規模システムが広く利用されるようになった。 複雑さと規模が増大するにつれて、これらのシステムは障害に直面する可能性が高くなる。 今日の大規模システムでは、障害に対する救済措置に莫大なコストと労力がかかるため、障害がシステムに与える影響を低減することを目的とするフォールト・トレランスは、オプションではなく必然となっている。 フォールトトレランスの重要な技術の一つとして、故障予測はシステムの資源効率と可用性を向上させるためにますます重要な課題となっている。 過去数年の間に、数学的・統計的モデリング、機械学習技術など、数多くの革新的な故障予測アプローチが登場してきた。 しかし、残念ながら、現在、これらの手法は十分に分類されておらず、この分野に関する幅広い手法を把握することは困難である。 この目的のため、我々は20以上の様々なアプローチを調査・分析することにより、故障予測分野における既存の研究成果を広範かつ包括的に調査する。 また、手法の分類を支援する独自の分類法を開発し、それぞれのカテゴリーにおける手法の長所と短所を理解し、比較することを容易にします。