# StabilityDB
[[StabilityDB]] は、[[@2025__SC__Fine-grained Automated Failure Management for Extreme-Scale GPU Accelerated Systems]] の発表や関連研究で言及される自動故障管理フレームワークの一部である。相関イベントを含むイベント履歴を蓄積・分析する集中型メタデータベースを土台に、きめ細かいマルチストライク修復ポリシーと自動回復フレームワークを組み合わせ、[[Aurora]] スパコンで MTTR を手動保守比 最大84倍短縮した([[障害緩和]], [[GPUクラスタ運用]])。[[Intel Corporation]] と [[RIKEN Center for Computational Science]] が開発に関与する。