RFT-FaultBench - yuuk1's Digital Garden

# RFT-FaultBench [[@2026__arXiv__Towards Robust LLM Post-Training - Automatic Failure Management for Reinforcement Fine-Tuning]] が構築・公開した、強化ファインチューニング(RFT)の細粒度の訓練障害に関する初のベンチマークデータセット。github.com/AIOps4LLM/RFT-FaultBench で公開。 - **構成**: 5 fault families・16 fault types。RF(Reward)/PG(Policy Generation)/OD(Optimization Dynamics)/CA(Credit Assignment)/TE(Tool/Environment)。各 type は scaled strength・intermittent・gradual・delayed の複数次元で活性化される。 - **規模**: 779 訓練ラン(標準 fault 320 + hardmode fault 448 + normal baseline 11)、22,549 train-step 記録、1,457,288 trajectory レベル記録。easy / hard の 2 難度を持つ(hard は同一の fault semantics で弱く局所的・微妙なシグネチャ)。 - **構築基盤**: [[OpenRLHF]] 上で制御された算術的推論タスクに具現化。8-GPU 構成(8× NVIDIA H20、Ubuntu 22.04.5 LTS)。Anomaly Injector をオンラインで訓練ループに注入し、Post Hoc Verifier で fault 固有規則を満たすランのみを Benchmark Curator が保持する(injection–verification–curation パイプライン)。 - **位置づけ**: 既存のソフトウェア障害管理ベンチマークが infra メトリクスや application ログ前提なのに対し、reward/KL/entropy/return/generation/tool feedback という RFT 固有の可観測性面を対象にした初のデータセット。実験で「自明でも飽和してもいない」ことが示された(古典手法は hard で崩壊、CA family は全手法に難しい)。 ## 関連 - 本ソース: [[@2026__arXiv__Towards Robust LLM Post-Training - Automatic Failure Management for Reinforcement Fine-Tuning]] - 関連システム: [[RFT-FM]](本ベンチマークで評価される手法) / [[OpenRLHF]](構築基盤) - 関連概念: [[強化ファインチューニング]] / [[障害注入]] / [[異常検知]] / [[AIOps]]