RFT-FM - yuuk1's Digital Garden

# RFT-FM [[@2026__arXiv__Towards Robust LLM Post-Training - Automatic Failure Management for Reinforcement Fine-Tuning]] が提案した、強化ファインチューニング(RFT)向けの自動障害管理フレームワーク。anomaly detection・failure diagnosis・auto remediation を閉ループに統合する。 3 つの密結合コンポーネントから成る。 - **RFT-Feature-Based IVS Scoring(検知)**: Normal-Profile Calibration → Deviation-Based Invariant Extraction(5 不変量)→ Invariant Severity Scoring の 3 段で、健全プロファイルからの相対逸脱を単一スコア $S(X)$ に束ねて閾値判定。 - **Training-Dynamics Failure Attribution(診断)**: Temporal Dynamics Modeling → Fine-Grained Fault Fingerprinting → Failure Attribution の 3 段で、異常の時間発展からフィンガープリント $f(X)$ を構成し family/type ラベルへ帰着。 - **Agentic Training Intervention(修復)**: Diagnosis-Grounded Reasoning → Goal-Directed Action Planning → Intervention Execution → Post-Intervention Revalidation の 4 段。診断に条件付けて訓練 configuration に最小の修正を施し、再訓練して severity 低下を再検証する。介入エージェントは qwen-plus で具現化。 [[RFT-FaultBench]] 上で検知 F1 87.96%(easy)/73.88%(hard)、type-level Macro-F1 85.51%(easy)/42.16%(hard)、全体 Mitigation Rate 46.25% を達成。ただし全体 Median Severity Change は -5.84% で、auto remediation は予備的(one-shot 介入が不安定で時に悪化)。 ## 関連 - 本ソース: [[@2026__arXiv__Towards Robust LLM Post-Training - Automatic Failure Management for Reinforcement Fine-Tuning]] - 評価ベンチマーク: [[RFT-FaultBench]] - 関連概念: [[強化ファインチューニング]] / [[異常検知]] / [[根本原因分析]] / [[障害緩和]] / [[AIOps]]