LoFI - yuuk1's Digital Garden

# LoFI **Log Fault-Indicating information (LoFI)** は、[[The Chinese University of Hong Kong]] の [[Michael R. Lyu]] グループ([[Junjie Huang]]・[[Zhihan Jiang]] ほか)、[[Sun Yat-sen University]] の [[Zhuangbin Chen]]、[[Huawei Cloud]] の共同チームが ISSRE 2024 で発表したログ解析フレームワーク。コード: https://github.com/Jun-jie-Huang/LoFI ## 設計思想と構成大規模オンラインサービスシステムの障害診断において、エンジニアが実際に参照する情報を実務調査から 2 カテゴリに整理した上で、それを自動抽出することを目的とする。 **入力**: 上流の異常検知器が出力した異常ログセッション **2 段階パイプライン**: 1. **ログ選択 (Log Selection)** - **レベル選択**: Log4j 重要度ランク(FATAL > ERROR > WARN > INFO > DEBUG > TRACE)で最高ランクのログを候補 Lsevere として取得 - **意味選択**: UniXcoder 埋め込みでその他ログ(Lmild)と Lsevere のコサイン類似度を計算し、上位 10% を Lsimilar として追加 - 生ログコンテンツを保持(ログパースによるパラメータ置換を行わない) 2. **プロンプトベース抽出 (Prompt-based Extraction)** - バックボーン: UniXcoder(NL+コード混合事前学習) - QA スキーマ: 自然言語の質問 + ログをシーケンスとして入力 - スパン予測: 開始・終了位置を予測し上位 3 スパンをマージ - 32 件という少数ラベルで効果的にファインチューニング可能 **出力**: - **FID (fault-indicating description)**: 障害症状を記述する文字列(4 サブタイプ: Error Message / Missing Component / Abnormal Behavior / Wrong Status) - **FIP (fault-indicating parameter)**: 調査すべきコンポーネント・位置を示すパラメータ(3 サブタイプ: Address / Component ID / Parameter Name) ## 性能 | データセット | FID F1 | FIP F1 | |---|---|---| | FIBench(Apache Spark 71 件) | 87.4% | 80.6% | | Industry(CloudA 88 件) | 72.2% | 62.8% | 最強ベースラインの ChatGPT-ICL を F1 で平均 81% 上回る。 ## 本番展開 [[Huawei Cloud]](CloudA)の数百マイクロサービスを持つインテリジェントログ解析システムに統合済み。主な利用シナリオ: - **迅速診断**: 異常ログセッションから FID・FIP をハイライトし、エンジニアが数百ログを読む手間を省く - **アラート設定**: FID・FIP を用いて、テンプレートベースのアラート名称より詳細なアラートコンテンツを自動生成 ## 関連 - ソース: [[@2024__ISSRE__LoFI - Demystifying and Extracting Fault-indicating Information from Logs for Failure Diagnosis]] - 著者: [[Junjie Huang]] / [[Zhihan Jiang]] / [[Jinyang Liu]] / [[Yintong Huo]] / [[Jiazhen Gu]] / [[Zhuangbin Chen]] / [[Cong Feng]] / [[Hui Dong]] / [[Zengyin Yang]] / [[Michael R. Lyu]] - 所属: [[The Chinese University of Hong Kong]] / [[Sun Yat-sen University]] / [[Huawei Cloud]] - データセット: [[FIBench]] - 概念: [[ログベース障害診断]] / [[ログ解析]] / [[AIOps]] / [[Fault Localization]]