LogInsight - yuuk1's Digital Garden

# LogInsight [[Nankai University]]・[[Tsinghua University]]・[[China Mobile Research|CMCC]]・[[ZTE Corporation]] の共同研究チームが提案した、LLM を用いた正確かつ解釈可能なログベース障害診断(log-based fault diagnosis)フレームワーク。 ## 概要障害発生時に収集される大量のログから障害種別を特定し、かつ**分類根拠の自然言語説明**を生成することを目標とする。既存の機械学習・深層学習ベースの障害診断手法が「解釈可能な説明を提供できない」という共通課題を解決するために設計された。(Source: [[@2025__nkcs.iops.ai__Accurate and Interpretable Log-Based Fault Diagnosis using Large Language Models]] §I) ## 主要コンポーネント 1. **ログ前処理**: 正規表現でログをコンテンツシーケンスに変換（ログパース不要） 2. **FOLS（Fault-Oriented Log Summary）**: DBSCAN クラスタリング（ジャッカード距離）による冗長排除 + TF-IDF スコアリングによる重要ログ抽出。LLM のコンテキスト長制約を克服するための中核モジュール 3. **知識注入**: GPT-4 生成 + 専門家検証の LFDInstruction データセットによるドメイン知識の注入 4. **LoRA ファインチューニング**: Mistral-7B を LoRA（rank=8、alpha=32）でパラメータ効率的にファインチューニング ## 評価結果 2 公開データセット（天池サーバログ・OpenStack）と 1 本番データセット（CMCC 4G/5G ネットワークスイッチログ）で評価: - Dataset 1 Weighted F1: 0.883（ベスト比 +36.9%） - Dataset 2 Weighted F1: 0.997（ベスト比 +12.8%） - Dataset 3 Weighted F1: 0.997（ベスト比 +7.3%） - GPT-4 直接適用を全データセットで上回る - オンライン推論時間: 平均 2.7〜8.5 秒 / ケース ## 開発者 [[Yongqian Sun]]・[[Shiyu Ma]]（南開大）、[[Tong Xiao]]（清華大）、[[Yongxin Zhao]]（南開大）、Xuhui Cai・Wei Dong・Yue Shen・Yao Zhao（CMCC）、[[Shenglin Zhang]]（南開大）、Jing Han（[[ZTE Corporation]]）、[[Dan Pei]]（清華大） ## 関連 - ソース: [[@2025__nkcs.iops.ai__Accurate and Interpretable Log-Based Fault Diagnosis using Large Language Models]] - 比較対象: [[LogKG]] / LogCluster / Cloud19 / GPT-4（直接適用） - 概念: [[ログベース障害診断]] / [[ログ解析]] / [[LLMによる根本原因分析]] - 開発機関: [[Nankai University]] / [[Tsinghua University]] / [[China Mobile Research]] / [[ZTE Corporation]]