OpsQA - yuuk1's Digital Garden

# OpsQA Navigation: [[AIOps]] | [[RAGベースクラウド運用支援]] ## 定義 OpsQA(Operational Question Answering、運用質問応答)は、クラウド運用エンジニアが日常の運用タスクで生じる疑問を自然言語で入力し、製品ドキュメント・インシデントチケット・障害ライブラリ等の内部ドキュメントから関連情報を検索して回答を得る質問応答タスクである。一般的なソフトウェアエンジニアリング向け QA(Stack Overflow 等)とは異なり、観察可能なシステム異常の診断・対処が中心となる点が特徴的である。(Source: [[@2025__ASE__iKnow - an Intent-Guided Chatbot for Cloud Operations with Retrieval-Augmented Generation]]) ## OpsQA の意図タクソノミー iKnow の経験的研究により、CloudA における実世界クエリ 2,000 件を分析した結果、以下 5 種の意図タクソノミーが確立された(アノテーター間一致度 Krippendorff の alpha = 0.84)。 | 意図 | 割合(平均) | 特徴 | |---|---|---| | 症状分析(Symptom Analysis) | 40.6% | 観察可能・曖昧なシステム挙動の記述 | | 多面的要約(Multi-facet Summary) | 約 18% | 運用概念・問題の包括的概要の要求 | | 用語説明(Terminology Explanation) | 約 15% | 技術用語・略語の定義の問い合わせ | | 事実確認(Fact Verification) | 約 10% | yes/no 形式の特定事実確認 | | 操作ガイダンス(Operational Guidance) | 約 17% | ステップバイステップの手順要求 | 3 つの異なる運用チーム(外部運用・内部運用・オンコール)にわたって同一の 5 種類が出現し、タクソノミーの汎化可能性が示された。(Source: [[@2025__ASE__iKnow - an Intent-Guided Chatbot for Cloud Operations with Retrieval-Augmented Generation]]) ## RAG ベースチャットボットの障害分類 2,000 件の実クエリを経験的に分析した結果、683 件(34.2%)が誤回答となり、その根本原因は以下に分類された。 **クエリ側(51%)**: - 不完全クエリ(32%): コンテキスト・意図を欠く曖昧な入力 - 対象外クエリ(10%): システムの担当範囲外の質問 - 無効クエリ(9%): 無意味なテキスト・重大な誤字 **検索側(11%)**: - 不正確な検索: 関連ドキュメントが上位に返らない **生成側(11%)**: - 不正確な生成: 正しいコンテキストを受け取っても誤った出力 **知識側(27%)**: - 知識欠如: ドキュメントコーパスに必要情報が存在しない (Source: [[@2025__ASE__iKnow - an Intent-Guided Chatbot for Cloud Operations with Retrieval-Augmented Generation]]) ## 横断的知見 - **OpsQA と一般 SE-QA の最大の違いは「症状記述」の優勢**: 一般プログラマ質問(Stack Overflow・GitHub)では API 利用・概念理解・差異・レビューが中心だが、OpsQA では観察した異常挙動の記述(症状分析 40.6%)が最頻であり、診断と対処への志向が強い。これはクラウド運用エンジニアが前例のない複雑な障害にリアルタイムで直面する文脈を反映している。(Source: [[@2025__ASE__iKnow - an Intent-Guided Chatbot for Cloud Operations with Retrieval-Augmented Generation]]) - **クエリ品質が RAG 性能の最大の規定因**: iKnow の経験的研究で障害の 51% がクエリ側起因と判明した。これは RAG パイプラインの検索・生成段のモデル改善より、入力クエリの品質向上(意図検出・クエリ書き換え)が先決であることを示唆する。 ## 未解決の問い - OpsQA 意図タクソノミーは CloudA の内部ドキュメントで確立されたが、公開クラウドプラットフォーム(Azure・AWS)や他ベンダーに適用した場合も同一の 5 種で説明できるか。 - 「症状分析」意図に対して、静的ドキュメントだけでなくリアルタイムのログ・トレース・メトリクスを統合することで精度はどれだけ向上するか(GraphRAG 等との組み合わせ)。 - 意図検出のエラー(iKnow 残存エラーの 23.0%)が誤った書き換えに連鎖する問題は、より少ない訓練データで解消できるか。 - 欠落知識検知で「知識が存在しない」と判定した場合の縮退応答の品質をどう評価するか。ユーザーは縮退応答をどのように活用するか。 - 多言語対応(英語以外の OpsQA)での意図分類と書き換えの有効性は? ## 関連 - 親概念: [[RAGベースクラウド運用支援]] / [[AIOps]] - 実装システム: [[iKnow]] - 関連概念: [[根本原因分析]] / [[クラウドインシデント]] ## 出典 - [[@2025__ASE__iKnow - an Intent-Guided Chatbot for Cloud Operations with Retrieval-Augmented Generation]]