DSLクエリ推薦 - yuuk1's Digital Garden

# DSLクエリ推薦 ## 定義 DSLクエリ推薦(Domain-Specific Language Query Recommendation)は、インシデント管理・運用監視などの現場でエンジニアが必要とするドメイン固有言語クエリ(KQL・SQL・PromQL 等)を、過去の類似ケースと文脈情報から自動的に生成・提案する技術領域。オンコールエンジニア(OCE)の手作業によるクエリ記述コストを削減し、インシデント対応の迅速化を目的とする。 Xpert([[@2024__ICSE__Xpert - Empowering Incident Management with Query Recommendations via Large Language Models]])はこの領域の初の実証研究かつシステム実装であり、Microsoft の大規模クラウドで本番稼働した。KQL(Kusto Query Language)を対象とし、LLM の in-context learning と埋め込みベースの類似インシデント検索を組み合わせる。 ## KQL クエリの実証的特性 (Section 3 の知見) - **少数集中**: インシデントの 50% 以上が KQL クエリ 1 件のみで管理される。ディスカッションの 90% 以上が 1 クエリしか使わない - **比較的シンプル**: クエリの大半は token 数が少なく、構造的には単純 - **ロングテール分布**: テンプレートの利用頻度は極端な偏りを持つ。多数のテンプレートが稀にしか使われない - **時変性**: 月次でテンプレートの約 XX% が新規テンプレートとなる(ドリフトが顕著) - **サービス非移転性**: テーブルとテンプレートはサービス間でほとんど共有されないこれらの特性は、(1) 過去の例示少数件でも LLM が十分な文脈を得られ、(2) fine-tune モデルは時変性への追随に再訓練コストがかかる、という設計判断を裏付ける。 ## 横断的知見 - **LLM の ICL は fine-tune 小型モデルを少数例で上回る**: Xpert (GPT-4) は平均 7.41 例示のみで、約 200k 件の訓練データで fine-tune した CodeT5+(220M パラメータ)を Xcore・Identicality で超えた。パラメータチューニングなしでもドメイン固有クエリ生成が成立することを示す。ただし、これは単一タスク・単一システムの結果であり、一般化には追加検証が必要 (Source: [[@2024__ICSE__Xpert - Empowering Incident Management with Query Recommendations via Large Language Models]]) - **BLEU/METEOR は DSL クエリ品質を過大評価する**: 語彙的類似性が高い(BLEU 75、METEOR 87)にもかかわらず、演算子の逆転・型不整合・出力スキーマ不一致により実際には無効なクエリが存在する。コード向け評価指標の設計は自然言語 MT の枠組みをそのまま適用できない (Source: [[@2024__ICSE__Xpert - Empowering Incident Management with Query Recommendations via Large Language Models]]) - **オンライン更新がオフライン評価を上回る**: ベクターDB を新規インシデント到着ごとに更新するオンライン運用では Identicality が 14.19 → 18.12 に向上。週次 fine-tune のコストなしに時変性への追随を実現する (Source: [[@2024__ICSE__Xpert - Empowering Incident Management with Query Recommendations via Large Language Models]]) ## 未解決の問い - コンテキスト不足インシデント(TIMESTAMP・activityId 等が欠如)への対応策として何が有効か。プロアクティブなデータ収集フローや別途の情報補完エージェントが必要か - Xcore の重み(α=β=γ=1/3)は均等で良いのか。運用シナリオによって有効性(V)や出力スキーマ一致(O)を重視すべき場面があるか - KQL 以外の DSL(SQL・PromQL 等)への転用実験はあるか。特に PromQL のような時系列クエリ言語での Xcore 等価指標の設計は異なるか - 本番デプロイでの OCE 受容率(実際に推薦クエリをそのまま使った割合)はどの程度か。Identicality と現場での体感品質は対応しているか - サービス間でテーブル/テンプレートが共有される場合のクロスサービス検索の有用性は検証されているか ## 関連 - [[インシデント管理]]: DSL クエリ推薦はインシデント管理プロセスの調査フェーズを支援する - [[AIOps]]: クエリ自動生成は AIOps の自動化レベルに相当 - [[RAGベースクラウド運用支援]]: Xpert の類似インシデント検索は RAG パターンの適用例 - [[LLMによる根本原因分析]]: RCA ではなくクエリ生成に LLM を使う点が区別される ## 出典 - [[@2024__ICSE__Xpert - Empowering Incident Management with Query Recommendations via Large Language Models]]