## Memo - ICSE'25に採録された [[2025__ICSE__Large Language Models as Configuration Validators]] ## Abstract 設定ミスはソフトウェア障害の主な原因である。既存のコンフィギュレーション検証技術は、手作業で記述されたルールやテストケースに依存しており、実装や維持にコストがかかり、包括的であることが難しい。機械学習(ML)や自然言語処理(NLP)をコンフィギュレーション検証のために活用することは、有望な方向性と考えられているが、大規模なコンフィギュレーションデータだけでなく、システム固有の特徴や一般化しにくいモデルが必要であるなどの課題に直面している。最近の大規模言語モデル(Large Language Models: [[LLM]])の進歩は、ML/NLPベースのコンフィギュレーション検証手法の長年の限界のいくつかを解決する可能性を示している。本稿では、GPTや[[OpenAI Codex|Codex]]のようなLLMを構成検証に使用することの実現可能性と有効性に関する探索的分析を行う。具体的には、[[ファインチューニング]]やコード生成を追加することなく、LLMを構成検証ツールとして実証的に評価するための第一歩を踏み出す。Ciriと名付けられた汎用的なLLMベースの検証フレームワークを開発し、さまざまなLLMを統合する。Ciriは、有効なコンフィギュレーションデータと誤ったコンフィギュレーションデータの両方に基づいて、[[Few Shot Learning|Few Shot学習]]による効果的なプロンプトエンジニアリングを考案します。Ciriはまた、LLMの既知の幻覚や非決定性に対処しながら、検証結果を生成するためにLLMの出力を検証し、集約する。我々は、6つの成熟した、広くデプロイされたオープンソースシステムの設定データを使用して、5つの一般的なLLMに対するCiriの検証効果を評価した。(2)CiriのようなLLMベースのバリデーターのデザインスペース、特に少数ショット学習によるプロンプトエンジニアリングについて理解し、(3)特定のタイプの設定ミスの検出が有効でないことや、一般的な設定パラメーターに対するバイアスなど、未解決の課題を明らかにする。