2025__ICSE__Large Language Models as Configuration Validators

## Memo ## Memo with LLM ## Abstract ソフトウェアの障害の主な原因は設定ミスである。既存の手法では、開発者が作成したルールやテストケースに基づいて設定値を検証しており、コストがかかる。設定検証のための機械学習（ML）は有望な方向性と考えられているが、大規模なフィールドデータやシステム固有のモデルが必要であるなどの課題に直面している。最近の大型言語モデル（[[LLM]]）の進歩は、MLベースの設定検証の長年の限界のいくつかを解決する可能性を示している。LLMを構成検証に利用することの実現可能性と有効性について、初めての分析結果を提示する。LLMを構成検証ツールとして実証的に評価するために、汎用的なLLMベースの構成検証フレームワークであるCiriを開発した。Ciriは、有効な構成データと誤った構成データの両方に基づく、少数のショット学習による効果的なプロンプトエンジニアリングを採用している。Ciriは、LLMが出力する結果を生成する際に、LLMの幻覚と非決定性を解決する。私たちは、広く展開されている10のオープンソースシステムの構成データを使用して、8つの一般的なLLMにおけるCiriの検証効果を評価した。私たちの分析（1）は、構成検証におけるLLMの使用の可能性を確認し、（2）はCiriのようなLLMベースの検証ツールの設計空間を探り、（3）は特定のタイプの誤構成の検出における非効率性や、一般的な構成パラメータへの偏りといった未解決の課題を明らかにした。