## Memo ## Memo with LLM ## Abstract ログ記録(ソースコードにログステートメントを挿入する実践)は、ソフトウェアの信頼性を向上させるために不可欠です。最近、入力コードに基づいてログステートメントの生成を自動化する言語モデルベースの手法が開発されました。これらのツールは過去の研究で有望な結果を示していますが、アドホックなデータセットの使用により、結果の比較の公平性が保証されていません。さらに、既存の評価アプローチはコード類似性メトリクスに依存しているため、コードの差分が実行時ログ出力行動に与える影響を捕捉できません。これは、 minor なコード変更がプログラムのコンパイル不能を引き起こし、ログ出力の語義に重大な相違を生じさせる可能性があるためです。ログ評価の一貫性と再現性を向上させるため、私たちは自動ログツール向けに特化した包括的なベンチマークであるAL-Benchを導入します。AL-Benchは、多様なロギング要件を持つ10の広く認知されたプロジェクトから収集された大規模で高品質なデータセットを含んでいます。さらに、伝統的なソースコードレベルでの静的評価に加え、実行時視点からのロギング品質を評価する新たな動的評価手法を導入しています。具体的には、AL-Benchはソースコード内のオラクルと予測されたログ文の類似性を評価するだけでなく、実行時に両方のログ文によって出力されたログファイルの差異も評価します。AL-Benchは既存の静的評価の重大な限界を明らかにし、すべてのログツールが平均的な精度しか示さないことを示しています。