2023__Dissertation__Mining Software Logs with Machine Learning Techniques

## Memo ## Abstract 今日、ソフトウェアはかつてないほど幅広い分野で使用されている。ソフトウェアのテストは、検証・妥当性確認プロセスで利用される技術のひとつである。研究者やビジネス部門は、過去数十年にわたりソフトウェアテストの自動化を試みてきた。ここ数十年、ソフトウェアログは、多くのソフトウェアシステムの信頼性保証メカニズムにとって不可欠なものとなっている。ログは、さまざまな診断目的に活用できる貴重な情報源である。テスト手順を通じて、テスト担当者はログから重要な情報を抽出することができる。回帰テストは、ソフトウェア開発の各反復後に実行する必要があり、時間とリソースの点でコストがかかる。さらに、最新のソフトウェアのアプリケーションが成長するにつれて、ログの量は急速に増加しています。ログ分析に関連するコストを軽減し、ソフトウェアテスト担当者の作業負荷を軽減するために、回帰テストプロセスを自動化する必要があります。ログマイニングは、統計、データマイニング、および機械学習技術を使用して、意味のあるパターンを発見し、傾向を明らかにするために、大量のログデータを自動的に調査し、分析します。自動ログマイニングのための高度な実装戦略は、高い需要があります。自動ソフトウェアテストに関連するログマイニングタスクは、本論文の貢献の1つである。異常検知、故障予測、根本原因検知など、信頼性工学のための主要なログマイニングタスクを紹介する。この研究は、多くのケーススタディと実験を通して完成され、最終的には、ログマイニングの自動化を支援するために連携する一連のツールの開発につながる。本論文で示される結果は、機械学習を用いたログマイニングを採用することで、ソフトウェアテストがどのように強化されるかを実証している。本論文では、根本原因の検出、オンライン障害予測、ログの最小化、ユーザー行動のクラスタリングを含む、4つの重要なログマイニング問題を紹介する。ソフトウェアシステムのログ分析に基づき、ログマイニングタスクを自動化するための新しい学習ベースの技術を提案する。この作業における努力の一部は、人間との対話を減らし、人間の直接の観察からは隠された特徴を抽出するために、教師なしログマイニングメソッドを開発することに焦点を当てている。この目的のために、ログのセマンティクスを抽出し、イベント間の関係を学習することができる学習技術（例えば、[[NLP]]）を採用しようとしました。これは、他のイベントとの概念的な関係に基づいて出力イベントをクラスタリングし、異常な動作を検出し、オンラインソフトウェアでそれらを予測し、最終的に入力イベントの中からその根本原因を見つけることができる、一般的な教師なしログマイニング手法へと発展した。本論文の成果は、システム管理者が差し迫った障害の可能性を予測したり、ソフトウェア開発者が入出力ログ記録からバグとその根本原因を検出したりするのに役立つ。本論文を通して、「実世界」での応用が議論され、我々の研究は、自動ログマイニングの将来の研究と展開の基礎となり、また、この分野での重要な勧告を提供できると信じている。