## Memo
## Abstract
大規模なオンライン・サービス・システムのメンテナンスにおいて、ログは重要な役割を果たす。 オンラインサービスに障害が発生した場合、エンジニアは記録されたログを調査して障害に関する洞察を得たり、潜在的な問題を特定したりする必要がある。 従来、エンジニアは障害に関連する可能性のあるログの単純なキーワード検索(「エラー」や「例外」など)を行っていた。 このようなアプローチは、多くの場合、時間がかかり、エラーが発生しやすい。 マイクロソフトのサービス・プロダクト・チームとのコラボレーションを通じて、ログ・ベースの問題特定を容易にするために、ログをクラスタ化するアプローチであるLogClusterを提案する。 LogClusterはまた、知識ベースを利用して、ログシーケンスが以前に発生したかどうかをチェックします。 エンジニアは、問題を特定するために、クラスタから抽出された少数の以前に見たことのない代表的なログシーケンスを調べるだけでよいため、調べるべきログの数を大幅に減らし、その一方で特定精度を向上させることができる。 2つのHadoopベースのアプリケーションと2つの大規模なMicrosoftオンラインサービスシステムでの実験を通して、我々は、我々のアプローチが効果的であり、ICSE 2013でShangらによって提案された最先端の研究よりも優れていることを示す。 我々は、LogClusterを実際のMicrosoftオンライン・サービス・システムのメンテナンスに適用することに成功しました。 本稿では、その成功事例と教訓についても紹介します。