## Memo
- データの前処理として、ログの出現分布がロングテールであること。
> Second, the distribution of log appearances is long-tailed; some events, like daily processes, appear much more fre- quently than others, like error logs. This difference in fre- quency greatly affects the PC algorithm. Indeed, the PC algorithm detects more edges from frequent events while hiding important relations of minor events. To avoid this, we remove events that appear frequently but are less important in troubleshooting.
## Memo with LLM
## Abstract
ネットワークログメッセージ(例:syslog)は、大規模ネットワークにおける予期せぬ動作や異常な動作を検知するための貴重かつ有用な情報として期待されている。しかし、日々の運用で収集される膨大なシステムログデータのため、ピンポイントでシステム障害を抽出したり、その原因を特定したりすることは容易ではない。本稿では、ネットワークsyslogデータからピンポイント障害を抽出し、その原因を特定する手法を提案する。本論文で提案する手法は、時系列イベントの集合からネットワークイベントの因果関係を再構築する因果推論に依存する。因果推論は偶発的に相関する事象をフィルタリングすることができるため、従来の相互相関に基づくアプローチよりも、より確からしい因果事象を出力することができる。我々は、日本の全国的な学術ネットワークから得られた15ヶ月分のネットワークsyslogデータに本手法を適用した。提案手法は、従来の手法と比較して擬似相関イベントの数を大幅に削減する。また、3つのケーススタディとトラブルチケットデータとの比較を通して、提案手法が実用的なネットワーク運用に有効であることを示す。