## Memo ## Abstract ITサービス開発者や運用者が複雑化するサービス・ランドスケープの管理を支援するため、運用に人工知能を活用する取り組みが活発化している。トラブルシューティングを迅速化するために、システム障害の原因を示すログイベントを特定するログの異常検出が特に注目されている。しかし、障害はシステム内で広範囲に伝播することが多く、その結果、既存のアプローチでは多数の異常が検出される可能性がある。この場合、ユーザが障害の実際の根本原因を迅速に特定することは、依然として非常に困難である。我々はLogRCAを提案する。LogRCAは、根本原因を記述する最小限のログ行を特定するための新しい手法である。LogRCAは、稀で未知のエラーを扱うために半教師付き学習アプローチを使用し、ノイズの多いデータを扱うように設計されている。我々は、専門家によって根本原因がラベル付けされた80の障害を含む、4430万のログ行からなる大規模な本番ログデータセットで我々のアプローチを評価した。LogRCAは、根本原因の候補を検出する精度と想起において、ディープラーニングと統計解析に基づくベースラインを常に上回った。さらに、導入したデータバランシングアプローチの影響を調査し、まれな障害に対するパフォーマンスが大幅に向上することを実証しました。