## Memo ## Abstract 効果的なインシデント管理は、企業レベルのクラウド・サービスを円滑に運用するために極めて重要です。インシデントの緩和を迅速に行うため、サービスチームはトラブルシューティングに関する知識を、オンコール・エンジニア(OCE)がアクセス可能なトラブルシューティング・ガイド(TSG)にまとめている。自動化されたパイプラインは、最も頻繁で簡単なインシデントを解決するために有効ですが、OCEの介入を必要とする複雑なインシデントも依然として存在します。しかし、TSGは構造化されておらず、不完全であることが多いため、OCEによる手作業での解釈が必要となり、特に新入社員のOCEにとっては、オンコールの疲労と生産性の低下につながる。本研究では、TSGとインシデントの緩和履歴を活用して、人間の介入を減らし、プロアクティブな提案を提供するNissistを提案する。大規模言語モデル([[LLM]])を活用し、Nissistは構造化されていないTSGと過去のインシデント緩和の議論から洞察を抽出し、包括的な知識ベースを形成する。そのマルチエージェントシステム設計は、ユーザのクエリを正確に識別し、関連情報を検索し、体系的な計画を連続的に提供する熟練度を高める。我々のユーザーケースと実験を通して、Nissistがインシデント緩和のTTM(Time to Mitigate)を大幅に短縮し、OCEの運用負担を軽減し、サービスの信頼性を向上させることを実証します。当社のデモは、こちらのhttps URLでご覧いただけます。