[LINE DEVELOPER DAY 2021](https://linedevday.linecorp.com/2021/ja/sessions/160) > 私たちのチームでは、全社的に利用されるマルチテナント[[Apache Kafka]]プラットフォームの開発・運用を行なっています。もっとも大きなKafkaクラスターが受けるトラフィックは秒間1500万メッセージ・7.5GBにのぼり、単一クラスターとしては世界でも有数の規模となっています。 先日、このクラスターを利用する一部のサービスで突如リクエストが著しく遅延し、メッセージの送信に支障を来たす現象が発生しました。影響がクリティカルである反面、Kafka brokerのメトリクスやログに何の異常も見られない・再現性が無い・クライアントやbrokerの再起動で解消してしまうといった特徴があり調査はきわめて難航しました。 最終的には、tcpdumpやss、bccといった様々なツールの活用とLinuxカーネルのコードリーディングの結果、Linuxの[[TCP]]スタックに原因があることを突き止めました。本セッションでは、この事象の概要と顛末について詳しく紹介します。 [Investigating Request Delay in a Large-Scale Kafka Cluster Caused by TCP - Speaker Deck](https://speakerdeck.com/line_devday2021/investigating-request-delay-in-a-large-scale-kafka-cluster-caused-by-tcp)