タイトル:Linux eBPFトレーシングのためのツール実装に必要な知識の体系化とその動機 さくらインターネット研究所の坪内([@yuuk1t](https://twitter.com/yuuk1t))です。 昨年末に、個人ブログで公開したLinux eBPFトレーシング技術を体系化して整理した記事を、研究成果の一環として紹介します。 <https://blog.yuuk.io/entry/2021/ebpf-tracing> Linuxカーネルの拡張技術であるeBPF(extended Berkley Packet Filter)の普及により、ユーザー定義のコードにより、カーネル内部の関数呼び出しなどのイベントを追跡し計測しやすくなりました。この記事では、eBPFとはなにか、トレーシングにおけるeBPFの位置付け、eBPFトレーシングの技術要素(アーキテクチャ、イベントソース、BCC、bpftrace、CO-RE)、1992年の起源から2021年に至るまでの歴史、eBPFトレーシングツールをプログラミングする方法をまとめました。 この記事を書くきっかけは、論文誌Journal of Information Processing(JIP)に採録された我々の次の論文(執筆時点で未出版)のアイデアを実装するために、Linuxカーネルの機能を拡張する必要に迫られたことでした。 Yuuki Tsubouchi, Masayoshi Furukawa, Ryosuke Matsumoto, Low Overhead TCP/UDP Socket-based Tracing for Discovering Network Services Dependencies, Journal of Information Processing, Vol. 30, 2022. 昨今では、カーネルの拡張のためにeBPFを用いることがデファクトとなってきていますが、自分自身ではeBPFを用いたコードを書いたことはありませんでした。したがって、eBPFをイチから学ぶ必要がありましたが、自分の目的に対して、どのような道筋で学べばよいのか自明ではありませんでした。そのため、複数の書籍、ブログポスト、コードの切れ端などを寄せ集めて、目的を徐々に達成していくことになりました。そこで、今後同じような苦労に遭遇するかもしれない人々に向けて、その苦労を避けるために、今回道筋を記事にまとめました。 情報科学では一般に、新規性のある問題発見とその解決法を提案・評価することが代表的な研究成果として認知されています。その過程で、提案の主たる貢献にはあたらないが、成果を実装するために使用した要素技術(eBPFなど)に精通することがあります。新規性のある領域では、使用する要素技術は、確立はしていても比較的新しいか、もしくは古典的ではあっても研究領域でまだ馴染みが薄いことがあります。そのため、新技術を提案するだけでなく、既存の要素技術を体系的に整理することも、社会への貢献として重要なことであると考えます。そもそも、学術研究における 「学術」とは「学ぶ術(すべ)」を構築することを指す言葉でもあります。 以前にソフトウェアエンジニア職に就いていたときは、開発・運用の現場では、断片的な知識やテクニックが民間伝承のように語られていました。このような断片的で学びにくい状態から脱するために、現場の未整理の知識を体系化して、例えば以下のブログ記事に、まとめてきました。 - <https://blog.yuuk.io/entry/2015-webserver-architecture> - <https://blog.yuuk.io/entry/architecture-of-database-connection> - <https://blog.yuuk.io/entry/linux-networkstack-tuning-rfs> - <https://blog.yuuk.io/entry/redis-cpu-load> - <https://blog.yuuk.io/entry/2019/rethinking-serverless-architecture> 今では開発・運用の現場からは離れることになり、プロダクション環境の生々しい経験をすることはなくなりました。しかし、その一方で、研究と開発・運用の狭間にもまだまだ未整理の事柄は大量に存在するため、そのような事柄の体系化を続けていきたいと考えています。