[GPU Profiling with BPF at Meta - Riham Selim - YouTube](https://www.youtube.com/watch?v=5xAghByteYc) Metaはどのように[[GPU]]プロファイリングのための低オーバーヘッドGPU[[Observability|オブザーバビリティ]]ツールセットを構築し、使用しているか。 トピック: - [[eBPF]]ベースのCPU連続フリートワイドプロファイリングソリューション(Strobelightとしても知られている)の紹介 - トレーニングと推論ワークロードのための連続的なフリートワイドGPU観測可能性の欠如によるMetaのビジネス上の問題。 OOMを例にGPUメモリがどのように割り当てられるか - 現在のプロファイリング手法の課題 - BPFを使用して割り当てを追跡し、メモリリークを検出する方法 - データの分析と可視化 - [[PyTorch]]のメモリプロファイリングサポートへの拡張 - メモリリークのユースケース - BPFプロファイリングの課題と限界。