[GPU Profiling with BPF at Meta - Riham Selim - YouTube](https://www.youtube.com/watch?v=5xAghByteYc)
Metaはどのように[[GPU]]プロファイリングのための低オーバーヘッドGPU[[Observability|オブザーバビリティ]]ツールセットを構築し、使用しているか。
トピック:
- [[eBPF]]ベースのCPU連続フリートワイドプロファイリングソリューション(Strobelightとしても知られている)の紹介
- トレーニングと推論ワークロードのための連続的なフリートワイドGPU観測可能性の欠如によるMetaのビジネス上の問題。 OOMを例にGPUメモリがどのように割り当てられるか
- 現在のプロファイリング手法の課題
- BPFを使用して割り当てを追跡し、メモリリークを検出する方法
- データの分析と可視化
- [[PyTorch]]のメモリプロファイリングサポートへの拡張
- メモリリークのユースケース
- BPFプロファイリングの課題と限界。