[GitHub - facebookincubator/dynolog: Dynolog is a telemetry daemon for performance monitoring and tracing. It exports metrics from different components in the system like the linux kernel, CPU, disks, Intel PT, GPUs etc. Dynolog also integrates with pytorch and can trigger traces for distributed training applications.](https://github.com/facebookincubator/dynolog)
> AIの可観測性の1つの大きな課題は、フリートの異質性に起因する。 AIワークロードの複雑さに伴って計算需要が増加するにつれて、Meta Training and Inference Accelerator(MTIA)、GPUなどのサードパーティーベンダーのASIC、推論アクセラレーター、ビデオエンコーダー/トランスコーダーなど、さまざまな特定用途向け集積回路(ASIC)が導入され、フリートの不均一性が高まります。 この課題に対処するため、Dynologコレクターモジュールは、AIアクセラレーター用のプラットフォーム不可知な観測システムであるLibAsicMonを通じて、メトリックの収集と設定を一般化します。 これにより、AIフリートの重要な効率メトリクスを表面化するスケーラブルな方法が提供され、個々のベンダー/ファームウェアAPIと相互作用する複雑さを公開することなく、個々のASICのカスタマイズが可能になります。 [[System@Scale - AI Observability]]