## Memo
- Micrisoftの研究グループによる、国際会議ICSE-SEIP'23の論文。
- [[Unlocking LLM Performance with EBPF - Optimizing Training and Inference Pipelines - KubeCon24 Chaina]]で引用されていた論文。
![[Pasted image 20241009234739.png|600]]
![[Pasted image 20241009234813.png|600]]
![[Pasted image 20241009234828.png|600]]
![[Pasted image 20241009234846.png|600]]
## Memo with LLM
## Abstract
近年、ディープラーニング(DL)は多くの応用分野でますます採用されるようになってきている。ディープラーニングの開発者がモデルのトレーニングやテストをより適切に行えるよう、企業は[[GPU]]などの大量のコンピューティングデバイスを搭載した専用マルチテナントプラットフォームを構築している。これらのプラットフォームのサービス品質は、システムの効率性とユーザーエクスペリエンスにおいて重要な役割を果たしている。しかし、コンピューティングリソースを大幅に浪費するだけでなく、開発の生産性を著しく低下させるさまざまな品質問題が実際に存在している。本稿では、Microsoft 社内のディープラーニングプラットフォームである Platform-X の品質問題に関する包括的な実証研究について紹介する。Platform-X は、数百人の開発者や研究者に利用されている社内向けディープラーニングプラットフォームである。私たちは、360件の実問題を手作業で調査し、それらの共通の症状、根本原因、緩和策を調査した。主な調査結果は以下の通りである。(1)品質問題の28.33%はハードウェア(GPU、ネットワーク、およびコンピューティングノード)の不具合が原因である。(2)そのうち28.33%はシステム側の不具合(システムの欠陥やサービス停止など)が原因である。(3)ユーザー側の不具合( 、ユーザー側のバグやポリシー違反など)が、共通原因の5分の2以上(43.34%)を占めている。(4)品質問題の5分の3以上は、ジョブの再送信(34.72%)とユーザーコードの改善(24.72%)によって緩和できる。本研究の結果は、ディープラーニングプラットフォームのサービス品質を向上させる上で、開発と保守の両面から貴重な指針となる。また、この結果は、今後の研究の方向性やツールのサポートをさらに推進するものである。