性能可搬性 - yuuk1's Digital Garden

# 性能可搬性 ## 定義性能可搬性は、あるアプリケーションまたはワークロードが複数のプラットフォーム上でどれだけ高い効率を保てるかを表す概念である。[[@2025__PMBS__Pretraining LLMs at Scale - Tuning Strategies and Performance Portability]] は HPC の性能可搬性メトリクスを LLM 訓練へ適用し、モデル `m`、データセット `d`、プラットフォーム集合 `H` に対する `Φ(m,d,H)` を、各プラットフォームの建築的計算効率の調和平均として扱う。ここで効率は訓練全体で達成した FLOPS を各 GPU の理論ピーク FP16 FLOPS で割って近似する。 ## 横断的知見 - 現時点では単一ソースに基づく定義段階であり、複数ソースを横断した知見は未整理である。 ## 未解決の問い - LLM 訓練の性能可搬性は、FLOPS ベースの計算効率だけでなく、通信レイテンシ、通信/計算オーバーラップ、メモリ帯域、ジョブスケジューリングの待ちを含む複合指標として再定義すべきか。[[@2025__PMBS__Pretraining LLMs at Scale - Tuning Strategies and Performance Portability]] は通信効率も併記するが、最終的な `Φ` は計算効率に基づく。 - 性能可搬性を高めるための介入は、NCCL/DeepSpeed のパラメータ探索、並列化戦略の変更、ネットワークトポロジー設計、フレームワーク実装の変更のどの層が最も費用対効果を持つか。 ## 関連 - ソース: [[@2025__PMBS__Pretraining LLMs at Scale - Tuning Strategies and Performance Portability]] - 概念: [[LLM分散学習]] / [[並列化戦略]] - エンティティ: [[DeepSpeed]] / [[NCCL]] / [[Qualcomm]] - 関連 MOC: [[HPC - MOC]] / [[分散深層学習 - MOC]] ## 出典 - [[@2025__PMBS__Pretraining LLMs at Scale - Tuning Strategies and Performance Portability]](§4 Measuring Performance Portability, §8.1 Performance-Portability Study)