# 性能可搬性
## 定義
性能可搬性は、あるアプリケーションまたはワークロードが複数のプラットフォーム上でどれだけ高い効率を保てるかを表す概念である。[[@2025__PMBS__Pretraining LLMs at Scale - Tuning Strategies and Performance Portability]] は HPC の性能可搬性メトリクスを LLM 訓練へ適用し、モデル `m`、データセット `d`、プラットフォーム集合 `H` に対する `Φ(m,d,H)` を、各プラットフォームの建築的計算効率の調和平均として扱う。ここで効率は訓練全体で達成した FLOPS を各 GPU の理論ピーク FP16 FLOPS で割って近似する。
## 横断的知見
- 現時点では単一ソースに基づく定義段階であり、複数ソースを横断した知見は未整理である。
## 未解決の問い
- LLM 訓練の性能可搬性は、FLOPS ベースの計算効率だけでなく、通信レイテンシ、通信/計算オーバーラップ、メモリ帯域、ジョブスケジューリングの待ちを含む複合指標として再定義すべきか。[[@2025__PMBS__Pretraining LLMs at Scale - Tuning Strategies and Performance Portability]] は通信効率も併記するが、最終的な `Φ` は計算効率に基づく。
- 性能可搬性を高めるための介入は、NCCL/DeepSpeed のパラメータ探索、並列化戦略の変更、ネットワークトポロジー設計、フレームワーク実装の変更のどの層が最も費用対効果を持つか。
## 関連
- ソース: [[@2025__PMBS__Pretraining LLMs at Scale - Tuning Strategies and Performance Portability]]
- 概念: [[LLM分散学習]] / [[並列化戦略]]
- エンティティ: [[DeepSpeed]] / [[NCCL]] / [[Qualcomm]]
- 関連 MOC: [[HPC - MOC]] / [[分散深層学習 - MOC]]
## 出典
- [[@2025__PMBS__Pretraining LLMs at Scale - Tuning Strategies and Performance Portability]](§4 Measuring Performance Portability, §8.1 Performance-Portability Study)