[Scaling ChatGPT: Five Real-World Engineering Challenges](https://newsletter.pragmaticengineer.com/p/scaling-chatgpt) ・LLMOpsでボトルネックとなるのは計算資源ではなく、GPU RAMである。CPU使用率はさほど重要ではない。 ・キャッシュミス率を下げることが大事。ミスが起きると再計算量が半端じゃない。 ・バッチサイズが大事で、これを最適化するとGPUの理論値に近づけられる(が、難しい) ・実際には、ボトルネックは頻繁に変わる。問い合わせと文章生成では、性能特性が異なる。 ・GPUの調達が大変だった。結果として、手に入るところならどこからでも調達した。 ・エンドユーザーとGPUが近い(レイテンシー)が小さいことは大して重要ではない。重要なのはGPUが空いているかどうか ・関連して、そもそもGPUを柔軟に確保できないのでオートスケールも難しい ・CPU利用率が80%に達したら・・・みたいな一般的なスケーリングに対する考え方は適用できなかった ・処理の中身、一般的にはブラックボックスとされる中身の理解が大事。中身の理解によって最適化につながる。 > https://twitter.com/iwashi86/status/1760092469046411746