[Scaling ChatGPT: Five Real-World Engineering Challenges](https://newsletter.pragmaticengineer.com/p/scaling-chatgpt)
・LLMOpsでボトルネックとなるのは計算資源ではなく、GPU RAMである。CPU使用率はさほど重要ではない。
・キャッシュミス率を下げることが大事。ミスが起きると再計算量が半端じゃない。
・バッチサイズが大事で、これを最適化するとGPUの理論値に近づけられる(が、難しい)
・実際には、ボトルネックは頻繁に変わる。問い合わせと文章生成では、性能特性が異なる。
・GPUの調達が大変だった。結果として、手に入るところならどこからでも調達した。
・エンドユーザーとGPUが近い(レイテンシー)が小さいことは大して重要ではない。重要なのはGPUが空いているかどうか
・関連して、そもそもGPUを柔軟に確保できないのでオートスケールも難しい
・CPU利用率が80%に達したら・・・みたいな一般的なスケーリングに対する考え方は適用できなかった
・処理の中身、一般的にはブラックボックスとされる中身の理解が大事。中身の理解によって最適化につながる。
> https://twitter.com/iwashi86/status/1760092469046411746