Scaling ChatGPT - Five Real-World Engineering Challenges

[Scaling ChatGPT: Five Real-World Engineering Challenges](https://newsletter.pragmaticengineer.com/p/scaling-chatgpt) ・LLMOpsでボトルネックとなるのは計算資源ではなく、GPU RAMである。CPU使用率はさほど重要ではない。・キャッシュミス率を下げることが大事。ミスが起きると再計算量が半端じゃない。・バッチサイズが大事で、これを最適化するとGPUの理論値に近づけられる（が、難しい）・実際には、ボトルネックは頻繁に変わる。問い合わせと文章生成では、性能特性が異なる。・GPUの調達が大変だった。結果として、手に入るところならどこからでも調達した。・エンドユーザーとGPUが近い（レイテンシー）が小さいことは大して重要ではない。重要なのはGPUが空いているかどうか・関連して、そもそもGPUを柔軟に確保できないのでオートスケールも難しい・CPU利用率が80%に達したら・・・みたいな一般的なスケーリングに対する考え方は適用できなかった・処理の中身、一般的にはブラックボックスとされる中身の理解が大事。中身の理解によって最適化につながる。 > https://twitter.com/iwashi86/status/1760092469046411746