[[gpt-ossモデルのサービングにおけるリクエスト処理性能評価 ― NVIDIA H100・A100・L4の比較 - ペパボ研究所ブログ]]をみて、負荷生成のシナリオをどのように決定するかに疑問をもった。
> 負荷試験には、オープンソースの負荷試験ツール[[Locust]]を使用しました。 各条件の組み合わせごとに120秒間の試験を行い、Locustの出力値の`Requests/s`と`Median Response Time`を採用しました。
> プロンプトについては、自社の想定ユースケースに近い内容をもとに、約2,000、4,000、8,000トークン程度となるよう調整しました。 これらはテンプレートから動的に生成し、それぞれ5,000パターンを用意しています。実験時には、この中からランダムに選択しました。
[[2025__KDD__BurstGPT - A Real-World Workload Dataset to Optimize LLM Serving Systems]]のデータセットとワークロード生成器を使えば現実的なデータセットで負荷を生成できそう。
![[Pasted image 20250823105507.png]]