@2025__ペパボ研究所__gpt-ossモデルのサービング性能評価

# gpt-ossモデルのサービング性能評価 [[三宅悠介]]（[[GMOペパボ]] ペパボ研究所研究員/プリンシパルエンジニア）による、OpenAI のオープンウェイトモデル「gpt-oss」を Google Cloud 上でサービングした際の性能測定レポート。2025-08-18 公開。 ## 評価環境 | インスタンス | GPU | VRAM | |---|---|---| | a3-highgpu-1g | H100 | 80 GB | | a2-ultragpu-1g | A100 | 80 GB | | g2-standard-4 | L4 | 24 GB | 推論サーバーに [[vLLM]](PagedAttention + continuous batching)、負荷試験ツールに Locust を使用。120 秒間・複数の並列数パターンで計測。 ## 主要な知見 ### GPU 世代と並列スケーリング H100 では並列数増加とともに RPS が緩やかに向上し、実用的なスケーリングが得られる。一方 A100・L4 は推論自体は動作するものの、並列数を増やしてもスループットがほとんど改善せず、H100 に比べてレスポンス時間も大幅に長い。**サービス用途には H100 以上が実質必須**という結論。 ### 出力トークン数の支配的な影響入力トークン数に比べ、**出力トークン数がスループットにより強く依存する**ことを確認。これは vLLM の continuous batching が decode フェーズ（メモリバウンド）に支配されることと一致する。サービス設計では output token 上限制御が重要なチューニングポイントになる。 ### Reasoning effort とモデルサイズのトレードオフ Reasoning effort を `high` にすると性能低下が顕著。モデルサイズ間の差は「2 倍以上にはならない」傾向があり、**大規模モデル + medium effort の組み合わせが応答安定性の観点で優位**。Reasoning effort の選択はレイテンシ・スループット設計において、モデルサイズ選択と同等以上に重要。 ## 横断的なつながり - [[vLLM]] の PagedAttention が continuous batching により decode フェーズのメモリバウンドを扱う仕組みは [[LLM推論]] §横断的知見と整合する - NVIDIA 公式解説([[@2025__NVIDIA__LLM-Inference-Benchmarking-Fundamental-Concepts]])が定義する「推論タスクの ISL/OSL プロファイル」と本記事の「出力トークン数支配」は対応: 推論ワークロード(ISL≈100, OSL≈1000〜10000)では特に出力トークン数の管理が律速になる - さくらのナレッジ([[@2025__さくらのナレッジ__分散推論基盤やその前提の考え方]])の Goodput 概念(SLO 達成スループット)と対応: H100 でのみ並列数増加が Goodput 改善に寄与する ## 関連 - 著者: [[三宅悠介]] - 組織: [[GMOペパボ]] - 推論フレームワーク: [[vLLM]] - 概念: [[LLM推論]] - 関連モデル: [[OpenAI]]