# gpt-ossモデルのサービング性能評価
[[三宅悠介]]([[GMOペパボ]] ペパボ研究所 研究員/プリンシパルエンジニア)による、OpenAI のオープンウェイトモデル「gpt-oss」を Google Cloud 上でサービングした際の性能測定レポート。2025-08-18 公開。
## 評価環境
| インスタンス | GPU | VRAM |
|---|---|---|
| a3-highgpu-1g | H100 | 80 GB |
| a2-ultragpu-1g | A100 | 80 GB |
| g2-standard-4 | L4 | 24 GB |
推論サーバーに [[vLLM]](PagedAttention + continuous batching)、負荷試験ツールに Locust を使用。120 秒間・複数の並列数パターンで計測。
## 主要な知見
### GPU 世代と並列スケーリング
H100 では並列数増加とともに RPS が緩やかに向上し、実用的なスケーリングが得られる。一方 A100・L4 は推論自体は動作するものの、並列数を増やしてもスループットがほとんど改善せず、H100 に比べてレスポンス時間も大幅に長い。**サービス用途には H100 以上が実質必須**という結論。
### 出力トークン数の支配的な影響
入力トークン数に比べ、**出力トークン数がスループットにより強く依存する**ことを確認。これは vLLM の continuous batching が decode フェーズ(メモリバウンド)に支配されることと一致する。サービス設計では output token 上限制御が重要なチューニングポイントになる。
### Reasoning effort とモデルサイズのトレードオフ
Reasoning effort を `high` にすると性能低下が顕著。モデルサイズ間の差は「2 倍以上にはならない」傾向があり、**大規模モデル + medium effort の組み合わせが応答安定性の観点で優位**。Reasoning effort の選択はレイテンシ・スループット設計において、モデルサイズ選択と同等以上に重要。
## 横断的なつながり
- [[vLLM]] の PagedAttention が continuous batching により decode フェーズのメモリバウンドを扱う仕組みは [[LLM推論]] §横断的知見と整合する
- NVIDIA 公式解説([[@2025__NVIDIA__LLM-Inference-Benchmarking-Fundamental-Concepts]])が定義する「推論タスクの ISL/OSL プロファイル」と本記事の「出力トークン数支配」は対応: 推論ワークロード(ISL≈100, OSL≈1000〜10000)では特に出力トークン数の管理が律速になる
- さくらのナレッジ([[@2025__さくらのナレッジ__分散推論基盤やその前提の考え方]])の Goodput 概念(SLO 達成スループット)と対応: H100 でのみ並列数増加が Goodput 改善に寄与する
## 関連
- 著者: [[三宅悠介]]
- 組織: [[GMOペパボ]]
- 推論フレームワーク: [[vLLM]]
- 概念: [[LLM推論]]
- 関連モデル: [[OpenAI]]