GPT-OSS - yuuk1's Digital Garden

# GPT-OSS OpenAI が 2019 年の GPT-2 以来初めて公開したオープンウェイトモデル。`gpt-oss-20b` と `gpt-oss-120b` の 2 バリアント。 ## アーキテクチャの特徴 - **幅広・浅い設計**: Qwen3 30B-A3B と比較して層数は半分(24 vs 48)だが埋め込み次元は大きい(2880 vs 2048)。幅広設計は推論時の並列化効率(高いトークン/秒)とメモリ使用量の増加というトレードオフ。 - **MoE**: Qwen3 の 128 エキスパート/8 活性化に対し 32 エキスパート/4 活性化と少数大型エキスパート設計。共有エキスパートなし。 - **SWA**: 1 層おきにスライディングウィンドウアテンションを適用(Gemma 3 の 5:1 比率とは異なり 1:1)。 - **注意バイアス**: GPT-2 以来廃れていたアテンション層のバイアス項を再採用。先行研究では k_proj のバイアスは冗長であると数学的に示されているが、GPT-OSS は採用している。 - **アテンションシンク**: 入力トークンを変更せず、各ヘッドの学習可能なバイアスロジットとして実装。長コンテキストでの安定性向上が目的。 ## 位置づけ GPT-OSS は GPT-4 のオープンウェイト版ではなく、オープンソースコミュニティのために一から学習したカスタムモデル。少数大型エキスパートの設計はより新しい多数小型エキスパートの潮流とは逆行するが、それぞれ推論スループットと知識容量の異なるトレードオフを持つ。 ## 関連 - エンティティ: [[OpenAI]] - 概念: [[スライディングウィンドウアテンション]] / [[Mixture-of-Experts]] / [[Grouped-Query Attention]] - ソース: [[The Big LLM Architecture Comparison]]