OpenAI - yuuk1's Digital Garden

# OpenAI AI の安全な開発と普及を目的として 2015 年に設立された AI 研究組織である。Sam Altman、[[Ilya Sutskever]]、Greg Brockman らが共同設立した。 ## 概要 GPT シリーズの開発元として知られる。本 wiki で取り込んだ [[@2018__OpenAI__Improving Language Understanding by Generative Pre-Training]] は、GPT（GPT-1）の原論文であり、Transformer デコーダを用いた教師なし事前学習と教師あり微調整の二段階転移学習フレームワークを提案した。同論文は [[Alec Radford]]、[[Karthik Narasimhan]]、[[Tim Salimans]]、[[Ilya Sutskever]] の 4 名により執筆された。 ## InstructGPT(2022) InstructGPT は、GPT-3 を人間のフィードバックによる強化学習(RLHF)で微調整したモデル群である。[[Long Ouyang]]・[[Jeff Wu]] らが主導した OpenAI アライメントチームの研究成果であり、NeurIPS 2022 で発表された。SFT → 報酬モデル学習 → PPO という 3 ステップのパイプラインにより、1.3B パラメータの InstructGPT が 175B GPT-3 の出力を人間評価で 85 ± 3% の頻度で上回ることを実証した。(Source: [[@2022__NeurIPS__Training language models to follow instructions with human feedback]]) ## 主要プロジェクト（本ソースから確認できる範囲） - **GPT（GPT-1）**: Transformer デコーダによる教師なし事前学習と教師あり微調整の統一フレームワーク。12 タスク中 9 で当時の最高精度を達成した（2018年） - **[[GPT-2]]**: GPT-1 を 10 倍以上にスケールアップした 1.5B パラメータの Transformer 言語モデル。[[WebText]]（約 40GB のウェブテキスト）で訓練し、パラメータやアーキテクチャの変更なしにゼロショットで多様な NLP タスクを解けることを実証した。8 つの言語モデリングデータセットのうち 7 つでゼロショット SOTA を達成（2019年）。(Source: [[@2019__OpenAI__Language Models are Unsupervised Multitask Learners]]) - **[[GPT-3]]**: GPT-2 をさらに 100 倍以上スケールアップした 175B パラメータの自己回帰言語モデル。勾配更新なしの少数ショット・ワンショット・ゼロショット設定で 40 以上の NLP タスクに適用し、一部では微調整 SOTA に匹敵する性能を達成した（2020年）。[[Tom Brown]] が筆頭著者、[[Dario Amodei]] が研究を設計・主導、[[Jared Kaplan]] がスケーリング則を適用してモデル・データ規模を導いた。(Source: [[@2020__NeurIPS__Language Models are Few-Shot Learners]]) ## GPT-4(2023) GPT-4 は OpenAI が 2023 年 3 月に公開した大規模マルチモーダル言語モデルである。画像とテキストを入力として処理する初の GPT シリーズモデルで、Transformer による次トークン予測事前学習 + RLHF 事後訓練の構成をとる。アーキテクチャ・モデルサイズ・訓練計算量は公開されていない。(Source: [[@2023__arXiv__GPT-4 Technical Report]]) 主要成果: - 模擬バー試験 298/400(上位約 10%)、MMLU 86.4%、HumanEval 67.0%、GSM-8K 92.0% - 多言語 MMLU で 26 言語中 24 において他モデルの英語性能を超過 - 予測可能スケーリング: 1/1,000〜1/10,000 の計算量モデルから GPT-4 の損失・能力を事前予測 - 安全性: 専門家 50 名超によるレッドチーム、RBRM 導入、禁止コンテンツ応答 GPT-3.5 比 82% 削減 ## フロンティアモデル訓練の経緯（外部観察） [[Glenn K. Lockwood]]（元 Microsoft）の記事（2026-05-08）によると、[[Microsoft]] の超大規模クラスタで訓練された GPT-4 後継の大規模モデルは「魔法のような」として 2025-02 にリリースされたが、トークン単価 GPT-4o 比推定 15 倍・推論に約 120 GPU（15 HGX ノード）が必要で経済的に成立せず、2025-04 に非推奨化・2025-07 にパブリックアクセスを終了した。2025-08 に Sam Altman が AGI を「それほど有用でない用語」と発言。この観察は外部ブログ記事であり公式には確認されていない（信頼度: medium）。(Source: [[@2026__Glenn K. Lockwood Blog__AI doesnt need giant supercomputers after all]]) ## インフラストラクチャ・ネットワーキング研究 - **AI スーパーコンピュータネットワーキング**: 10 万 GPU 超クラスタの LLM 訓練に向け、[[MRC]]（Multipath RC）・[[マルチプレーンClosトポロジ]]・[[SRv6]] を組み合わせた耐障害性ネットワークアーキテクチャを開発・本番実証した。「検知・回避・回復」の設計哲学でトランシーバー障害やスイッチ再起動中も訓練継続を実現する。(Source: [[@2026__LinkedIn__Resilient AI Supercomputer Networking - How MRC and SRv6 Keep 100,000+ GPUs Training]]) - JANOG58 の発表では、[[MRC]] が OpenAI 主導で AMD・Broadcom・Intel・Microsoft・NVIDIA と連携開発するオープンプロトコルであり、UEC(Ultra Ethernet Consortium)の UET(Ultra Ethernet Transport)仕様の一部を取り込んでいると紹介された。単一ベンダー独自技術ではなく業界連携の枠組みで開発が進んでいることが独立ソースから確認できる。(Source: [[@2026__JANOG58__AIインフラ時代のデータセンター内光配線の実践知]]) ## スケーリング則の起源 [[Jared Kaplan]]・Sam McCandlish ほか（arXiv:2001.08361、2020-01-23）は、Transformer 言語モデルの損失がモデルパラメータ数 $N$・データ量 $D$・計算量 $C$ に対してそれぞれ独立にべき乗則でスケールすることを 7 桁以上の範囲で実証した。アーキテクチャ詳細（depth/width 比）への弱依存性も定量化し、計算効率最適の訓練は「大きなモデルを早期停止」すべきと結論した（$N_{\text{opt}} \propto C^{0.73}$, $D_{\text{opt}} \propto C^{0.27}$）。この論文は GPT-3 の規模設計の根拠となったスケーリング則研究の源泉である。(Source: [[@2020__arXiv__Scaling Laws for Neural Language Models]]) ## スケーリング則の多モダリティ拡張 [[Tom Henighan]]・[[Jared Kaplan]]・Mor Katz ほかの研究者（arXiv:2010.14701、2020-10-28）は、言語モデルのスケーリング則が画像・動画・マルチモーダル・数学的問題求解にも適用されることを実証した。最適モデルサイズの指数 $\beta \approx 0.7$ がすべてのモダリティで普遍的に成立することが主要な発見である。(Source: [[@2020__arXiv__Scaling Laws for Autoregressive Generative Modeling]]) ### モデル評価での参照 GPT-4o は時系列 LLM 研究の主要なベースラインとして参照される。Chow+([[@2024__arXiv__Towards Time-Series Reasoning with LLMs]])はゼロショット時系列推論で GPT-4o を比較対象とし、7B モデル + 軽量パッチエンコーダ + LoRA がこれを上回ることを実証した。GPT-4.1 は TimeOmni-1([[@2026__ICLR2026__TimeOmni-1 - Incentivizing Complex Reasoning with Time Series in Large Language Models]])のベースラインとして、TimeOmni-1(Qwen2.5-7B + SFT + GRPO)に因果発見精度で 40.6%(ID)・28.1%(OOD)上回られた。GPT-5-Thinking は TimeReasoner([[@2025__KDD__Can Slow-thinking LLMs Reason Over Time - Empirical Studies in Time Series Forecasting]])でスロー思考 LLM の代表として評価され、規模では大きいが「線形外挿ショートカット依存」により DeepSeek-R1 を下回るケースが観察された。 ## Harness Engineering と Codex（2026） [[OpenAI]] が 2026 年 2 月に公開したエンジニアリング手法。3 名のエンジニアが [[Codex]] を用いて 5 ヶ月間・手書き 0 行で 100 万行の本番コードを生成した実験の知見をもとに、[[Harness Engineering]] という新たな工学的規律を提唱した。エンジニアは「コードを書く」から「環境を設計し・意図を仕様化し・フィードバックループを構築する」役割に移行する。1,500 本超の PR をマージし、エンジニア 1 人あたり平均 3.5 PR/日を達成。(Source: [[OpenAI-Harness-Engineering]]) 2026 年 4 月には [[Symphony]]（Codex オーケストレーションのオープンソース仕様・参照実装）を公開。Linear をコントロールプレーンとして Codex を自動化する Elixir 製参照実装であり、採用チームで PR マージ 500% 増加を報告。 ## 出典 - [[@2022__NeurIPS__Training language models to follow instructions with human feedback]] - [[@2018__OpenAI__Improving Language Understanding by Generative Pre-Training]] - [[@2019__OpenAI__Language Models are Unsupervised Multitask Learners]] - [[@2020__NeurIPS__Language Models are Few-Shot Learners]] - [[@2020__arXiv__Scaling Laws for Neural Language Models]] - [[@2020__arXiv__Scaling Laws for Autoregressive Generative Modeling]] - [[@2023__arXiv__GPT-4 Technical Report]] - [[@2026__LinkedIn__Resilient AI Supercomputer Networking - How MRC and SRv6 Keep 100,000+ GPUs Training]] - [[@2024__arXiv__Towards Time-Series Reasoning with LLMs]] - [[@2026__ICLR2026__TimeOmni-1 - Incentivizing Complex Reasoning with Time Series in Large Language Models]] - [[@2025__KDD__Can Slow-thinking LLMs Reason Over Time - Empirical Studies in Time Series Forecasting]] - [[OpenAI-Harness-Engineering]]