OpenAI-Harness-Engineering - yuuk1's Digital Garden

# Harness engineering: leveraging Codex in an agent-first world OpenAI が 2026 年 2 月に公開した技術ブログ記事。3 名のエンジニアが Codex を用いて 5 ヶ月で 100 万行の本番コードを生成した実験を元に、エージェントファースト開発における新たな工学的規律「Harness Engineering（ハーネスエンジニアリング）」を提唱する。 ## 概要 2025 年 8 月末から空のリポジトリで開始。エンジニアはコードを一行も手書きせず（"no manually-written code"）、Codex エージェントへの指示・PR レビュー・フィードバックループの設計に集中した。 **主要な成果**: - 1,500 本超のプルリクエストがマージ - エンジニア 1 人あたり平均 3.5 PR/日のスループット - チームが 3 名 → 7 名に拡大するにつれてスループットが増加 - 手書きコード: 0 行 ## ハーネスの定義 > Codex のような AI エージェントを囲む「足場・制約・フィードバックループの完全な環境」。エージェントが安定した作業を実行できるようにするための環境設計の総称。 [[Harness Engineering]] はプロンプトエンジニアリング・コンテキストエンジニアリングとは異なる第三の層に位置する。 | 概念 | 中心課題 | スコープ | |------|--------|--------| | プロンプトエンジニアリング | メッセージの表現・構造 | 単一ターン | | コンテキストエンジニアリング | 情報の可視性管理 | コンテキストウィンドウ | | **ハーネスエンジニアリング** | 運用環境全体の設計 | 数時間に及ぶ自律実行 | ## ハーネスの主要要素 ### コンテキストファイル AGENTS.md を肥大したドキュメントから 100 行のインデックスに縮小し、構造化された `/docs/` ディレクトリへのポインタとして整理。クロスリンクをリンターで機械的に検証。 ### 機械的な強制（Mechanical Enforcement）カスタムリンターが依存フローを強制する: ``` Types → Config → Repo → Service → Runtime → UI ``` 違反時は自動修正指示をエージェントのコンテキストに注入（「one-way dependency validation」）。 ### フィードバックループ - Chrome DevTools Protocol: スクリーンショット取得 - LogQL: ログクエリ - PromQL: メトリクス監視 - サービス起動閾値: 800 ミリ秒 ### ガベージコレクションバックグラウンドでスケジュールされた Codex タスクが継続的に技術負債をスキャンし、リファクタリング PR を自動提出（数分以内にマージ）。 ### エージェント間レビュー PR レビューもエージェント（agent-to-agent）で処理。人間の関与は高水準の設計判断に集中。 ## エンジニアの役割変化 | 従来 | 新体制 | |------|--------| | コードを書く | 環境を設計する | | 実装を決定する | 意図を仕様化する | | コードを直接修正する | フィードバックループを構築する | ## 三エージェントハーネスアーキテクチャ（関連事例）他プロジェクトで確認された三層構造: - **プランナー**: プロンプトを製品仕様に展開 - **ジェネレーター**: 署名付きスプリント契約で機能を実装 - **エバリュエーター**: Playwright によるブラウザ自動化でテスト単独エージェント（20 分、9 USD）は技術的起動するが破損。三エージェントハーネス（6 時間、200 USD）は完全機能。 ## 核心的主張 - 「最良のハーネスコンポーネントは削除されるよう設計されている」(モデル向上とともに不要化) - 「モデルの品質が収束する一方、ハーネスは各チームが独自に構築する差別化資産」 - 現在のハーネス投資が実際の生産性格差を生む ## 後継: Symphony 2026 年 4 月 27 日、[[OpenAI]] はハーネスエンジニアリングの原則を実装したオープンソースオーケストレーション層 [[Symphony]] を公開。Linear をコントロールプレーンとして Codex を自動化する参照実装（Elixir 製）。ハーネスエンジニアリング採用済みチームで 500% の PR マージ増加を報告。 ## 数値データ（他事例） - Hashline: 編集フォーマット変更のみで Grok Code Fast スコア 6.7% → 68.3%（モデル重みは不変、ハーネスのみ変化） - LangChain: ハーネス改善でベンチマーク 52.8% → 66.5%、リーダーボード 30 位台 → 5 位 ## 出典 - URL: https://openai.com/ja-JP/index/harness-engineering/ - 著者: [[OpenAI]] - 公開: 2026-02-11 - Raw: `.raw/articles/harness-engineering-openai-2026-06-29.md`