# Prithvi Rajasekaran Anthropic Labs のエンジニア。長時間動作するエージェントアプリケーションの構築中に**ジェネレータ/エバリュエータ分離**パターンの実証的知見を得た。フロントエンド設計実験と Planner + Generator + Evaluator 3 エージェント構成によるフルスタック開発ハーネスを設計・実証した。 ## 主要な知見 - エージェントに自身の出力を採点させると、品質が明らかに低くても確信を持って高評価を返す傾向がある(**自己評価バイアス**) - **独立したエバリュエータを懐疑的にチューニングする**方が、ジェネレータ自体を自己批判的にするよりはるかに取り組みやすい——これは言葉遣いの問題ではなく構造的な違い - フロントエンドタスクでは、エバリュエータを Playwright MCP に接続してページを開き・クリックし・スクリーンショットを撮り・DOM を検査させることで、「このコードは見た目に問題ない」から「ボタンをクリックしたらページが遷移した、これがスクリーンショットだ」へと判断基準を変えた - **コンテキスト不安**(Context Anxiety)を命名:モデルがコンテキスト上限に近づくと感知し、早期に作業を打ち切る問題 - **荷重仮定**(Load-Bearing Assumptions)の概念を提示:ハーネスの各コンポーネントはモデルの現在の限界を仮定としてエンコードしており、モデル改善時に再評価すべき - Opus 4.6 へのアップグレード時にスプリント分解と per-sprint QA を削除し、DAW を 4 時間・$124.70 で構築 ## 出典 - [[@2026__Working Note__Loop Engineering - The Anthropic Playbook for Designing Systems That Prompt Your Agents]] §V.A-B — ジェネレータ/エバリュエータパターンの初出 - [[@2026__Anthropic Engineering Blog__Harness Design for Long-Running Application Development]] (2026-03-24) — フルスタックハーネス設計の詳細報告