@2025__Anthropic Engineering Blog__A Postmortem of Three Recent Issues

> [!abstract] 概要 > 2025 年 8 月から 9 月初旬にかけて Claude の応答品質を劣化させた 3 件のインフラ障害についての [[Anthropic]] 公式ポストモーテム（2025-09-17 公開）。コンテキストウィンドウのルーティングエラー・TPU 誤設定による出力破壊・XLA:TPU コンパイラの混合精度演算バグという 3 種の独立した障害類型を詳述し、検知の困難さとプライバシー制約という構造的課題を明示した。 ## 記事情報 - **タイトル**: A Postmortem of Three Recent Issues - **著者**: [[Anthropic]] Engineering チーム - **媒体**: Anthropic Engineering Blog - **公開日**: 2025-09-17 - **URL**: https://www.anthropic.com/engineering/a-postmortem-of-three-recent-issues --- ## 3 件の障害詳細 ### 障害 1: コンテキストウィンドウのルーティングエラー - **期間**: 2025-08-05〜2025-09-04 - **概要**: Sonnet 4 の一部リクエストが 1M トークンコンテキストウィンドウ向けサーバーに誤ルーティングされた。短いコンテキストのクエリが不適切なサーバーに送られ、出力品質が劣化。 - **スティッキーなルーティング**: 同一会話内の後続メッセージが同じ劣化サーバーに継続してルーティングされるため、ユーザー体験が持続的に悪化した。 - **影響拡大**: 2025-08-29 のロードバランシング調整でピーク時 **16%** の Sonnet 4 リクエストに影響が拡大。 - **修正**: 2025-09-04 にルーティングロジックを修正。 ### 障害 2: 出力の破壊 - **期間**: 2025-08-25〜2025-09-02 - **概要**: Claude API の TPU サーバーへのデプロイ誤設定によりトークン生成エラーが発生。英語プロンプトへの応答にタイ語（「สวัสดี」）・中国語の文字、またはコードの構文エラーが混入した。 - **影響モデル**: Opus・Sonnet 系 - **修正**: 2025-09-02 にロールバックにより解消。 ### 障害 3: XLA:TPU コンパイラバグ - **期間**: 2025-08-25 のデプロイに起因 - **概要**: デプロイが潜在的な XLA:TPU コンパイラバグを顕在化させた。異なる浮動小数点精度で動作する演算間でトークン確率の不一致が生じ、テキストサンプリング時のトークン選択に影響した（混合精度演算の問題）。 - **影響モデル**: Haiku 3.5、潜在的には Sonnet 4・Opus 3 にも影響 - **修正**: 近似的 top-k 演算から厳密な top-k 演算への切り替え、精度処理の標準化。 --- ## 構造的課題：検知の困難さとプライバシー制約 Anthropic は本ポストモーテムにおいて、**検知の遅れには 2 つの構造的要因がある**と明示した。 1. **評価のカバレッジ問題**: 内部評価はユーザーが実際に体験した品質劣化をキャプチャできなかった。評価ベンチマークと本番ユーザー体験の間には統計的なズレが存在する。 2. **プライバシーと可観測性のトレードオフ**: プライバシー保護のためエンジニアが問題のあるユーザーインタラクションに直接アクセスできず、障害診断が遅れた。これは [[ICSE 2026 GenAI インシデント研究|@2026__ICSE__An Empirical Study of Production Incidents in Generative AI Cloud Services]] が定量化した「GenAI インシデントの緩和時間が非 GenAI 比 1.83 倍」という知見を、一次資料として裏付ける事例である。 --- ## 再発防止策 - より感度の高い評価（ユーザー体験に近い品質指標）の実装 - 本番システムの継続的な品質モニタリング - プライバシーを損なわずにユーザーフィードバックとインフラ問題を接続するデバッグツールの改善 --- ## 横断的知見 - **LLM 本番品質の劣化は 3 種の独立した層で発生しうる**: ルーティング層（サーバー選択）・推論層（TPU 誤設定）・コンパイラ層（XLA 演算精度）。いずれも出力品質の劣化として現れるが、根本原因は全く異なる。これは [[運用障害分析]] における「症状と根本原因の多対多関係」（[[@2026__ICSE__An Empirical Study of Production Incidents in Generative AI Cloud Services]]）の具体例である。 - **「評価でカバーできないユーザー体験の劣化」という問題は LLM に固有**: 従来のサービス障害では応答時間・エラー率等の客観的指標で検知できることが多い。LLM の品質劣化は主観的・文脈依存的であり、統計的なベンチマークで捉えにくい。この評価カバレッジ問題は [[AIOps]] における自動検知の限界の一形態として位置づけられる。 - **Anthropic の公式声明「需要・時刻・負荷による品質低下は行わない」**: この声明は、LLM プロバイダーが品質を秘密裏に変動させているという懸念に対する公式の反論である。品質劣化がすべて意図しないバグから生じたことを開示した。 --- ## 関連 - [[Anthropic]] — 発行元。Claude モデルファミリーの開発・運用企業 - [[LLM推論]] — TPU サーバー上のトークン生成・コンパイラ最適化の技術的背景 - [[運用障害分析]] — 3 種の障害類型と検知困難性の分析の枠組み - [[@2016__OReilly__SRE Book - Chapter 15 Postmortem Culture - Learning from Failure|ポストモーテム文化]] — ブレームレスなポストモーテム公開の実践例 - [[@2026__ICSE__An Empirical Study of Production Incidents in Generative AI Cloud Services]] — GenAI サービス本番インシデントの体系的実証研究（Microsoft, ICSE 2026） ## 出典 - [[.raw/articles/a-postmortem-of-three-recent-issues-2025-09-17.md]]