Level-4 fold of 16 log entries spanning 2026-06-14 to 2026-06-15. Dominant themes: AIOps インシデント管理と RCA 手法の体系化、LLM/TSFM 時代の時系列推論と強化学習、AI インフラ信頼性のプロアクティブ手法。 ## Child Entries | Date | Op | Title | Page | Summary (extractive) | |---|---|---|---|---| | 2026-06-14 | ingest-paper | Going through the Life Cycle of Faults in Clouds | [[@2022__ISSRE__Going through the Life Cycle of Faults in Clouds - Guidelines on Fault Handling]] | 三大クラウドの実測データで TTM が TTR の過半を占めることを初めて定量化し、緩和の短縮こそが可用性向上のボトルネックであることを実証。misconfiguration→rollback 51 件の根本原因と緩和手段の強相関を提示。 | | 2026-06-15 | refactor | wiki/concepts index synchronization | [[wiki/concepts/_index]] | concept 実ファイル 158 件に対して欠落を補完。必須見出し不足 11 件、frontmatter sources 欠落 14 件、dead wikilink 28 件を次回候補に残した。 | | 2026-06-15 | ingest-paper | How Incidental are the Incidents? | [[@2020__ASE__How Incidental are the Incidents - Characterizing and Prioritizing Incidents for Large-Scale Online Service Systems]] | Microsoft 18 サービスの 6 か月分本番インシデントで半数以上(50.32%)が incidental incidents であり TTR の 55.05% を消費する構造を初めて定量化。DeepIP(AUC 0.808)で incident 固有の時間相関を捉える設計の優位を実証。 | | 2026-06-15 | ingest | Google Cloud Blog: AI in SRE | [[@2026__Google Cloud Blog__AI in SRE - Where Google is Deploying Agentic AI to Improve Operations]] | Google SRE の AI スコープが SDLC 全体に拡大。TimesFM による異常検知、AI Insights(Gemini embedding + ベクトル DB)、IMAG への 4 種エージェントオーケストレーション、エージェント設計 9 原則を提示。 | | 2026-06-15 | ingest-paper | Position: The Inevitable End of One-Architecture-Fits-All | [[@2026__arXiv__Position - The Inevitable End of One-Architecture-Fits-All-Domains in Time Series Forecasting]] | 近似誤差下界 O(1/√T) により NLP・CV のスケーリング則が TSF に適用できないことを理論的根拠とし、LLM Scientist 型メタラーニングを提案。 | | 2026-06-15 | ingest-paper batch | 時系列推論 × RLVR 論文 5 本 | [[@2025__KDD__Can Slow-thinking LLMs Reason Over Time - Empirical Studies in Time Series Forecasting]] | TimeReasoner は訓練不要 DeepSeek-R1 で深層学習ベースラインと競合。Time-R1 は 2.5K サンプル RL が 339K サンプル SFT-LoRA を超えるデータ効率を実証。TimeOmni-1 は SFT+GRPO で因果発見 GPT-4.1 を上回る。 | | 2026-06-15 | ingest-paper | Characterization of LLM Development in the Datacenter | [[@2024__NSDI__Characterization of Large Language Model Development in the Datacenter]] | Acme が Pretraining は件数 0.9〜3.2% で GPU 時間 69.5〜94.0%、GPU 利用率 0/100% の二極化、Infrastructure 障害が件数 11% で GPU 時間 82% 超を最初に並べた本番証跡。 | | 2026-06-15 | ingest-paper | RCAEval (Pham+ WWW 2025) | [[@2025__WWW Companion__RCAEval - A Benchmark for Root Cause Analysis of Microservice Systems with Telemetry Data]] | メトリクス/トレース/マルチソースの 3 系統 + 11 種障害・735 ケースの統一ベンチマーク。CIRCA の AC@1 0.32→0.06 など、単純なマルチソース化で因果推論系が劣化する現象を定量化。 | | 2026-06-15 | ingest-paper | TSGuard (Yang+ FSE 2026) | [[@2026__FSE__TSGuard - Automated User-Centric Incident Diagnosis for AI Workloads in the Cloud]] | ユーザ側 pre-ticket interception layer + 階層タクソノミー誘導 DFS + 能動検証 + 5 エージェント協調で Micro F1=0.854(RCACopilot 比 +19.8%)。AI ワークロード固有の recurrence rate 8.78。 | | 2026-06-15 | ingest-paper | SuperBench (Xiong+ ATC 2024) | [[@2024__USENIX ATC__SuperBench - Improving Cloud AI Infrastructure Reliability with Proactive Validation]] | AI インフラのハードウェア冗長がグレイ障害を生み、MTBI が初回 719.4 時間→20 回目 151.7 時間に漸減。プロアクティブ検証で MTBI 1.11 倍・検証時間 92.07% 削減。ATC '24 Best Paper。 | | 2026-06-15 | ingest-paper | Attention Enhanced Entity Recommendation (Hussain+ FSE 2026) | [[@2026__FSE__Attention Enhanced Entity Recommendation for Intelligent Monitoring in Cloud Systems]] | Microsoft Intelligent Monitoring 第 3 弾。本番モニタの 94% が全ディメンションを使わないためディメンション選定が運用律速。HGNN ランキングで HR@1 0.597(+55.8%)。 | | 2026-06-15 | ingest-paper | AIOps Solutions for Incident Management (Remil+) | [[@2024__arXiv__AIOps Solutions for Incident Management]] | 6 能力モデル(Perception/Prevention/Detection/Location/Action/Interaction)と 4 フェーズ × 9 タスク。interpretability 3 次元。Notaro+ 2021 と独立に AIOps 研究の構造的偏りを再確認。 | | 2026-06-15 | ingest-paper batch | 因果推論ベース RCA + LLM ベース RCA 基礎論文 3 本 | [[@2024__EuroSys__Automatic Root Cause Analysis via Large Language Models for Cloud Incidents]] | RCACopilot は Microsoft Transport 4 年本番稼働の LLM ベース RCA。CIRCA は Pearl Causal Hierarchy で RCA を介入認識タスクとして定式化。RCD は soft intervention モデル化で合成 500 ノード 22 秒。 | | 2026-06-15 | ingest | Toto 2.0 blog (Datadog) | [[@2026__Datadog__Toto-2.0-Time-Series-Forecasting-Enters-the-Scaling-Era]] | 観測特化 TSFM が初の本格スケーリング実証——4M〜2.5B で単調改善・飽和なし。CPM によるシングルパス推論と u-μP による転移学習で精度とレイテンシを同時改善。 | | 2026-06-15 | ingest-paper | Production-Grounded Benchmarks for AI Code Optimization (DODO) | [[@2026__Datadog__Production-Grounded Benchmarks for AI Code Optimization]] | CPU プロファイル + Live Debugger 実呼び出しによる本番接地型ベンチマーク生成が、合成ベンチマークでは不可視の最適化機会を顕在化し、成熟 Go サービスの CPU コストを 8%+ 削減。 | | 2026-06-15 | ingest | 時系列データのための大規模言語モデル (Zenn) | [[@2024__Zenn__tsurubee__LLM-for-Time-Series]] | LLM×時系列を Prompting/Quantization/Aligning/Vision/Tool の 5 アプローチで分類。One Fits All(GPT-2 凍結+位置埋め込みのみ学習)が異分野事前学習の時系列転移を実証。 | ## Key Outcomes - クラウド障害の TTM が TTR の過半を占めることを三大クラウドの実測データで初めて定量化し、緩和短縮が可用性向上のボトルネックであることを実証した(Going through the Life Cycle of Faults エントリ) - RCACopilot・CIRCA・RCD の 3 系統を一括取り込みし、LLM ベース RCA(本番稼働 4 年)と因果推論ベース RCA(Pearl Causal Hierarchy 定式化・soft intervention モデル化)の設計対比を wiki に構造化した(因果推論 RCA 3 本エントリ) - RCAEval が単純なマルチソース化で CIRCA の AC@1 が 0.32→0.06 に劣化する現象を定量化し、「モダリティを増やせば良くなる」という素朴な仮定を反証した(RCAEval エントリ) - 時系列推論 × RLVR 論文 5 本の一括取り込みで、訓練不要 LLM の深層学習競合性・RL のデータ効率優位・SFT+GRPO の能力補完という 3 つの設計パラダイムを系列的に整理した(時系列推論バッチエントリ) - Toto 2.0 が観測特化 TSFM で 4M〜2.5B パラメータにわたる単調改善・飽和なしの初のスケーリング実証を達成した(Toto 2.0 エントリ) - SuperBench が AI インフラのグレイ障害の MTBI 漸減パターン(初回 719.4 時間→20 回目 151.7 時間)を定量化し、プロアクティブ検証で検証時間 92.07% 削減を達成した(SuperBench エントリ) - Google SRE の AI 適用範囲が SDLC 全体に拡大し、TimesFM 異常検知・Gemini embedding による AI Insights・4 種エージェントオーケストレーションの設計原則が公開された(Google Cloud Blog エントリ) ## Cross-entry Themes - **AIOps インシデント管理の構造的非効率**: incidental incidents が TTR の 55% を消費する問題(DeepIP)、TTM が TTR の過半を占める緩和ボトルネック(Fault Life Cycle)、6 能力モデルによる研究偏り(Remil+)が、いずれもインシデント管理パイプラインの非効率構造を異なる角度から定量化している(supported by: Fault Life Cycle, How Incidental, AIOps Solutions エントリ) - **RCA 手法の 3 系統対比とマルチソース化の落とし穴**: RCACopilot(LLM ベース)・CIRCA(因果推論・介入認識)・RCD(soft intervention)の設計対比に加え、RCAEval がマルチソース化での劣化を実証し、TSGuard がユーザ側 pre-ticket layer で RCACopilot 比 +19.8% を達成するなど、RCA の設計空間が多軸に展開されている(supported by: 因果推論 RCA 3 本, RCAEval, TSGuard エントリ) - **LLM/TSFM 時代の時系列推論パラダイム**: 汎ドメインスケーリングの理論的限界(O(1/√T) 下界)、RLVR のデータ効率優位(2.5K RL > 339K SFT)、Toto 2.0 のスケーリング実証(4M〜2.5B 単調改善)、5 アプローチ分類(Prompting/Quantization/Aligning/Vision/Tool)が、時系列予測の方法論を多面的に再構成している(supported by: Position, 時系列推論バッチ, Toto 2.0, Zenn LLM-for-TS エントリ) - **AI インフラ信頼性のプロアクティブ手法**: SuperBench のプロアクティブ検証(MTBI 漸減対策)、Acme の GPU 利用率二極化と Infrastructure 障害支配(GPU 時間 82% 超)、Google SRE のエージェントオーケストレーションが、リアクティブからプロアクティブへの移行を異なるスケールで実証している(supported by: SuperBench, Acme, Google Cloud Blog エントリ) ## Contradictions or Corrections - None detected. ## Child Pages - [[@2022__ISSRE__Going through the Life Cycle of Faults in Clouds - Guidelines on Fault Handling]] - [[@2020__ASE__How Incidental are the Incidents - Characterizing and Prioritizing Incidents for Large-Scale Online Service Systems]] - [[@2026__Google Cloud Blog__AI in SRE - Where Google is Deploying Agentic AI to Improve Operations]] - [[@2026__arXiv__Position - The Inevitable End of One-Architecture-Fits-All-Domains in Time Series Forecasting]] - [[@2025__KDD__Can Slow-thinking LLMs Reason Over Time - Empirical Studies in Time Series Forecasting]] - [[@2025__NeurIPS__Time-R1 - Post-Training Large Vision Language Model for Temporal Video Grounding]] - [[@2026__ICLR2026__TimeOmni-1 - Incentivizing Complex Reasoning with Time Series in Large Language Models]] - [[@2024__arXiv__Towards Time-Series Reasoning with LLMs]] - [[@2025__arXiv__AlphaCast - A Human Wisdom-LLM Intelligence Co-Reasoning Framework for Interactive Time Series Forecasting]] - [[@2024__NSDI__Characterization of Large Language Model Development in the Datacenter]] - [[@2025__WWW Companion__RCAEval - A Benchmark for Root Cause Analysis of Microservice Systems with Telemetry Data]] - [[@2026__FSE__TSGuard - Automated User-Centric Incident Diagnosis for AI Workloads in the Cloud]] - [[@2024__USENIX ATC__SuperBench - Improving Cloud AI Infrastructure Reliability with Proactive Validation]] - [[@2026__FSE__Attention Enhanced Entity Recommendation for Intelligent Monitoring in Cloud Systems]] - [[@2024__arXiv__AIOps Solutions for Incident Management]] - [[@2024__EuroSys__Automatic Root Cause Analysis via Large Language Models for Cloud Incidents]] - [[@2022__KDD__Causal Inference-Based Root Cause Analysis for Online Service Systems with Intervention Recognition]] - [[@2022__NeurIPS__Root Cause Analysis of Failures in Microservices through Causal Discovery]] - [[@2026__Datadog__Toto-2.0-Time-Series-Forecasting-Enters-the-Scaling-Era]] - [[@2026__Datadog__Production-Grounded Benchmarks for AI Code Optimization]] - [[@2024__Zenn__tsurubee__LLM-for-Time-Series]] ## Related - [[DragonScale Memory]] - fold-operator spec - [[log]] - source entries - [[index]] - vault catalog