Level-4 fold of 16 log entries spanning 2026-06-03 to 2026-06-04. Dominant themes: AIOps/RCA 評価基盤の深化と「進歩の幻想」の暴露、時系列基盤モデルの予測を超えた応用展開、AIOps の外延拡張(IaC 構成管理・カーネル層 eBPF)。
## Child Entries
| Date | Op | Title | Page | Summary (extractive) |
|---|---|---|---|---|
| 2026-06-04 | ingest-paper | ARFBench(時系列質問応答ベンチ) | [[2026__arXiv__ARFBench]] | Toto-1.0-QA-Experimental が精度 63.9% で GPT-5(62.7%)に並び、人間専門家との best-of-2 が 87.2% の超人的フロンティアを実現。 |
| 2026-06-04 | ingest-paper | Cisco Time Series Model | [[2025__arXiv__Cisco Time Series Model Technical Report]] | TimesFM に特殊トークン・解像度埋め込みを足し、多解像度の長コンテキストを 1/30 の系列長で扱う。観測ドメインで Toto/Chronos-2 を上回る。 |
| 2026-06-04 | ingest-paper | RFT 障害管理 | [[2026__arXiv__Towards Robust LLM Post-Training]] | AIOps の検知→診断→修復ライフサイクルを RFT 訓練プロセスへ移植。初の細粒度障害ベンチ RFT-FaultBench と閉ループ RFT-FM を提示。 |
| 2026-06-04 | ingest-paper | Zodiac | [[2024__SOSP__Zodiac]] | IaC の semantic gap を KB マイニング + SMT(Z3)の negative test case で埋める。Azure 52 種別・26,000 リポジトリから 510 検証済みチェック。 |
| 2026-06-04 | ingest-paper | NSync / Lilac | [[2025__arXiv__NSync]] / [[2025__AIOps__Lilac]] | IaC ライフサイクルを順方向検証(Zodiac)・逆方向 lifting(Lilac)・drift 修復(NSync)の 3 方向で攻め、LLM + symbolic guardrail + 知識ベースに収束。 |
| 2026-06-04 | ingest | eBPF × AI/LLMs | [[2026__eunomia.dev__eBPF × AI-LLMs]] | eBPF for AI(AgentSight <3% オーバーヘッド)と AI for eBPF(Kgent 約 80% 意味的正しさ)の双方向共生ループ。wiki 初のカーネル層。 |
| 2026-06-04 | ingest-paper | Agentic Time Series Forecasting | [[2026__arXiv__ATSF]] | 時系列予測を perception・planning・action・reflection・memory の反復的意思決定に再定式化。agentic SRE と同型の設計原理。 |
| 2026-06-03 | ingest-paper | LogPilot | [[2025__ASE__LogPilot]] | アラート定義の意味的意図でログを絞る intent-aware scoping で LLM 呼び出し 98.71% 削減。wiki 初のログ専門 RCA 一次論文。 |
| 2026-06-03 | ingest-paper | Rethinking RCA Evaluation | [[2025__arXiv__Rethinking RCA]] | SimpleRCA が 4 公開ベンチで SOTA に匹敵。9,152 注入の 84.4% が silent fault。RCA の「進歩」はベンチマークの過度な単純さの産物。 |
| 2026-06-03 | ingest-paper | MonitorAssistant | [[2024__ESEC-FSE__MonitorAssistant]] | LLM を検知器でなくメタ層(設定推奨・解釈・フィードバック仲介)に限定。「実用的異常」の定義が学術—産業ギャップを明示化。 |
| 2026-06-03 | ingest-paper | TelecomTS | [[2026__ICML__TelecomTS]] | 正規化が診断情報を破壊し最大 +30.4pt 劣化。Toto が RCA 0.848 で突出するが、スケール明示エンコードの Mantis が異常検知 F1 で凌駕。 |
| 2026-06-03 | ingest-paper | AIOps Survey (LLM era) | [[2025__CSUR__A Survey of AIOps in the Era of LLMs]] | LLM4AIOps 初の包括サーベイ。工程フロー軸を確定し、緩和の自動化 5 段で MicroRemed(Lv4)/Stratus(Lv5) を位置づけ。 |
| 2026-06-03 | ingest-paper | GenAI Production Incidents | [[2026__ICSE__GenAI Production Incidents]] | GenAI インシデントは TTM 1.83 倍、人手検知 38.3%(非 GenAI 13.7%)。「1 障害 1 根本原因」構造と本番の多対多の乖離を初めて定量化。 |
| 2026-06-03 | ingest-paper | Pulse | [[2026__ASPLOS__Pulse]] | BlueField-3 DPA による on-NIC off-path 計測で overhead ほぼ 0 の microsecond 粒度監視。検知機構が heartbeat→host-metric→traffic の 3 層に拡張。 |
| 2026-06-03 | ingest-paper | ITBench | [[2025__ICML2025__ITBench]] | SRE/CISO/FinOps の 102 シナリオで GPT-4o SRE 緩和 11.43%・Hard 緩和 0%。trace ablation で telemetry 選別の重要性を制御変数化。 |
| 2026-06-03 | ingest-paper(re-ingest) | STRATUS | [[2025__NeurIPS2025__STRATUS]] | TNR を Alpern–Schneider safety property(Lemma 3.1)として形式確定。AIOpsLab 69.2%・ITBench 50.0%。pod restart 問題(8/18 問)を明確化。 |
## Key Outcomes
- ITBench 一次論文と STRATUS re-ingest で [[Transactional No-Regression]] の形式的定義を確定(severity µ の単調非増加を A-Lock/Faithful Undo/Bounded Risk Window で保証、Lemma 3.1)。ただし ITBench 18 問中 8 問で pod restart が fault を消す問題を明確化し、安全仕様と評価の誠実性が直交する横断的知見を記録 (from 2026-06-03 ITBench, STRATUS re-ingest entries)
- LLM4AIOps 初の包括サーベイで AIOps の工程フロー軸(データ→タスク→手法→評価)を確定。緩和の自動化 5 段で MicroRemed(Lv4)/Stratus(Lv5) を位置づけ、サーベイの「Lv5 は実効性未検証」の空白を一次ソースが TNR 付きで埋める時間的接続を確認 (from 2026-06-03 AIOps Survey entry)
- SimpleRCA が 4 公開ベンチで SOTA に匹敵する事実から RCA の「進歩」をベンチマーク過度単純さの産物と暴き、9,152 注入の 84.4% が silent fault と定量化。新 concept [[障害注入]] の核として定式化 (from 2026-06-03 Rethinking RCA entry)
- ARFBench で Toto-1.0-QA-Experimental が精度 63.9% で GPT-5(62.7%)に並び、人間専門家との best-of-2 オラクルが 87.2%・F1 82.8% の超人的フロンティアを実現。TSFM が予測から質問応答へ応用を拡張 (from 2026-06-04 ARFBench entry)
- Pulse が BlueField-3 DPA で overhead ほぼ 0 の microsecond 粒度監視を実現し、Minder の「ms 監視は overhead で未展開」制約を on-NIC off-path 計測で解消。検知機構が heartbeat→host-metric→traffic の 3 層に拡張 (from 2026-06-03 Pulse entry)
- IaC ライフサイクルを順方向検証(Zodiac: 510 検証済みチェック)・逆方向 lifting(Lilac)・drift 修復(NSync)の 3 方向で同一研究室が攻め、LLM + symbolic guardrail + 知識ベースに収束。AIOps が事後対応の診断から先回りの構成管理へ外延拡張 (from 2026-06-04 Zodiac, NSync/Lilac entries)
- eBPF と AI の双方向共生ループを wiki 初のカーネル層として導入。AgentSight が claude code/gemini-cli を <3% オーバーヘッドで追跡し、agentic SRE の「エージェントを観測する側に置く」第 3 の軸を開拓 (from 2026-06-04 eBPF entry)
## Cross-entry Themes
- **「情報を絞ってから推論」の骨格がモダリティ横断で通底**: LogPilot(ログを intent-aware で絞り 98.71% 呼び出し削減、2026-06-03)、TelecomTS(正規化がスケール情報を破壊し最大 +30.4pt 劣化、2026-06-03)、MonitorAssistant(LLM をメタ層に限定、2026-06-03)が前バッチの MetricSifter/Bits AI SRE と同型の設計原理を独立に実証 (supported by: 2026-06-03 LogPilot, TelecomTS, MonitorAssistant entries)
- **RCA ベンチマークの「進歩の幻想」が複数角度から暴かれる**: SimpleRCA の SOTA 匹敵(Rethinking RCA、2026-06-03)、ITBench の pod restart 問題(8/18 問、2026-06-03)、GenAI インシデントの多対多構造(TTM 1.83 倍、2026-06-03)が、ベンチマーク設計の前提を問い直す (supported by: 2026-06-03 Rethinking RCA, ITBench, STRATUS, GenAI Production Incidents entries)
- **AIOps の外延がアプリ層から構成管理(IaC)とカーネル層(eBPF)の両方向へ拡張**: Zodiac/NSync/Lilac(2026-06-04)が事後診断から先回りの構成管理へ、eBPF × AI(2026-06-04)がアプリ層からカーネル層へ。従来のメトリクス/ログ/トレース中心の AIOps の境界が根本から広がる (supported by: 2026-06-04 Zodiac, NSync/Lilac, eBPF entries)
- **時系列基盤モデルの応用が予測から質問応答・エージェント設計へ拡張**: ARFBench の TSQA(2026-06-04)、ATSF のエージェント型時系列予測(2026-06-04)、Cisco TSM の多解像度長コンテキスト(2026-06-04)、TelecomTS のマルチモーダル観測(2026-06-03)が予測を超えた応用を開拓 (supported by: 2026-06-04 ARFBench, ATSF, Cisco TSM entries + 2026-06-03 TelecomTS entry)
## Contradictions or Corrections
- AIOps Survey: arXiv v1 の数値不整合(abstract「183 本」vs 本文/Fig.4「163 本」)を検出し注記。
- STRATUS re-ingest: ITBench 18 問中 8 問で pod restart が fault を消し、undo agent 有無で成績不変——安全仕様(no-regression)と評価の誠実性(正しく直す)は直交する。
- GenAI Production Incidents: エージェント評価ベンチが想定する「1 障害 1 根本原因」構造と本番インシデントの多対多の乖離を定量化。
## Child Pages
- [[2026__arXiv__ARFBench - Benchmarking Time Series Question Answering Ability for Software Incident Response]]
- [[2025__arXiv__Cisco Time Series Model Technical Report]]
- [[2026__arXiv__Towards Robust LLM Post-Training - Automatic Failure Management for Reinforcement Fine-Tuning]]
- [[2024__SOSP__Unearthing Semantic Checks for Cloud Infrastructure-as-Code Programs]]
- [[2025__arXiv__Automated Cloud Infrastructure-as-Code Reconciliation with AI Agents]]
- [[2025__AIOps__Automated Lifting for Cloud Infrastructure-as-Code Programs]]
- [[2026__eunomia.dev__eBPF × AI-LLMs - The Convergence of System Observability and AI]]
- [[2026__arXiv__Position Beyond Model-Centric Prediction - Agentic Time Series Forecasting]]
- [[2025__ASE__LogPilot - Intent-aware and Scalable Alert Diagnosis for Large-scale Online Service Systems]]
- [[2025__arXiv__Rethinking the Evaluation of Microservice RCA with a Fault Propagation-Aware Benchmark]]
- [[2024__ESEC-FSE__MonitorAssistant - Simplifying Cloud Service Monitoring via Large Language Models]]
- [[2026__ICML__TelecomTS - A Multi-Modal Observability Dataset for Time Series and Language Analysis]]
- [[2025__CSUR__A Survey of AIOps in the Era of Large Language Models]]
- [[2026__ICSE__An Empirical Study of Production Incidents in Generative AI Cloud Services]]
- [[2026__ASPLOS__Pulse - Fine-grained and Non-intrusive LLM Training Monitoring via Microsecond-level Traffic Measurement]]
- [[2025__ICML2025__ITBench - Evaluating AI Agents across Diverse Real-World IT Automation Tasks]]
- [[2025__NeurIPS2025__STRATUS - A Multi-agent System for Autonomous Reliability Engineering of Modern Clouds]]
- [[ARFBench]]
- [[Toto-1.0-QA-Experimental]]
- [[LogPilot]]
- [[MonitorAssistant]]
- [[TelecomTS]]
- [[Pulse]]
- [[Zodiac]]
- [[NSync]]
- [[Lilac]]
- [[eBPF]]
- [[GPTtrace]]
- [[AgentSight]]
- [[Kgent]]
- [[RFT-FaultBench]]
- [[RFT-FM]]
- [[Cast-R1]]
- [[TimeCopilot]]
- [[AIOps]]
- [[agentic SRE]]
- [[根本原因分析]]
- [[Fault Localization]]
- [[障害注入]]
- [[障害緩和]]
- [[障害予測]]
- [[異常検知]]
- [[ログ解析]]
- [[Infrastructure as Code]]
- [[設定マイニング]]
- [[強化ファインチューニング]]
- [[エージェント型時系列予測]]
- [[LLM学習モニタリング]]
- [[時系列基盤モデル]]
- [[時系列質問応答]]
- [[Transactional No-Regression]]
- [[インシデント管理]]
- [[テレメトリ]]
- [[Model Context Protocol]]
- [[ITBench]]
- [[CrewAI]]
- [[Terraform]]
- [[Datadog]]
- [[ByteDance]]
- [[Microsoft]]
- [[IBM Research]]
- [[Nanjing University]]
- [[The Chinese University of Hong Kong]]
- [[University of Illinois Urbana-Champaign]]
- [[Peking University]]
- [[Tsinghua University]]
- [[University of Michigan]]
- [[Dan Pei]]
- [[Minghua Ma]]
## Related
- [[DragonScale Memory]] - fold-operator spec
- [[log]] - source entries
- [[index]] - vault catalog