fold-k4-from-2026-06-03-to-2026-06-04-n16

Level-4 fold of 16 log entries spanning 2026-06-03 to 2026-06-04. Dominant themes: AIOps/RCA 評価基盤の深化と「進歩の幻想」の暴露、時系列基盤モデルの予測を超えた応用展開、AIOps の外延拡張（IaC 構成管理・カーネル層 eBPF）。 ## Child Entries | Date | Op | Title | Page | Summary (extractive) | |---|---|---|---|---| | 2026-06-04 | ingest-paper | ARFBench（時系列質問応答ベンチ） | [[2026__arXiv__ARFBench]] | Toto-1.0-QA-Experimental が精度 63.9% で GPT-5（62.7%）に並び、人間専門家との best-of-2 が 87.2% の超人的フロンティアを実現。 | | 2026-06-04 | ingest-paper | Cisco Time Series Model | [[2025__arXiv__Cisco Time Series Model Technical Report]] | TimesFM に特殊トークン・解像度埋め込みを足し、多解像度の長コンテキストを 1/30 の系列長で扱う。観測ドメインで Toto/Chronos-2 を上回る。 | | 2026-06-04 | ingest-paper | RFT 障害管理 | [[2026__arXiv__Towards Robust LLM Post-Training]] | AIOps の検知→診断→修復ライフサイクルを RFT 訓練プロセスへ移植。初の細粒度障害ベンチ RFT-FaultBench と閉ループ RFT-FM を提示。 | | 2026-06-04 | ingest-paper | Zodiac | [[2024__SOSP__Zodiac]] | IaC の semantic gap を KB マイニング + SMT（Z3）の negative test case で埋める。Azure 52 種別・26,000 リポジトリから 510 検証済みチェック。 | | 2026-06-04 | ingest-paper | NSync / Lilac | [[2025__arXiv__NSync]] / [[2025__AIOps__Lilac]] | IaC ライフサイクルを順方向検証（Zodiac）・逆方向 lifting（Lilac）・drift 修復（NSync）の 3 方向で攻め、LLM + symbolic guardrail + 知識ベースに収束。 | | 2026-06-04 | ingest | eBPF × AI/LLMs | [[2026__eunomia.dev__eBPF × AI-LLMs]] | eBPF for AI（AgentSight <3% オーバーヘッド）と AI for eBPF（Kgent 約 80% 意味的正しさ）の双方向共生ループ。wiki 初のカーネル層。 | | 2026-06-04 | ingest-paper | Agentic Time Series Forecasting | [[2026__arXiv__ATSF]] | 時系列予測を perception・planning・action・reflection・memory の反復的意思決定に再定式化。agentic SRE と同型の設計原理。 | | 2026-06-03 | ingest-paper | LogPilot | [[2025__ASE__LogPilot]] | アラート定義の意味的意図でログを絞る intent-aware scoping で LLM 呼び出し 98.71% 削減。wiki 初のログ専門 RCA 一次論文。 | | 2026-06-03 | ingest-paper | Rethinking RCA Evaluation | [[2025__arXiv__Rethinking RCA]] | SimpleRCA が 4 公開ベンチで SOTA に匹敵。9,152 注入の 84.4% が silent fault。RCA の「進歩」はベンチマークの過度な単純さの産物。 | | 2026-06-03 | ingest-paper | MonitorAssistant | [[2024__ESEC-FSE__MonitorAssistant]] | LLM を検知器でなくメタ層（設定推奨・解釈・フィードバック仲介）に限定。「実用的異常」の定義が学術—産業ギャップを明示化。 | | 2026-06-03 | ingest-paper | TelecomTS | [[2026__ICML__TelecomTS]] | 正規化が診断情報を破壊し最大 +30.4pt 劣化。Toto が RCA 0.848 で突出するが、スケール明示エンコードの Mantis が異常検知 F1 で凌駕。 | | 2026-06-03 | ingest-paper | AIOps Survey (LLM era) | [[2025__CSUR__A Survey of AIOps in the Era of LLMs]] | LLM4AIOps 初の包括サーベイ。工程フロー軸を確定し、緩和の自動化 5 段で MicroRemed(Lv4)/Stratus(Lv5) を位置づけ。 | | 2026-06-03 | ingest-paper | GenAI Production Incidents | [[2026__ICSE__GenAI Production Incidents]] | GenAI インシデントは TTM 1.83 倍、人手検知 38.3%（非 GenAI 13.7%）。「1 障害 1 根本原因」構造と本番の多対多の乖離を初めて定量化。 | | 2026-06-03 | ingest-paper | Pulse | [[2026__ASPLOS__Pulse]] | BlueField-3 DPA による on-NIC off-path 計測で overhead ほぼ 0 の microsecond 粒度監視。検知機構が heartbeat→host-metric→traffic の 3 層に拡張。 | | 2026-06-03 | ingest-paper | ITBench | [[2025__ICML2025__ITBench]] | SRE/CISO/FinOps の 102 シナリオで GPT-4o SRE 緩和 11.43%・Hard 緩和 0%。trace ablation で telemetry 選別の重要性を制御変数化。 | | 2026-06-03 | ingest-paper(re-ingest) | STRATUS | [[2025__NeurIPS2025__STRATUS]] | TNR を Alpern–Schneider safety property（Lemma 3.1）として形式確定。AIOpsLab 69.2%・ITBench 50.0%。pod restart 問題（8/18 問）を明確化。 | ## Key Outcomes - ITBench 一次論文と STRATUS re-ingest で [[Transactional No-Regression]] の形式的定義を確定（severity µ の単調非増加を A-Lock/Faithful Undo/Bounded Risk Window で保証、Lemma 3.1）。ただし ITBench 18 問中 8 問で pod restart が fault を消す問題を明確化し、安全仕様と評価の誠実性が直交する横断的知見を記録 (from 2026-06-03 ITBench, STRATUS re-ingest entries) - LLM4AIOps 初の包括サーベイで AIOps の工程フロー軸（データ→タスク→手法→評価）を確定。緩和の自動化 5 段で MicroRemed(Lv4)/Stratus(Lv5) を位置づけ、サーベイの「Lv5 は実効性未検証」の空白を一次ソースが TNR 付きで埋める時間的接続を確認 (from 2026-06-03 AIOps Survey entry) - SimpleRCA が 4 公開ベンチで SOTA に匹敵する事実から RCA の「進歩」をベンチマーク過度単純さの産物と暴き、9,152 注入の 84.4% が silent fault と定量化。新 concept [[障害注入]] の核として定式化 (from 2026-06-03 Rethinking RCA entry) - ARFBench で Toto-1.0-QA-Experimental が精度 63.9% で GPT-5（62.7%）に並び、人間専門家との best-of-2 オラクルが 87.2%・F1 82.8% の超人的フロンティアを実現。TSFM が予測から質問応答へ応用を拡張 (from 2026-06-04 ARFBench entry) - Pulse が BlueField-3 DPA で overhead ほぼ 0 の microsecond 粒度監視を実現し、Minder の「ms 監視は overhead で未展開」制約を on-NIC off-path 計測で解消。検知機構が heartbeat→host-metric→traffic の 3 層に拡張 (from 2026-06-03 Pulse entry) - IaC ライフサイクルを順方向検証（Zodiac: 510 検証済みチェック）・逆方向 lifting（Lilac）・drift 修復（NSync）の 3 方向で同一研究室が攻め、LLM + symbolic guardrail + 知識ベースに収束。AIOps が事後対応の診断から先回りの構成管理へ外延拡張 (from 2026-06-04 Zodiac, NSync/Lilac entries) - eBPF と AI の双方向共生ループを wiki 初のカーネル層として導入。AgentSight が claude code/gemini-cli を <3% オーバーヘッドで追跡し、agentic SRE の「エージェントを観測する側に置く」第 3 の軸を開拓 (from 2026-06-04 eBPF entry) ## Cross-entry Themes - **「情報を絞ってから推論」の骨格がモダリティ横断で通底**: LogPilot（ログを intent-aware で絞り 98.71% 呼び出し削減、2026-06-03）、TelecomTS（正規化がスケール情報を破壊し最大 +30.4pt 劣化、2026-06-03）、MonitorAssistant（LLM をメタ層に限定、2026-06-03）が前バッチの MetricSifter/Bits AI SRE と同型の設計原理を独立に実証 (supported by: 2026-06-03 LogPilot, TelecomTS, MonitorAssistant entries) - **RCA ベンチマークの「進歩の幻想」が複数角度から暴かれる**: SimpleRCA の SOTA 匹敵（Rethinking RCA、2026-06-03）、ITBench の pod restart 問題（8/18 問、2026-06-03）、GenAI インシデントの多対多構造（TTM 1.83 倍、2026-06-03）が、ベンチマーク設計の前提を問い直す (supported by: 2026-06-03 Rethinking RCA, ITBench, STRATUS, GenAI Production Incidents entries) - **AIOps の外延がアプリ層から構成管理（IaC）とカーネル層（eBPF）の両方向へ拡張**: Zodiac/NSync/Lilac（2026-06-04）が事後診断から先回りの構成管理へ、eBPF × AI（2026-06-04）がアプリ層からカーネル層へ。従来のメトリクス/ログ/トレース中心の AIOps の境界が根本から広がる (supported by: 2026-06-04 Zodiac, NSync/Lilac, eBPF entries) - **時系列基盤モデルの応用が予測から質問応答・エージェント設計へ拡張**: ARFBench の TSQA（2026-06-04）、ATSF のエージェント型時系列予測（2026-06-04）、Cisco TSM の多解像度長コンテキスト（2026-06-04）、TelecomTS のマルチモーダル観測（2026-06-03）が予測を超えた応用を開拓 (supported by: 2026-06-04 ARFBench, ATSF, Cisco TSM entries + 2026-06-03 TelecomTS entry) ## Contradictions or Corrections - AIOps Survey: arXiv v1 の数値不整合（abstract「183 本」vs 本文/Fig.4「163 本」）を検出し注記。 - STRATUS re-ingest: ITBench 18 問中 8 問で pod restart が fault を消し、undo agent 有無で成績不変——安全仕様（no-regression）と評価の誠実性（正しく直す）は直交する。 - GenAI Production Incidents: エージェント評価ベンチが想定する「1 障害 1 根本原因」構造と本番インシデントの多対多の乖離を定量化。 ## Child Pages - [[2026__arXiv__ARFBench - Benchmarking Time Series Question Answering Ability for Software Incident Response]] - [[2025__arXiv__Cisco Time Series Model Technical Report]] - [[2026__arXiv__Towards Robust LLM Post-Training - Automatic Failure Management for Reinforcement Fine-Tuning]] - [[2024__SOSP__Unearthing Semantic Checks for Cloud Infrastructure-as-Code Programs]] - [[2025__arXiv__Automated Cloud Infrastructure-as-Code Reconciliation with AI Agents]] - [[2025__AIOps__Automated Lifting for Cloud Infrastructure-as-Code Programs]] - [[2026__eunomia.dev__eBPF × AI-LLMs - The Convergence of System Observability and AI]] - [[2026__arXiv__Position Beyond Model-Centric Prediction - Agentic Time Series Forecasting]] - [[2025__ASE__LogPilot - Intent-aware and Scalable Alert Diagnosis for Large-scale Online Service Systems]] - [[2025__arXiv__Rethinking the Evaluation of Microservice RCA with a Fault Propagation-Aware Benchmark]] - [[2024__ESEC-FSE__MonitorAssistant - Simplifying Cloud Service Monitoring via Large Language Models]] - [[2026__ICML__TelecomTS - A Multi-Modal Observability Dataset for Time Series and Language Analysis]] - [[2025__CSUR__A Survey of AIOps in the Era of Large Language Models]] - [[2026__ICSE__An Empirical Study of Production Incidents in Generative AI Cloud Services]] - [[2026__ASPLOS__Pulse - Fine-grained and Non-intrusive LLM Training Monitoring via Microsecond-level Traffic Measurement]] - [[2025__ICML2025__ITBench - Evaluating AI Agents across Diverse Real-World IT Automation Tasks]] - [[2025__NeurIPS2025__STRATUS - A Multi-agent System for Autonomous Reliability Engineering of Modern Clouds]] - [[ARFBench]] - [[Toto-1.0-QA-Experimental]] - [[LogPilot]] - [[MonitorAssistant]] - [[TelecomTS]] - [[Pulse]] - [[Zodiac]] - [[NSync]] - [[Lilac]] - [[eBPF]] - [[GPTtrace]] - [[AgentSight]] - [[Kgent]] - [[RFT-FaultBench]] - [[RFT-FM]] - [[Cast-R1]] - [[TimeCopilot]] - [[AIOps]] - [[agentic SRE]] - [[根本原因分析]] - [[Fault Localization]] - [[障害注入]] - [[障害緩和]] - [[障害予測]] - [[異常検知]] - [[ログ解析]] - [[Infrastructure as Code]] - [[設定マイニング]] - [[強化ファインチューニング]] - [[エージェント型時系列予測]] - [[LLM学習モニタリング]] - [[時系列基盤モデル]] - [[時系列質問応答]] - [[Transactional No-Regression]] - [[インシデント管理]] - [[テレメトリ]] - [[Model Context Protocol]] - [[ITBench]] - [[CrewAI]] - [[Terraform]] - [[Datadog]] - [[ByteDance]] - [[Microsoft]] - [[IBM Research]] - [[Nanjing University]] - [[The Chinese University of Hong Kong]] - [[University of Illinois Urbana-Champaign]] - [[Peking University]] - [[Tsinghua University]] - [[University of Michigan]] - [[Dan Pei]] - [[Minghua Ma]] ## Related - [[DragonScale Memory]] - fold-operator spec - [[log]] - source entries - [[index]] - vault catalog