# Recent Context Navigation: [[index]] | [[log]] | [[overview]] ## Last Updated 2026-06-03: [[2026__MLSys2026__SAKURAONE - An Open Ethernet-Based AI HPC System]](Konishi+, [[SAKURA Internet]] Research Center, MLSys 2026 採録 / arXiv:2604.13600)を ingest(14 ソース目)。source 1 + entity 3([[Fumikazu Konishi]] / [[SAKURAONE]] / [[SONiC]])+ concept 2([[オープンネットワーキング]] / [[GPUクラスタ運用]])= 6 ページ作成、既存 entity 3([[Yuuki Tsubouchi]] / [[Hirofumi Tsuruta]] / [[SAKURA Internet]])・concept 2([[LLM分散学習]] / [[並列化戦略]])を更新。**vault 所有者 [[Yuuki Tsubouchi]] の共著・本 wiki 初の HPC/open networking 一次論文**。これまでの ML systems クラスタ([[2024__NSDI__MegaScale - Scaling Large Language Model Training to More Than 10,000 GPUs]] / [[2026__Vicinagearth__Efficient Training of Large Language Models on Distributed Infrastructures - A Survey]])が hyperscale(1 万 GPU 級)の効率・並列化を扱うのに対し、SAKURAONE は **mid-scale(800 GPU)・単一テナント**の経験報告で、(1)SONiC + RoCEv2 のフルオープン 800 GbE で TOP500 HPL 49 位・トップ 100 唯一・NVIDIA Eos(InfiniBand)比 time-to-train 1.02–1.26× を達成し open Ethernet が InfiniBand 級効率に届くことを実証、(2)単一プロジェクト LLM 開発のワークロード動態(小規模が件数 76.9%・大規模 17 ノード以上が GPU 時間 73.3% を支配、cancellation が GPU 時間 73.5%、CPT→fine-tuning のフェーズ遷移、3 ヶ月 21 fault の 42.9% が GPU 起因で大半 node-restart 復旧)を telemetry から定量化。横断的知見: MFU 35.9–41.2% は hyperscale 固有でなく mid-scale でも再現すること、Reliability の「hardware 起因 dominant」が 800 GPU 規模でも成立すること、interconnect は proprietary 前提でなくフルオープンでも SER を満たせること([[LLM分散学習]]/[[並列化戦略]] に追記)。 2026-06-03: [[2024__NSDI__MegaScale - Scaling Large Language Model Training to More Than 10,000 GPUs]](Jiang+, [[ByteDance]]/[[Peking University]], NSDI '24)を ingest(13 ソース目)。source 1 + entity 6([[MegaScale]] / [[ByteDance]] / [[Megatron-LM]] / [[Ziheng Jiang]] / [[Xin Jin]] / [[Xin Liu]])= 7 ページ作成、既存 concept 2([[LLM分散学習]] / [[並列化戦略]])を seed→developing に更新。**ML systems クラスタの一次論文 1 例目**で、直前に入れた LLM 訓練サーベイ([[2026__Vicinagearth__Efficient Training of Large Language Models on Distributed Infrastructures - A Survey]])の taxonomy を本番システムで裏取りする位置づけ。algorithm-system co-design(parallel transformer block / SWA / LAMB + 各並列化次元固有の通信オーバーラップ)と in-depth observability(CUDA event monitor の heat-map・3D parallel 可視化)で、175B を 12,288 GPU・**55.2% MFU**(Megatron-LM 比 1.34×)。256 GPU ablation は 47.7%→65.3% で累計 +17.6%、最大寄与は 3D-parallel 通信オーバーラップ(+6.2%)。安定性は robust training framework(heartbeat→自己診断→evict→checkpoint 復旧)+ 2 段階 checkpoint(host memory 数秒書き + 非同期 HDFS)で、数週間の本番 run で **100 回超の自動復旧**・障害の 90% 超を自動修復・有効訓練時間率 90% 超。横断的知見: サーベイの「数万 GPU で MFU 40% 前後」は宿命でなく co-design で押し戻せる設計問題であること、訓練クラスタの straggler 診断が本番サービス AIOps と同型の distributed-view 課題であることを 2 ソースの突き合わせで明記。 2026-06-03: [[2026__Vicinagearth__Efficient Training of Large Language Models on Distributed Infrastructures - A Survey]](Duan+, [[Shanghai AI Laboratory]] ほか, arXiv:2407.20018 / Vicinagearth Vol.3 (2026), 42p)を ingest(12 ソース目)。source 1 + entity 3([[Shanghai AI Laboratory]] / [[Jiangfei Duan]] / [[Peng Sun]])+ concept 3([[LLM分散学習]] / [[並列化戦略]] / [[Mixture-of-Experts]])= 7 ページ作成。**本 wiki 初の LLM 訓練インフラ・別ドメイン**で、これまでの AIOps/SRE/observability/時系列クラスタとは独立した「ML systems(LLM を数万 GPU で訓練するシステム)」クラスタを新設。LLM 訓練の課題を **SER(Scalability/Efficiency/Reliability)** の 3 軸に整理し、インフラ(accelerator/network/storage/scheduling)・並列化(hybrid=data/tensor/pipeline/sequence/expert、auto、heterogeneous)・計算/メモリ/通信最適化・fault tolerance の 4 層で数百の引用研究を体系分類。代表的な定量値: LLaMA3 は 16,384 H100 で MFU 38〜41%、54 日訓練で 466 回中断・障害の 78% が hardware 起因。ZeRO は model states を 16Φ→16Φ/N に削減。future direction は optical computing / optical network(silicon photonics)。**既存クラスタとの接点**は §8.2 anomaly detection(GPU heartbeat/DCGM 監視・straggler 検出)と §8.1 failure analysis で、運用 observability([[テレメトリ]]/[[Fault Localization]])と「異常検知/failure 起因分析」の語彙を共有するが、対象は本番サービスでなく訓練クラスタのハードウェア健全性([[LLM分散学習]] 横断的知見に明記)。 2026-06-03: [[2025__Kyoto University__Scaling Telemetry Workloads in Cloud Applications - Techniques for Instrumentation, Storage, and Mining]]([[Yuuki Tsubouchi]] の京都大学博士論文, 2025-03, 112p)を ingest(11 ソース目)。source 1 + entity 6([[HeteroTSDB]] / [[go-conntracer-bpf]] / [[Mackerel]] / [[Hatena]] / [[Kyoto University]] / [[Ryosuke Matsumoto]])+ concept 3([[テレメトリ]] / [[時系列データベース]] / [[分散トレーシング]])= 10 ページ作成、既存 [[Yuuki Tsubouchi]] / [[特徴量削減]] / [[Fault Localization]] を更新。**vault 所有者自身の博士論文 2 例目**で、既取り込みの [[MetricSifter]](= 本論文 Chapter 5 = mining 層)の足元を埋める。telemetry を **instrumentation / storage / mining の 3 層**で捉え、既発表 3 編(in-kernel flow bundling / HeteroTSDB / MetricSifter)を統合。これまで wiki の AIOps/SRE ソースは telemetry を「読んで」診断する mining 層に偏在していたが、本論文はその下層——path-oriented データの低オーバーヘッド収集([[分散トレーシング]]: eBPF で同一宛先 flow を束ね CPU < 2.2%)と time-oriented データの大規模保持([[時系列データベース]]: [[HeteroTSDB]] が memory/disk KVS を TTL tiering、KairosDB 比 3.98 倍)——を埋める。中核の横断的知見: §6.2 設計指針「データ削減は文脈が豊富な両端(instrumentation・mining)で行い、storage は context 非依存に」が、[[特徴量削減]]([[MetricSifter]])と LLM エージェントの telemetry 過剰消費病理([[Bits AI SRE]]/[[AIOpsLab]] §3.6)を貫く「情報を絞る」骨格を、収集の最上流まで一般化する。future direction の「LLM 向け failure snapshot 生成」が [[根本原因分析]] のノイズ削減と同型で接続。 2026-06-03: [[2024__IEEE Access__MetricSifter - Feature Reduction of Multivariate Time Series Data for Efficient Fault Localization in Cloud Applications]](MetricSifter, [[Yuuki Tsubouchi]]/[[Hirofumi Tsuruta]], IEEE Access 2024, DOI:10.1109/ACCESS.2024.3374334)を ingest(10 ソース目)。source 1 + entity 7([[Yuuki Tsubouchi]] / [[Hirofumi Tsuruta]] / [[SAKURA Internet]] / [[MetricSifter]] / [[Meltria]] / [[Sock Shop]] / [[PyRCA]])+ concept 3([[Fault Localization]] / [[特徴量削減]] / [[変化点検知]])= 11 ページ作成、既存 [[根本原因分析]] / [[AIOps]] / [[Train-Ticket]] を更新。**本 wiki 初の vault 所有者自身の論文かつ pre-LLM の古典統計手法**。これまで 2025–2026 の LLM エージェント論文一色だった所に、2024 年の change point detection + KDE + 因果探索による fault localization の前処理([[特徴量削減]])を追加。中核の横断的知見: MetricSifter が示す「無関係メトリクス $M_C$ がノイズとして localization を阻害する」課題が、後年 [[Bits AI SRE]]/[[AIOpsLab]] §3.6 が LLM エージェントで観測した「telemetry 過剰消費で性能が落ちる」病理と同型——情報を絞ってから診断する、という骨格が手法世代を超えて連続する。 2026-06-03: [[2026__arXiv__Falcon-X - A Time Series Foundation Model for Heterogeneous Multivariate Modeling]](Falcon-X, Ant International, arXiv:2605.27286)を ingest(9 ソース目)。source 1 + entity 5([[Falcon-X]] / [[Ant International]] / [[Chronos-2]] / [[GIFT-Eval]] / [[fev-bench]])+ concept 1([[多変量時系列予測]])= 7 ページ作成、既存 [[時系列基盤モデル]] を更新。**TSFM 2 ソース目**で、[[Toto]]/[[BOOM]] に続く時系列予測軸。Toto が「観測データ特化」を強みにしたのに対し Falcon-X は「異種多変量の cross-variate モデリング」を主眼に据え、変量を raw 空間から latent prototype 空間へ decouple。Differential attention で正負(相乗的・拮抗的)の依存を表現し、[[Chronos-2]] の group attention を semantic collapse と批判。観測系データ(alibaba_cluster_trace・BOOMLET 等)も含むが SRE 下流タスクは未評価。新 concept [[多変量時系列予測]] に cross-variate 方式(flatten/factorized/group/prototype routing)の横断比較を集約。 2026-06-03: [[2025__NeurIPS2025__This Time is Different - An Observability Perspective on Time Series Foundation Models]](Toto/BOOM, NeurIPS 2025, arXiv:2505.14766)を ingest(8 ソース目)。source 1 + entity 4([[Toto]] / [[BOOM]] / [[Ameet Talwalkar]] / [[Carnegie Mellon University]])+ concept 1([[時系列基盤モデル]])= 6 ページ作成、既存 [[Datadog]] を更新。**wiki 初の純 ML(時系列予測)ソース**で、これまでの AIOps/SRE エージェント系列とは別軸。ただし出所は [[Datadog]] で 3 例目の同社ソース——SRE エージェント([[Bits AI SRE]])の足元にある**観測 telemetry の予測モデル**という形で接続する。観測データが一般時系列と統計的に異なる(KPSS・skew・spectral entropy 等が極端)ことを定量化し、専用アーキテクチャ(causal scaling・factorized attention・Student-T mixture・robust loss)で zero-shot SOTA を達成。 2026-06-03: [[2026__Datadog__Building Bits AI SRE - Autonomous Incident Investigation Agent]](Datadog blog, datadoghq.com)を ingest(7 ソース目)。source 1 + entity 2([[Datadog]] / [[Bits AI SRE]])+ concept 1([[根本原因分析]])= 4 ページ作成、既存 3 concept([[agentic SRE]] / [[SRE Benchmark]] / [[AIOps]])を更新。**産業界 2 例目の一次情報**。[[Google]] が全ライフサイクル+自律緩和を語るのに対し Datadog は**調査・RCA 段に特化**(緩和は将来の specialist agent 統合に委ねる)。AIOps 4-level taxonomy で唯一 concept 未作成だった **RCA(第 3 段)** を [[根本原因分析]] として新設し、hypothesis-driven investigation・causal focus・recursive depth を骨格に据えた。 2026-06-03: [[2026__GoogleSRE__AI in SRE - Engineering the Future of Reliable Operations]](Google SRE の AI-Ops whitepaper, sre.google)を ingest(6 ソース目)。source 1 + concept 1([[SRE AI Autonomy Levels]])+ entity 5([[Google]] / [[AI Operator]] / [[Actus]] / [[Detectr]] / [[Model Context Protocol]])= 7 ページ作成、既存 5 concept([[agentic SRE]] / [[Transactional No-Regression]] / [[SRE Benchmark]] / [[AIOps]] / [[障害予測]])を更新。**本 wiki 初の産業界・本番運用一次情報**。学術ベンチ一色だった所に「自律度の段階化(L0–L4)」「Safety Trifecta / ガードレール」「Bronze/Silver/Gold 評価」という実運用の枠組みを追加。 2026-06-03: [[2025__arXiv__MicroRemed - Benchmarking LLMs in Microservices Remediation]](arXiv:2511.01166, PKU/Alibaba)を ingest(5 ソース目)。source 1 + entity 9([[MicroRemed]] / [[ThinkRemed]] / [[Ansible]] / [[Train-Ticket]] / [[Online-Boutique]] / [[Lingzhe Zhang]] / [[Tong Jia]] / [[Peking University]] / [[Alibaba Group]])+ concept 1([[障害緩和]])= 11 ページ作成、既存 3 concept([[AIOps]] / [[agentic SRE]] / [[SRE Benchmark]])を更新。AIOps 4-level taxonomy の最上位 **Mitigation(緩和)** を専門ベンチ化した初例として [[障害緩和]] 軸を新設。 2026-06-03: [[2026__AAAI__PAGER - Proactive Monitoring Agent for Enterprise AI Assistant]](AAAI-26 デモ; CAIS 2026; DOI:10.1609/aaai.v40i48.42344)を ingest(4 ソース目)。source 1 + entity 4([[PAGER]] / [[Adobe Experience Platform]] / [[Adobe]] / [[Yunyao Li]])+ concept 1([[障害予測]])= 6 ページ作成、[[AIOps]] を更新。これまで reactive 一色だった wiki に **proactive な障害予測**の軸を追加。 2026-06-03: [[2025__NeurIPS2025__STRATUS - A Multi-agent System for Autonomous Reliability Engineering of Modern Clouds]](NeurIPS 2025 poster, arXiv:2506.02009)を ingest(3 ソース目)。source 1 + concept 1([[Transactional No-Regression]])+ entity 1([[Saurabh Jha]])= 3 ページ作成、既存 7 ページ([[Stratus]] / [[agentic SRE]] / [[SRE Benchmark]] / [[AIOpsLab]] / [[ITBench]] / [[Yinfang Chen]] / [[Tianyin Xu]])を更新。これまで二次情報だった [[Stratus]] を一次ソース化。 ## Key Recent Facts - [[SAKURAONE]]([[SAKURA Internet]], MLSys 2026)は 100 ノード × 8 H100 = 800 GPU のオープン Ethernet AI–HPC クラスタ。ネットワークは rail-optimized leaf–spine の 800 GbE(2× 400 GbE)・RoCEv2、Edgecore AIS800-64O(Broadcom Tomahawk 5)上で [[SONiC]] を運用——TOP500 トップ 100 唯一のフルオープン networking stack。ベンチ: HPL 33.95 PFLOP/s(per-GPU 効率 78.3%)、HPCG 396.295 TFLOP/s、HPL-MxP(FP8)339.86 PFLOP/s。MLPerf GPT-3 175B(unverified)は 96 ノードで time-to-train 41.86 分・MFU 35.9%、NVIDIA Eos(DGX H100 SuperPOD, InfiniBand)比 1.02–1.26×。 - [[SAKURAONE]] のワークロード動態(June 2024–March 2025 の日本語 medical-LLM プロジェクト、単一テナント排他運用): (1)small-job が件数 76.9% を占めるが GPU 時間は 1.8%、17 ノード以上は件数 3.3% で GPU 時間 73.3%(Jeon 2019/Kokolis 2025 と整合の long-tail)。(2)cancellation が GPU 時間 73.5%(loss curve を見た早期終了=適応的制御)、FAILED は GPU 時間 0.3%。(3)17–32 ノードジョブ(CPT)は median GPU 利用率 98.4%、1–2 ノードは 23.4%/17.7%。(4)mid-Jan–Mar の大規模 CPT → mid-Feb 以降の中規模 fine-tuning へフェーズ遷移。(5)3 ヶ月 21 fault のうち GPU 関連 42.9%・interconnect switch 23.8%・NVLink/PCIe 19.0%、10/21 が node-restart 復旧、MTTF/MTTR は記録精度不足で非報告。 - **裏取り(open Ethernet × hyperscale 前提)**: [[MegaScale]]/サーベイが暗黙に高品質 interconnect(自社 network/InfiniBand 級)を前提とするのに対し、SAKURAONE は SONiC + RoCEv2 のフルオープン 800 GbE で Eos(InfiniBand)比 time-to-train 1.02–1.26× を達成。interconnect の選択自由度が Efficiency を致命的に損なわないことを実証する一方、ECN/PFC/NCCL channel striping の cross-layer チューニングという運用負荷を代償に要する([[オープンネットワーキング]]、ECN min/max=2MB/10MB・marking prob 1% は Table 15)。 - **連続(MFU・Reliability の規模依存)**: MFU 38–41% はサーベイ LLaMA3(16K H100)・MegaScale co-design(55.2%)・SAKURAONE mid-scale(35.9–41.2%, 800 GPU)の 3 ソースで、GPU 数より並列化構成・通信隠蔽・interconnect 品質が支配要因と確認([[LLM分散学習]])。Reliability の「hardware 起因 dominant」も LLaMA3 78%・SAKURAONE 42.9%(GPU)で連続し、規模を下げると件数も復旧コストも縮む(大半 node-restart)。 - **同じ GPT-3 175B でも 3D 配分は組織で違う**: MegaScale は TP=8/PP=8、SAKURAONE は PP=16 を厚く取り node 数で TP=4→8・DP=4→8→6・VP=6 を可変化。だが「TP を node 内 NVLink・DP/PP を node 間」の通信局所性原則は共通(SAKURAONE は PP の SendRecv が NCCL 時間の 91.2%、Table 10)。PP を厚くすると cross-pod topology が通信比率に直接効き、96 ノードで MFU 35.9% へ低下([[並列化戦略]])。 - [[MegaScale]]([[ByteDance]]/[[Peking University]], NSDI '24)は 10,000 GPU 超で LLM を訓練する本番システム。2 原則 = algorithm-system co-design + in-depth observability。効率: 175B・12,288 GPU で 55.2% MFU([[Megatron-LM]] 比 1.34×、530B weak-scaling では最大 +6.1% MFU)。ablation(256 GPU, Table 3): baseline 47.7% → PTB+SWA(algorithm)→ TP/PP/DP overlap(+6.2% で最大寄与)→ efficient operators → misc → LAMB(BS×3)で 65.3%(累計 +17.6%)。手法の柱: parallel transformer block(attention/MLP 並列)・sliding window attention(O(s·w))・LAMB(batch 4×、pipeline bubble -87.5%)・各並列化次元固有の通信オーバーラップ(DP=all-gather prefetch / TP・SP=FFN Linear と fuse し GEMM chunk 化 / PP=send-receive 分離)・collective 初期化 O(n²)→O(n)(TCPStore→Redis、2048 GPU で 1047s→5s 未満)・network チューニング(Tomahawk 4 CLOS、ECMP 衝突低減、Swift+DCQCN)。 - [[MegaScale]] の安定性(本番 run、数週間・10,000 GPU 超・数千億パラメータ・multi-trillion トークン): robust training framework が driver–executor の heartbeat で異常検知→自己診断テスト→faulty ノードを Kubernetes で evict→最新 checkpoint 復旧。**100 回超 restart しつつ loss 収束**、障害の 90% 超を自動検知・特定・復旧、検知+診断 平均 10 分未満・追いつき 15 分以内で有効訓練時間率 90% 超。2 段階 checkpoint(GPU→host memory 数秒、背景で HDFS 非同期)+ data parallel group 内で state を 1 worker が読み broadcast し復旧帯域を緩和。 - **裏取り(survey × 本番システム)**: サーベイ([[2026__Vicinagearth__Efficient Training of Large Language Models on Distributed Infrastructures - A Survey]])が LLaMA3 で MFU 38〜41% と報告するのに対し、MegaScale は同規模帯で 55.2% を実測。SER の Efficiency 軸は「数万 GPU では 40% 前後に落ちる宿命」ではなく **algorithm-system co-design でどこまで押し戻せるかという設計問題**であることが 2 ソースで確定([[LLM分散学習]]/[[並列化戦略]] 横断的知見)。サーベイが体系化する 4 並列化次元・通信局所性(TP は node 内 / DP・PP は node 間)を MegaScale も同じ理由で本番採用。 - **同型(訓練クラスタ診断 vs 本番サービス AIOps)**: MegaScale §5 は単一 GPU の GEMM micro-benchmark では straggler を検出できず、CUDA event の heat-map と DP/PP/TP の distributed timeline trace で初めて root cause を特定。これは [[分散トレーシング]]/[[Fault Localization]] が本番マイクロサービスで論じる「単一ノード視点では見えず分散 view の相関で起因特定」と同型——対象(訓練 HW vs service)は違えど診断方法論を共有する。 - [[Falcon-X]]([[Ant International]], arXiv:2605.27286, 2026)は 591M の encoder-only [[時系列基盤モデル]]。異種多変量を raw 空間から固定 C 次元の latent prototype 空間へ decouple する点が中核。3 機構: Unified Prototype Diff-Attention(正負 prototype Kpos/Kneg の differential attention で signed dependence を表現、複雑度を O(M²)→O(M·C) に線形化)/ Latent Entity Attention(統一空間で大域 cross-variate 相互作用、zero-shot 転移)/ Variate Reassembly Router(request-and-dispatch + gated residual で物理次元へ再構成)。[[GIFT-Eval]] で 0.666 MASE/0.453 CRPS の全体最高(Toto-2.0-FT 比 +1.9% MASE、Timer-S1 比 +3.9% MASE)。長期ホライズンで優位拡大(長期 0.70 MASE vs Chronos-2 0.76)。[[fev-bench]] では covariate を使う [[Chronos-2]](0.645)に僅差で次点(0.652、endogenous のみ)。59M→591M で neural scaling law に従う。アブレーションで Kneg 除去が最大の性能低下=負の affinity が必須。 - **対比([[Toto]] vs [[Falcon-X]] の強みの置き方)**: Toto は decoder-only(151M)で「観測データ特化」(causal scaling・factorized attention・Student-T mixture)を強みにする。Falcon-X は encoder-only(591M)で「異種多変量の cross-variate モデリング」(latent prototype + signed dependence)を主眼に据える。両者とも univariate TSFM の限界を出発点にするが、Toto は事前学習データの分布(観測 telemetry 43%)、Falcon-X はアーキテクチャ(prototype 整列)で差別化。詳細は [[多変量時系列予測]]。 - **収斂(benchmark 相互参照)**: Falcon-X が評価に使う [[fev-bench]] は、Datadog の [[BOOM]] の部分集合 BOOMLET(1 分以上周波数の観測系列)を内包。Datadog が出した観測 benchmark が第三者(Ant International)のモデル評価に組み込まれ始めた。[[GIFT-Eval]]・MASE・CRPS が TSFM 評価の共通軸として両ソースで定着。 zero-shot 時系列予測基盤モデル([[時系列基盤モデル]])。decoder-only + 4 専用要素(patch-based causal instance normalization / proportional factorized attention(time:variate=11:1)/ Student-T mixture head / composite robust loss)。事前学習 2.36 兆点(43% が Datadog 匿名観測メトリクス、主要 TSFM の4〜10倍)。benchmark [[BOOM]] で CRPS 次点(Moirai-Base)比12.4%・MASE 13.1% 改善、GIFT-Eval(Rank 5.495)・LSF でも zero-shot SOTA。重み/コード/データを Apache 2.0 公開。 - [[BOOM]] は実運用 telemetry のみの観測時系列 benchmark(2,807系列・約3.5億点・系列あたり variates 中央値60)。production(Toto 訓練)と staging(BOOM 評価)を分離し汚染を排除。§4.3 で ACF/ARCH-LM/spectral entropy/KPSS/flat spots/skew の6統計が GIFT-Eval・LSF より極端と定量化——観測データは非定常・不規則・裾が重い。 - **接続(Datadog 3 例目・足元の予測層)**: 既存 2 ソースは [[Datadog]] の自律 SRE エージェント [[Bits AI SRE]](調査・RCA)だったが、本ソースはその下の**観測 telemetry を予測するモデル層**。両者とも「Datadog 保有の production telemetry の規模」が強みの源泉(Bits AI SRE は調査の文脈、Toto は事前学習コーパスの規模)。観測データの予測精度向上は下流の異常検知・[[障害予測]]・キャパシティ計画に効きうるが、本論文は予測精度のみ評価し下流 SRE タスクへの寄与は未検証。 - **対比(指標文化)**: AIOps/SRE 系ソースが TTR/MTTM やタスク正答率で語るのに対し、Toto は MASE/CRPS/Rank という時系列予測の標準指標で SOTA を主張。同じ Datadog でも製品ブログ([[Bits AI SRE]])と査読論文(Toto)で立証の作法が異なる。 - [[Bits AI SRE]]([[Datadog]] blog)は production incident を **hypothesis-driven** に調査して RCA を生成する自律エージェント。4 段ループ(alert→context 収集→live telemetry で hypothesis 検証→再定式化→RCA)+ causal relationship focus(初期版の 12+ tool call による context overload を回避)+ recursive depth(sub-hypothesis 分解で深掘り)。TTR を最大 95% 削減と主張。multi-layer root cause 例: CrashLoopBackOff → OOM → large Kafka payloads → inefficient parsing。評価は数百件の real production incident の archived telemetry を再生し LLM judge で pass/fail 採点(人間整合)。 - **符合(産業の評価機構)**: Datadog の「実インシデント再生 + LLM judge」は [[Google]] の Continuous Nightly Evals + LLM-as-a-Judge と同骨格。産業 2 例が「合成 fault でなく過去の実インシデントを再生し LLM judge で人間整合の pass/fail を出す」評価に収束([[SRE Benchmark]])。 - **分化(産業実装の被覆段)**: 産業一次情報が 2 例に増え攻める段が分かれた。[[Google]] の [[AI Operator]] は detection→mitigation→actuation まで踏み込み L2/L3 自律緩和を主張、[[Datadog]] の [[Bits AI SRE]] は調査・RCA 段に特化し緩和は将来統合。AIOps 4-level の各段が専門エージェント/ベンチに分化([[AIOps]]・[[根本原因分析]])。 - **テンション継続**: Datadog の TTR 最大 95% 減・Google の MTTM 削減はいずれも本番の operational metric で、学術ベンチのタスク正答率(最高 6 割前後)とは別の量を測り直接比較できない。産業 2 例目が出ても能力天井 vs 本番実績のギャップは埋まらず([[agentic SRE]] の contradiction)。 - [[2026__GoogleSRE__AI in SRE - Engineering the Future of Reliable Operations]](著者 Papapanagiotou ら, [[Google]])は本番運用への AI 導入を **[[SRE AI Autonomy Levels]](L0–L4)** で統治する産業 whitepaper。5 軸(Monitor/Investigate/Mitigate/Actuate/Self-Direct)の自動化度でレベルを定義し、昇格を実証された信頼性に紐づける。推論([[AI Operator]], L2/L3 稼働)と actuation([[Actus]]: dry-run・"Red Button")を分離し安全制御をモデル進化から独立させる。評価は Bronze/Silver/Gold の品質階層 + Continuous Nightly Evals + LLM-as-a-Judge。[[Detectr]] は user feedback から outage を検知、MCP([[Model Context Protocol]])で本番ツールを標準接続。実績: InvD で MTTM 44% 減・ML 異常検知で findings 195% 増・Incident Hypothesis で MTTM 10% 減。 - **テンション(産業 vs 学術)**: Google は L2/L3 の自律緩和を Cloud/Ads/YouTube/Search で**本番稼働**と主張するが、[[SREGym]]・[[AIOpsLab]] はフロンティアモデルでも mitigation が最高 6 割前後・5〜20 step で saturate と報告。軽微インシデント限定+重厚なガードレールという運用設計の差か、自律度 vs タスク正答率という指標の差か。[[agentic SRE]] に contradiction callout を設置。 - **符合(安全工学)**: Google の dry-run/Red Button/[[Actus]] は、[[Stratus]] が形式化した安全仕様 [[Transactional No-Regression]] の産業実装に相当。安全に試して止める/巻き戻すことが、産業・学術の双方で自律度を上げる前提。 - **符合(評価)**: Google の LLM-as-a-Judge(自動 action を Golden Data と比較)は [[SREGym]] の checklist-based LLM-as-a-judge と同機構。oracle が exact-match → topology-aware → LLM-judge と進化する流れが産業の continuous eval でも再現。 - [[MicroRemed]](arXiv:2511.01166, PKU/Alibaba)は **end-to-end microservice remediation(E2E-MR)** を測る初のベンチマーク。診断レポートから LLM に実行可能な [[Ansible]] playbook を直接生成させ、実環境で実行して回復を検証する閉ループ。7 failure type × 3 システム([[Train-Ticket]]・[[Online-Boutique]]・Simple-Micro)で 421 fault–recovery pair。reference 手法は SoloGen(one-shot)と [[ThinkRemed]](4 エージェント multi-agent)。9 LLM 評価で最強 Qwen3-Plus でも最易レベルで 50% 未満。 - [[ThinkRemed]] の ablation: reflection(除去で平均 -7.16%)が probe agent(除去で -1.57%)より緩和精度への寄与が大きく、過剰 probing はノイズで精度を下げる場合がある。「反復と反省」が緩和性能の源泉という像が [[Stratus]](undo-and-retry / TNR)・[[SREGym]] と独立に一致。 - 軸の追加: AIOps の 4-level taxonomy(detection→localization→RCA→**mitigation**)で最上位の Mitigation を、AIOpsLab/SREGym は全体評価の 1 要素に置くのに対し、MicroRemed は緩和だけを切り出し専門ベンチ化([[障害緩和]] 軸)。chaos injection([[ChaosMesh]])を緩和評価に積極採用する点で SREGym(RCA のため chaos を避ける)と立場が分岐。 - [[PAGER]](AAAI-26 デモ, Adobe)は [[Adobe Experience Platform]] 向けの **proactive** な障害予測エージェント。ingestion→segmentation→journey の段階間ジョブの時間的重複(overlap)を 2 つの random forest で予測(F1 67.8 / 57.5)し、Shapley+LLM で自然言語説明、会話 UI で support engineer を支援。予測本体は古典 ML、LLM は説明・NL2SQL・RAG・対話のインターフェース層に限定。 - 軸の追加: 既存 wiki の [[AIOps]]/[[agentic SRE]] は detection→localization→RCA→mitigation の **reactive**(障害発生後)ライフサイクル一色だった。PAGER はその手前に [[障害予測]](障害発生前)を置き、RCACopilot・ReAct を「reactive」と明示批判。reactive↔proactive の対比が新しい横断軸。 - [[Stratus]](STRATUS, NeurIPS'25)は failure detection/diagnosis/mitigation の専門 agent を **state machine** で編成した自律 SRE の multi-agent system。安全仕様 [[Transactional No-Regression]] (TNR) を形式化し、[[AIOpsLab]]・[[ITBench]] の mitigation 成功率で SOTA を各種モデルで**少なくとも 1.5 倍**上回ると主張。著者は [[Yinfang Chen]](第一)〜[[Tianyin Xu]](最終)の 10 名で、[[Saurabh Jha]]([[ITBench]] 主導著者)を含む。 - 符合: SREGym が観測した「STRATUS(Sonnet-4.6)最強は undo-and-retry ゆえ」は、一次論文の安全仕様 [[Transactional No-Regression]] と整合(ベンチ観測とエージェント設計原理の一致)。 - [[AIOpsLab]] は AIOps エージェント評価の holistic フレームワーク。detection/localization/RCA/mitigation の 4-level taxonomy。評価: 48 問題・6 エージェント、Flash 59.32%(最高)、self-repair は 5〜20 step で saturate。 - 矛盾検出(未解決): SREGym 由来の「AIOpsLab は ReAct ループを要求」は一次論文と食い違う([[AIOpsLab]] に contradiction callout)。 ## Recent Changes - entity 新設: [[SAKURAONE]] / [[SONiC]] / [[Fumikazu Konishi]]([[2026__MLSys2026__SAKURAONE - An Open Ethernet-Based AI HPC System]] 由来)。entity 更新: [[Yuuki Tsubouchi]]・[[Hirofumi Tsuruta]]・[[SAKURA Internet]](SAKURAONE 共著・開発運用を追記)。 - concept 新設: [[オープンネットワーキング]](SONiC/SAI/RoCEv2 の vendor-neutral fabric。InfiniBand 代替の条件と cross-layer チューニングの代償)/ [[GPUクラスタ運用]](ワークロード動態=job 分布・cancellation・フェーズ遷移・fault landscape)。 - concept 充填: [[LLM分散学習]](横断的知見に「MFU 38–41% は mid-scale でも再現」「hardware 起因 dominant は 800 GPU でも成立」「interconnect は open Ethernet でも SER を満たす」を追記)、[[並列化戦略]](「同じ 175B でも 3D 配分は組織で違うが通信局所性は共通」「PP を厚くすると cross-pod topology が通信比率に直結」を追記)。 - entity 新設: [[MegaScale]] / [[ByteDance]] / [[Megatron-LM]] / [[Ziheng Jiang]] / [[Xin Jin]] / [[Xin Liu]](ML systems クラスタ初の一次論文 [[2024__NSDI__MegaScale - Scaling Large Language Model Training to More Than 10,000 GPUs]] 由来)。 - concept 充填: [[LLM分散学習]](横断的知見に「MFU 40% は宿命でなく co-design 問題」「Reliability=100 回超自動復旧の具体形」「訓練クラスタ診断 ⇔ 本番 AIOps の distributed-view 同型」を追記、status seed→developing)、[[並列化戦略]](横断的知見の placeholder を解消し「taxonomy vs 本番構成」「pipeline bubble は batch size でも削減」「通信オーバーラップは並列化次元ごとに固有設計」を追記、status seed→developing)。 - concept 新設: [[LLM分散学習]](SER の 3 軸・4 層分類。訓練インフラの anomaly detection/failure analysis と運用 observability の語彙共有を横断的知見化)/ [[並列化戦略]](data/tensor/pipeline/sequence/expert の hybrid・auto・heterogeneous)/ [[Mixture-of-Experts]](MoE。expert parallelism の sparse activation/通信/load balance)。**AIOps/SRE/時系列とは独立した ML systems クラスタを新設**。 - entity 新設: [[Shanghai AI Laboratory]] / [[Jiangfei Duan]] / [[Peng Sun]]。 - concept 新設: [[テレメトリ]](telemetry の 3 層 instrumentation/storage/mining と time/path-oriented データ。AIOps 群が偏在する mining 層の足元を埋める)/ [[時系列データベース]](TSDB。TSDA vs TSDBMS・tiering・index トレードオフ)/ [[分散トレーシング]](network call graph。socket-based 手法の 4 系統)。 - concept 充填: [[特徴量削減]](§6.2「データ削減は文脈が豊富な両端で」の設計原理への昇華を横断的知見に追記)、[[Fault Localization]](博士論文 mining 層を出典に追記)。 - entity 新設: [[HeteroTSDB]] / [[go-conntracer-bpf]] / [[Mackerel]] / [[Hatena]] / [[Kyoto University]] / [[Ryosuke Matsumoto]]。entity 更新: [[Yuuki Tsubouchi]](博士論文・HeteroTSDB/go-conntracer-bpf・Hatena/Kyoto University を追記、博士号取得年の出典差異を note callout 化、status seed→developing)。 - concept 新設: [[Fault Localization]](AIOps 4-level 第 2 段。統計手法 vs LLM エージェントの対比、ノイズメトリクス削減課題の通底を集約)/ [[特徴量削減]](normality/redundancy reduction、過剰削減と過少削減のトレードオフ)/ [[変化点検知]](anomaly detection との区別、normal 窓非依存)。 - concept 充填: [[根本原因分析]](RCA 前段「localization + 特徴量削減」の統計手法の系譜、情報を絞ってから因果を辿る骨格の世代連続性)、[[AIOps]](LLM 以前の統計 AIOps と LLM エージェント AIOps の連続性)。 - entity 新設: [[Yuuki Tsubouchi]](vault 所有者)/ [[Hirofumi Tsuruta]] / [[SAKURA Internet]] / [[MetricSifter]] / [[Meltria]] / [[Sock Shop]] / [[PyRCA]]。entity 更新: [[Train-Ticket]](MetricSifter empirical study での利用を追記)。 - concept 新設: [[多変量時系列予測]](cross-variate modeling。TSFM の cross-variate 方式 flatten/factorized/group/prototype routing を横断集約。signed dependence・観測系の高次元多変量・benchmark 相互参照を横断的知見化)。 - concept 充填: [[時系列基盤モデル]](横断的知見に多変量化の主戦場化・観測データへの収斂・encoder vs decoder の分岐・MASE/CRPS 標準化。未解決の問いに encoder/decoder 比較・多変量利得 vs 観測特化利得の独立性)。 - entity 新設: [[Falcon-X]] / [[Ant International]] / [[Chronos-2]] / [[GIFT-Eval]] / [[fev-bench]]。 - concept 新設: [[時系列基盤モデル]](TSFM。観測データは統計的に異なり専用設計を要する。wiki 初の純 ML ソース)。 - entity 新設: [[Toto]] / [[BOOM]] / [[Ameet Talwalkar]] / [[Carnegie Mellon University]]。 - entity 更新: [[Datadog]](AI Research 部門・Toto/BOOM・CMU 共同研究を追記。status seed→developing)。 - concept 新設: [[根本原因分析]](RCA。AIOps 4-level 第 3 段。hypothesis-driven investigation を骨格に、causal focus・recursive depth・「情報を取りすぎる」病理の産業回避を集約)。 - entity 新設: [[Datadog]] / [[Bits AI SRE]](産業界 2 例目、調査・RCA 特化)。 - concept 充填: [[agentic SRE]](産業 2 例の被覆段の分化・operational metric の比較不能性)、[[SRE Benchmark]](実インシデント再生+LLM judge への産業収束)、[[AIOps]](4-level 各段の専門エージェント分化)。 - concept 新設: [[SRE AI Autonomy Levels]](L0–L4 の自律度ガバナンス。学術の能力軸に直交する権限委譲軸)。 - entity 新設: [[Google]] / [[AI Operator]] / [[Actus]] / [[Detectr]] / [[Model Context Protocol]]。 - concept 充填: [[agentic SRE]](産業 vs 学術の指標差 + contradiction callout)、[[Transactional No-Regression]](Actus = TNR の産業実装)、[[SRE Benchmark]](LLM-as-a-Judge の産業合流・continuous eval・Bronze/Silver/Gold)、[[AIOps]](自律度ガバナンス軸・detection モダリティ拡張)、[[障害予測]](予測/早期検知/事前検証の 3 経路)。 - concept 新設: [[障害緩和]](software remediation / mitigation。AIOps 4-level の最上位)。 - entity 新設: [[MicroRemed]] / [[ThinkRemed]] / [[Ansible]] / [[Train-Ticket]] / [[Online-Boutique]] / [[Lingzhe Zhang]] / [[Tong Jia]] / [[Peking University]] / [[Alibaba Group]]。 - concept 充填: [[AIOps]](Mitigation の専門ベンチ化)、[[agentic SRE]](反復と反省・4 エージェント役割分割・過剰 probing の害)、[[SRE Benchmark]](緩和専門ベンチ・chaos injection の立場分岐・state-based 検証)。 - concept 新設: [[障害予測]](proactive failure prediction。reactive AIOps の対極)。 - entity 新設: [[PAGER]] / [[Adobe Experience Platform]] / [[Adobe]] / [[Yunyao Li]]。 - concept 充填: [[AIOps]](横断的知見に「reactive ライフサイクルの手前の proactive 予測」、未解決の問いに reactive↔proactive 統合)。 - concept 新設: [[Transactional No-Regression]](agentic SRE の安全仕様 TNR)。 - concept 充填: [[agentic SRE]](「安全な探索」が緩和性能を押し上げる)、[[SRE Benchmark]](複数ベンチ横断評価の標準化・評価独立性の問い)。 - entity 新設: [[Saurabh Jha]](ITBench 主導著者かつ STRATUS 共著者。ベンチ作者×エージェント作者の近接)。 - [[Stratus]] を二次情報(SREGym 参照)から一次ソース([[2025__NeurIPS2025__STRATUS - A Multi-agent System for Autonomous Reliability Engineering of Modern Clouds]])に格上げ。 ## Active Threads - [[オープンネットワーキング]] は [[SAKURAONE]] 1 ソースで seed(横断的知見が空)。SONiC/RoCEv2/EVPN の一次研究(DCQCN・RoCE at scale・Rail-only・HammingMesh 等、SAKURAONE の Related Work が引く)を ingest し、open Ethernet が InfiniBand を代替する条件と congestion-control チューニングの横断的知見を立てる。`structures/Network - MOC` と接続済み。 - [[GPUクラスタ運用]] は [[SAKURAONE]] 1 ソースで seed。論文自身が Jeon 2019(USENIX ATC)・Kokolis 2025(HPCA)・[[MegaScale]] と突き合わせる long-tail/cancellation/fault 分布を、これら一次ソースを ingest して横断的知見化する。とくに mid-scale(100–1,000 GPU)単一テナント vs hyperscale multi-tenant の連続/不連続を厚くする。`structures/HPC - MOC`・`分散深層学習 - MOC` と接続済み。 - [[SAKURAONE]] の checkpoint-based preemption(§8.5)・elastic reallocation(§8.4)・controlled multi-tenancy(§8.6)は提案に留まり未実装。GPU cluster scheduler の一次論文(Tiresias/Themis/CASSINI、SAKURAONE が引く)を ingest し、phase-shifting workload の scheduling の横断的知見を立てる。 - [[LLM分散学習]]/[[並列化戦略]] は [[2024__NSDI__MegaScale - Scaling Large Language Model Training to More Than 10,000 GPUs]] の ingest で 2 ソース化し developing に到達。[[Mixture-of-Experts]] は依然サーベイ 1 ソースで seed。残る LLM 訓練システムの一次論文(Megatron-LM・Alpa・ZeRO/DeepSpeed・FlashAttention・Oobleck・GShard/Switch Transformer 等)を ingest し、サーベイの分類を一次ソースで裏取りしつつ横断的知見を厚くする。とくに MoE の expert parallelism は一次論文待ち。`structures/分散深層学習 - MOC`・`HPC - MOC` と接続済み。 - [[MegaScale]] は handcrafted 3D parallelism で 55.2% MFU を出すが、Auto Parallelism(Alpa/FlexFlow)が同規模で上回れるかは未検証([[並列化戦略]] 未解決の問い)。auto 化の費用対効果を示す一次ソースを探す。MegaScale の co-design 技術がどこまで他ハードウェア/他組織に一般化するか(Ampere・自社 network 前提)も追う。 - 訓練インフラの anomaly detection(本サーベイ §8.2:GPU heartbeat/DCGM/straggler 検出)と本番サービスの AIOps 異常検知([[Fault Localization]]/[[テレメトリ]])は語彙を共有するが対象が異なる。両者の手法・指標が相互転用可能かを示す一次ソース(訓練クラスタ監視 × service observability)を探し、[[LLM分散学習]] の横断的知見を厚くする。 - 本サーベイ future direction の optical computing / optical network(silicon photonics)の一次研究を ingest し、digital 限界への代替計算基盤の動向を追う(2024-07 刊行後の進展を要確認)。 - [[テレメトリ]]/[[分散トレーシング]] は path-oriented データの収集を扱う唯一のソース。metric 中心の AIOps 群とつなぐ trace-based RCA(call graph を入力にする fault localization)の一次ソースを ingest し、time-oriented と path-oriented の mining を結ぶ横断的知見を立てる。 - [[時系列データベース]]([[HeteroTSDB]])と [[時系列基盤モデル]]([[Toto]]/[[BOOM]])は同じ観測時系列の「保持」と「予測」の別段。観測 telemetry のライフサイクル(収集→保持→予測→診断)を縦に貫く一次ソースを探し、TSDB に予測/異常検知を組み込む設計の横断的知見にする。 - 博士論文 §6.3 future direction「collect-first → use-first 閉ループ」「LLM 向け failure snapshot 生成」を追う: mining 層(AIOps エージェント)から instrumentation/storage へ収集ポリシーを還流する一次研究、statistical 前処理を LLM 入力整形に転用する手法を ingest する。 - [[特徴量削減]]/[[Fault Localization]] は [[MetricSifter]] 1 ソースで seed。fault localization/RCA の他の一次論文(causal discovery ベース・anomaly-propagation 系)を ingest し、統計手法側の横断的知見(reduction の良さ vs localization の良さのギャップ等)を厚くする。`structures/異常検知 - MOC`・`Project AI4SRE - MOC` と接続済み。 - 統計的 [[特徴量削減]]([[MetricSifter]])の出力を LLM エージェント([[AIOpsLab]]/[[Bits AI SRE]])の入力前処理に与えると context window 圧迫が緩和され精度が上がるか、という古典×LLM ハイブリッドの問いを追う一次ソースを探す。 - [[変化点検知]] は seed(横断的知見が空)。[[時系列基盤モデル]](TSFM)を変化点検知に使う研究や、Ruptures 以外の change point detection 手法の一次ソースを ingest し横断的知見を立てる。 - [[時系列基盤モデル]] は [[Toto]]・[[Falcon-X]] の 2 ソース。残る主要 TSFM 一次論文(Chronos-2・TimesFM・Moirai 2.0・Timer-S1・Time-MoE)を ingest し、「汎用 TSFM が観測データで苦戦する原因はアーキか事前学習データか」「factorized vs group vs prototype attention」「encoder vs decoder」の横断的知見を厚くする。`structures/時系列基盤モデル - MOC` と接続済み。 - [[多変量時系列予測]] は [[Falcon-X]]・[[Toto]] の 2 ソースで seed。Falcon-X の「raw-space mixing は semantic collapse する」主張は [[Chronos-2]] の group attention にのみ直接検証。Toto の factorized attention や Moirai の flatten でも退化するかを後続ソースで確認し、cross-variate 方式の優劣を横断的知見化する。 - [[Chronos-2]]([[Falcon-X]] 経由の二次情報で seed)を一次論文(Ansari+ 2025, arXiv:2510.15821)で ingest し、group attention・in-context learning の機構を一次確認する。同様に Moirai 2.0・Timer-S1 も TSFM table の比較対象として一次化候補。 - [[Toto]]/[[BOOM]] と SRE エージェント系列([[Bits AI SRE]]・[[障害予測]]・異常検知)の橋を架ける: 観測時系列予測の精度向上が下流の異常検知・キャパシティ計画・proactive 障害予測にどう効くかを示す一次ソース(予測ベース異常検知・予測×RCA)を ingest する。 - [[BOOM]] の評価設計(production/staging 分離・shifted geometric mean・LLM ラベリング+人手検証の taxonomy)を、GIFT-Eval 一次論文と突き合わせて benchmark 方法論の横断的知見にする。 - [[根本原因分析]] は [[Bits AI SRE]] 1 ソースで seed。RCA 専門の他ソース(RCACopilot・Flash-style RCA・因果推論ベース RCA)を ingest し、「相関と因果の弁別」「深掘りの停止規準」の横断的知見を厚くする。 - [[Bits AI SRE]] の「causal connection を優先し correlated noise と弁別する」具体機構(因果推論/トポロジ/学習済み相関)は未公開。後続ソースや Datadog の技術資料で機構を特定する。 - 産業実装の被覆段の分化(Google=全ライフサイクル / Datadog=調査・RCA 特化)を追跡。他の商用 AI SRE 製品(PagerDuty・Incident.io・Cleric 等)を ingest し、「どの段を自律化するか」の産業マップを作る。 - [[SRE AI Autonomy Levels]] は [[Google]] 1 ソースで seed。他の自律度フレームワーク(自動運転 SAE レベル、agentic AI 一般の autonomy 分類)や他社の SRE 自律度の語り方を ingest し、SRE 固有の 5 軸がどこまで一般/特殊かを横断的知見にする。 - 産業 vs 学術のテンション([[agentic SRE]] の contradiction)を追跡: Google の「L2/L3 本番自律緩和」を学術ベンチで再現/反証する方法論はあるか。本番自律緩和の成功率・対象範囲の公開データを探す。 - [[Model Context Protocol]] / A2A は本ソース起点の seed。MCP/A2A の一次仕様や他の agentic SRE 実装での採用例を ingest し、エージェント–ツール/エージェント間インターフェースの標準化動向を厚くする。 - [[障害緩和]] は現状 [[MicroRemed]] 中心の seed。plan-based 緩和(rule/policy 駆動)の一次ソースや、source code / 過去の緩和記録を併用する緩和手法を ingest して横断的知見を厚くする。 - [[MicroRemed]] の評価妥当性(chaos injection で症状だけ消して根本原因が残る緩和を成功と誤判定しないか)を、SREGym の state-based 判定や [[Transactional No-Regression]] と突き合わせて検証する。 - [[ThinkRemed]] の「reflection > probe」「過剰 probing の害」は現行モデルの contextual reasoning 能力に依存する暫定結論。より賢いモデルで probe の価値が回復するかを後続ソースで追う。 - [[障害予測]] は現状 [[PAGER]] 1 ソースで seed。proactive/predictive AIOps の他ソース(failure prediction in datacenters・predictive maintenance 等)を ingest し横断的知見を厚くする。 - [[PAGER]] が依存する AEP 既存 AI Assistant の論文 [[Maharaj et al. 2024]](Adobe, enterprise AI assistant 評価)を ingest し、[[Yunyao Li]] の研究系譜と enterprise AIOps の文脈を補強する。 - [[ITBench]](ICML'25)の一次論文を ingest し、[[SRE Benchmark]] の横断的知見(特に oracle の topology-aware matching)を厚くする。[[Saurabh Jha]] の所属(IBM Research)を一次確認。 - [[Transactional No-Regression]] の形式的定義(不変条件・トランザクション境界・巻き戻し判定)を STRATUS 一次論文本文/付録で確認し、concept を seed → developing に育てる。 - [[Metastable Failure]] の一次研究(Bronson+ HotOS'21 等)を ingest して定義・対策を厚くする。 - SREGym 一次資料で AIOpsLab の ReAct 依存に関する記述を確認し、[[AIOpsLab]] の contradiction を解決する。