# Wiki Index Last updated: 2026-06-03 | Total pages: 103 | Sources ingested: 14 Navigation: [[overview]] | [[hot]] | [[log]] | [[concepts/_index]] | [[entities/_index]] | [[sources/_index]] --- ## Concepts - [[AIOps]] — IT 運用タスクを AI で自動化する営み(detection/localization/RCA/mitigation の 4-level taxonomy・AgentOps) - [[agentic SRE]] — AI エージェントが本番障害を診断・緩和する営み - [[SRE Benchmark]] — AI SRE エージェントを評価するライブ環境ベースの評価基盤 - [[Transactional No-Regression]] — agentic SRE の安全仕様(TNR)。安全に巻き戻せる試行で緩和を改善 - [[Metastable Failure]] — トリガ除去後も回復しない自己持続的な輻輳崩壊 - [[障害予測]] — 障害が業務に影響する前に予測し予防する proactive な営み(reactive AIOps の対極) - [[障害緩和]] — 診断結果から復旧アクションを実行する保守ライフサイクル最終段(AIOps 4-level の Mitigation) - [[SRE AI Autonomy Levels]] — 本番運用への AI 自律度を L0–L4 で段階化する Google の統治フレームワーク - [[根本原因分析]] — 障害の根本原因を判定する AIOps 4-level 第 3 段(RCA)。hypothesis-driven investigation が中心設計 - [[時系列基盤モデル]] — 多ドメイン時系列で事前学習し zero-shot 予測する基盤モデル(TSFM)。観測データは専用設計を要する - [[多変量時系列予測]] — 変量間の依存(相乗的・拮抗的)を活用して複数系列を同時予測。TSFM の cross-variate 方式を横断集約 - [[Fault Localization]] — failure 検知後に fault の発生源を telemetry から特定する AIOps 4-level 第 2 段。統計手法と LLM エージェントの対比 - [[特徴量削減]] — fault localization 前処理として無関係メトリクスを減らす営み。過剰削減と過少削減のトレードオフ - [[変化点検知]] — 時系列の統計的性質の変化点を特定するタスク(anomaly detection と区別)。normal 窓の事前指定が不要 - [[テレメトリ]] — システムの挙動・性能を自動収集・分析する営み。instrumentation/storage/mining の 3 層、time/path-oriented データ - [[時系列データベース]] — metrics を取り込み・保持・クエリする DBMS(TSDB)。TSDA vs TSDBMS、tiering、インデックス構造のトレードオフ - [[分散トレーシング]] — コンポーネント間 network call を捕捉し call graph を構築。socket-based 手法の 4 系統(path-oriented データ) - [[LLM分散学習]] — 大規模 LLM を数万 GPU で訓練する営みとシステム総体。SER の 3 軸・インフラ/並列化/最適化/fault tolerance の 4 層 - [[並列化戦略]] — LLM の計算/メモリ/通信を複数デバイスに分割。data/tensor/pipeline/sequence/expert の hybrid・auto・heterogeneous - [[Mixture-of-Experts]] — FFN を sparsely activated に置換する Transformer 変種(MoE)。expert parallelism の sparse activation/通信/load balance - [[オープンネットワーキング]] — NOS を ASIC から切り離す vendor-neutral fabric。SONiC/SAI/RoCEv2 が InfiniBand 代替となる条件と cross-layer チューニングの代償 - [[GPUクラスタ運用]] — AI ワークロードの scheduling・監視・障害対応とワークロード動態(job 分布・cancellation・フェーズ遷移・fault landscape) --- ## Entities - [[SREGym]] — AI SRE エージェント向けの高忠実度ライブベンチマーク兼フレームワーク - [[Stratus]] — multi-agent の SRE エージェント - [[AIOpsLab]] — AIOps エージェント評価フレームワーク(AgentOps を提唱) - [[ITBench]] — 先行ベンチマーク(IT 自動化タスク評価) - [[ChaosMesh]] — chaos engineering / fault injection ツール - [[DeathStarBench]] — microservice ベンチマークスイート(AIOpsLab・SREGym 共通 testbed) - [[Tianyin Xu]] — SREGym 最終著者(UIUC) - [[Yinfang Chen]] — AIOpsLab・SREGym・STRATUS 第一/共著者(UIUC) - [[Saurabh Jha]] — ITBench 主導著者・STRATUS 共著者(IBM Research) - [[Minghua Ma]] — AIOpsLab corresponding author(Microsoft) - [[University of Illinois Urbana-Champaign]] — 主要研究機関 - [[Microsoft]] — AIOpsLab 主要所属 - [[PAGER]] — proactive な障害予測・説明・対話支援エージェント(Adobe) - [[Adobe Experience Platform]] — Adobe の大規模 customer data platform(PAGER の対象) - [[Adobe]] — AEP・PAGER を擁する企業 - [[Yunyao Li]] — PAGER のシニア著者(Adobe) - [[MicroRemed]] — end-to-end microservice remediation を評価する初の live ベンチマーク(PKU/Alibaba) - [[ThinkRemed]] — microservice remediation の multi-agent フレームワーク(Coordinator/Probe/Execution/Verification) - [[Ansible]] — 宣言的・agentless な IT 自動化フレームワーク(MicroRemed の緩和出力形式) - [[Train-Ticket]] — 鉄道予約題材の microservice benchmark(MicroRemed 最難環境) - [[Online-Boutique]] — Google の microservices デモ(= microservices-demo) - [[Lingzhe Zhang]] — MicroRemed 第一著者(PKU、AIOps/LLM for SRE を多作) - [[Tong Jia]] — MicroRemed corresponding author(PKU) - [[Peking University]] — MicroRemed 主所属 - [[Alibaba Group]] — MicroRemed 共同所属、Qwen3 開発元 - [[Google]] — SRE 発祥企業。AI-Ops を本番(Cloud/Ads/YouTube/Search)で展開 - [[AI Operator]] — Google の自律 first-responder agent(L2/L3 稼働) - [[Actus]] — Google の actuation safety gateway(dry-run・Red Button) - [[Detectr]] — Google の Gemini 駆動 outage 検知(user feedback ベース) - [[Model Context Protocol]] — AI エージェントとツール接続を標準化するオープン仕様(MCP) - [[Datadog]] — observability SaaS ベンダ。自律 SRE エージェント Bits AI SRE・時系列基盤モデル Toto を開発(産業界 2 例目) - [[Bits AI SRE]] — Datadog の自律インシデント調査・RCA エージェント(hypothesis-driven、TTR 最大 95% 減を主張) - [[Toto]] — Datadog の観測データ特化 zero-shot 時系列予測基盤モデル(151M、decoder-only) - [[BOOM]] — 実運用 telemetry のみで構成した観測時系列予測 benchmark(2,807系列・約3.5億点、Datadog) - [[Ameet Talwalkar]] — Toto 論文の senior author(CMU 兼 Datadog) - [[Carnegie Mellon University]] — Toto 論文に Datadog AI Research と共同参加した大学 - [[Falcon-X]] — Ant International の異種多変量向け encoder-only 時系列基盤モデル(591M、latent prototype routing) - [[Ant International]] — Falcon-X を開発した企業組織(連絡先 @ant-intl.com) - [[Chronos-2]] — group attention で多変量・in-context learning を可能にした TSFM(Falcon-X の主要比較対象) - [[GIFT-Eval]] — 汎用時系列予測 benchmark(15 univariate + 8 multivariate、7 ドメイン、144K 系列) - [[fev-bench]] — 現実的な時系列予測 benchmark(100 タスク、観測系 BOOMLET を含む) - [[MetricSifter]] — fault localization 前処理の feature reduction フレームワーク(change point detection + KDE、SAKURA Internet) - [[Meltria]] — microservices の障害データセット生成基盤(MetricSifter の empirical データ作成) - [[Sock Shop]] — 靴下販売題材の microservice benchmark(MetricSifter empirical study、7 microservices) - [[PyRCA]] — metric-based RCA ライブラリ(MetricSifter の合成データ生成器兼 FL ベースライン) - [[Yuuki Tsubouchi]] — MetricSifter 筆頭著者・博士論文著者・本 vault 所有者(SAKURA Internet、元 Hatena SRE) - [[Hirofumi Tsuruta]] — MetricSifter 第 2 著者(SAKURA Internet、機械学習) - [[Ryosuke Matsumoto]] — Transtracer / socket-based tracing 論文の共著者(博士論文 Chapter 3 の基) - [[SAKURA Internet]] — 日本のクラウド事業者。Research Center が MetricSifter を生んだ - [[HeteroTSDB]] — 異種 KVS を TTL ベースで階層 tiering する TSDA(KairosDB 比 3.98 倍 ingestion、Mackerel に実投入) - [[go-conntracer-bpf]] — in-kernel flow bundling の eBPF ネットワーク flow tracer の Go ライブラリ - [[Mackerel]] — Hatena の SaaS サーバ監視サービス(HeteroTSDB の本番採用先) - [[Hatena]] — 監視 SaaS Mackerel を運営する日本企業(Yuuki Tsubouchi の元勤務先) - [[Kyoto University]] — Yuuki Tsubouchi に博士号を授与した大学(本博士論文の発行機関) - [[Shanghai AI Laboratory]] — LLM 訓練システムサーベイの主所属。InternLM/InternEvo を擁する中国の AI 研究機関 - [[Jiangfei Duan]] — LLM 訓練システムサーベイの筆頭著者(Shanghai AI Lab / CUHK) - [[Peng Sun]] — LLM 訓練システムサーベイの corresponding author(Shanghai AI Lab) - [[MegaScale]] — ByteDance/PKU の 10,000 GPU 超 LLM 訓練本番システム(175B を 12,288 GPU・55.2% MFU) - [[Megatron-LM]] — NVIDIA の SOTA OSS LLM 訓練フレームワーク(MegaScale の基盤兼ベースライン) - [[ByteDance]] — 10,000 GPU 超 AI クラスタで LLM を訓練する企業(MegaScale 開発主体) - [[Ziheng Jiang]] — MegaScale 論文の筆頭著者(ByteDance) - [[Xin Jin]] — MegaScale 論文の責任著者(Peking University) - [[Xin Liu]] — MegaScale 論文の責任著者(ByteDance) - [[SAKURAONE]] — SAKURA Internet の 800 GPU オープン Ethernet AI–HPC クラスタ(SONiC+RoCEv2、TOP500 HPL 49 位) - [[SONiC]] — オープンソースの network OS(SAI で ASIC 抽象化、RoCEv2 の lossless Ethernet を提供) - [[Fumikazu Konishi]] — SAKURAONE 論文の筆頭著者・corresponding author(SAKURA Internet Research Center) --- ## Sources - [[2025__MLSys2025__AIOpsLab - A Holistic Framework to Evaluate AI Agents for Enabling Autonomous Clouds]] — MLSys 2025(arXiv:2501.06706) - [[2026__arXiv__SREGym - A Live Benchmark for AI SRE Agents with High-Fidelity Failure Scenarios]] — arXiv:2605.07161(2026) - [[2025__NeurIPS2025__STRATUS - A Multi-agent System for Autonomous Reliability Engineering of Modern Clouds]] — NeurIPS 2025(arXiv:2506.02009) - [[2026__AAAI__PAGER - Proactive Monitoring Agent for Enterprise AI Assistant]] — AAAI-26 デモ(DOI:10.1609/aaai.v40i48.42344) - [[2025__arXiv__MicroRemed - Benchmarking LLMs in Microservices Remediation]] — arXiv:2511.01166(2025、PKU/Alibaba) - [[2026__GoogleSRE__AI in SRE - Engineering the Future of Reliable Operations]] — Google SRE の AI-Ops whitepaper(L0–L4 自律レベル・Safety Trifecta、sre.google) - [[2026__Datadog__Building Bits AI SRE - Autonomous Incident Investigation Agent]] — Datadog の自律 RCA エージェント Bits AI SRE の設計・評価ブログ(産業界 2 例目、datadoghq.com) - [[2025__NeurIPS2025__This Time is Different - An Observability Perspective on Time Series Foundation Models]] — Datadog の観測データ特化 TSFM Toto と benchmark BOOM(NeurIPS 2025, arXiv:2505.14766) - [[2026__arXiv__Falcon-X - A Time Series Foundation Model for Heterogeneous Multivariate Modeling]] — Ant International の異種多変量向け TSFM Falcon-X(591M、latent prototype routing)。GIFT-Eval で全体最高(arXiv:2605.27286, 2026) - [[2024__IEEE Access__MetricSifter - Feature Reduction of Multivariate Time Series Data for Efficient Fault Localization in Cloud Applications]] — fault localization 前処理の feature reduction フレームワーク MetricSifter(本 vault 所有者自身の論文・pre-LLM 統計手法、IEEE Access 2024, DOI:10.1109/ACCESS.2024.3374334) - [[2025__Kyoto University__Scaling Telemetry Workloads in Cloud Applications - Techniques for Instrumentation, Storage, and Mining]] — Yuuki Tsubouchi の京大博士論文。telemetry の 3 層(instrumentation/storage/mining)で既発表 3 編を統合(Kyoto University, 2025-03, 112p) - [[2026__Vicinagearth__Efficient Training of Large Language Models on Distributed Infrastructures - A Survey]] — LLM 分散訓練システム/インフラの包括サーベイ。SER の 3 軸でインフラ・並列化・最適化・fault tolerance を分類(本 wiki 初の LLM 訓練インフラ・別ドメイン、arXiv:2407.20018 / Vicinagearth 2026) - [[2024__NSDI__MegaScale - Scaling Large Language Model Training to More Than 10,000 GPUs]] — ByteDance/PKU の 10,000 GPU 超 LLM 訓練本番システム。175B を 12,288 GPU・55.2% MFU(Megatron-LM 比 1.34×)。上記サーベイ SER 3 軸を本番システムで具体化(NSDI '24) - [[2026__MLSys2026__SAKURAONE - An Open Ethernet-Based AI HPC System]] — SAKURA Internet の 800 GPU オープン Ethernet AI–HPC クラスタ SAKURAONE の経験報告。SONiC+RoCEv2 で TOP500 HPL 49 位・トップ 100 唯一のフルオープン networking stack。単一テナント LLM 開発のワークロード動態を観測(vault 所有者 Yuuki Tsubouchi 共著、MLSys 2026, arXiv:2604.13600) --- ## Questions _(まだ無し。query の良回答を `wiki/questions/` にファイリングする)_