# Sources Index
Navigation: [[index]] | [[concepts/_index]] | [[entities/_index]]
ingest した新規ソース 1 件につき 1 ページの要約一覧。原本は `.raw/` に不変で保持される。
---
- [[2025__MLSys2025__AIOpsLab - A Holistic Framework to Evaluate AI Agents for Enabling Autonomous Clouds]] — 自律クラウド(AgentOps)に向けた AIOps エージェント評価の holistic フレームワーク(MLSys 2025, arXiv:2501.06706)
- [[2026__arXiv__SREGym - A Live Benchmark for AI SRE Agents with High-Fidelity Failure Scenarios]] — AI SRE エージェント向けの高忠実度ライブベンチマーク(arXiv:2605.07161, 2026)
- [[2025__NeurIPS2025__STRATUS - A Multi-agent System for Autonomous Reliability Engineering of Modern Clouds]] — state machine 編成の自律 SRE multi-agent system。安全仕様 TNR を形式化(NeurIPS 2025, arXiv:2506.02009)
- [[2026__AAAI__PAGER - Proactive Monitoring Agent for Enterprise AI Assistant]] — 障害発生前に予測・説明・対話支援する proactive monitoring agent(AEP 向け、random forest+LLM、AAAI-26 デモ)
- [[2025__arXiv__MicroRemed - Benchmarking LLMs in Microservices Remediation]] — end-to-end microservice remediation を測る初のベンチマーク。multi-agent の ThinkRemed を併提(PKU/Alibaba、arXiv:2511.01166, 2025)
- [[2026__GoogleSRE__AI in SRE - Engineering the Future of Reliable Operations]] — Google SRE の AI-Ops whitepaper。L0–L4 自律レベル・Safety Trifecta・Bronze/Silver/Gold 評価・AI Operator/Actus を提示(本 wiki 初の産業界・本番運用一次情報、sre.google)
- [[2026__Datadog__Building Bits AI SRE - Autonomous Incident Investigation Agent]] — Datadog の自律 RCA エージェント Bits AI SRE の設計・評価ブログ。hypothesis-driven investigation・causal focus・recursive depth・実インシデント+LLM judge 評価(産業界 2 例目、調査・RCA 特化、datadoghq.com)
- [[2025__NeurIPS2025__This Time is Different - An Observability Perspective on Time Series Foundation Models]] — Datadog の観測データ特化 zero-shot 時系列基盤モデル Toto(151M)と実運用 telemetry 由来 benchmark BOOM を提案。BOOM で CRPS 次点比12.4%改善、GIFT-Eval/LSF でも SOTA(NeurIPS 2025, arXiv:2505.14766)
- [[2026__arXiv__Falcon-X - A Time Series Foundation Model for Heterogeneous Multivariate Modeling]] — Ant International の異種多変量向け encoder-only 時系列基盤モデル Falcon-X(591M)。変量を latent prototype 空間へ decouple し正負の依存を differential attention で表現。GIFT-Eval で 0.666 MASE/0.453 CRPS の全体最高(arXiv:2605.27286, 2026)
- [[2024__IEEE Access__MetricSifter - Feature Reduction of Multivariate Time Series Data for Efficient Fault Localization in Cloud Applications]] — fault localization の前処理 feature reduction フレームワーク MetricSifter。fault 起因 change point の時間的近接で failure 窓を教師なし局所化し BA 0.981(本 wiki 初の vault 所有者自身の論文・pre-LLM 統計手法、IEEE Access 2024, DOI:10.1109/ACCESS.2024.3374334)
- [[2025__Kyoto University__Scaling Telemetry Workloads in Cloud Applications - Techniques for Instrumentation, Storage, and Mining]] — [[Yuuki Tsubouchi]] の京大博士論文。telemetry を instrumentation/storage/mining の 3 層で捉え既発表 3 編(in-kernel flow bundling / [[HeteroTSDB]] / [[MetricSifter]])を統合。「データ削減は文脈が豊富な両端で」の設計指針と use-first・LLM failure snapshot の future direction(Kyoto University, 2025-03, 112p)
- [[2026__Vicinagearth__Efficient Training of Large Language Models on Distributed Infrastructures - A Survey]] — LLM 分散訓練システム/インフラの包括サーベイ。SER(Scalability/Efficiency/Reliability)の 3 軸でインフラ・並列化(hybrid/auto/heterogeneous)・計算/メモリ/通信最適化・fault tolerance を体系分類。LLaMA3 は 16K H100・54 日で 466 回中断・障害の 78% が hardware 起因。future direction は optical computing(本 wiki 初の LLM 訓練インフラ・別ドメイン、arXiv:2407.20018 / Vicinagearth Vol.3 (2026), DOI:10.1007/s44336-026-00038-z)
- [[2024__NSDI__MegaScale - Scaling Large Language Model Training to More Than 10,000 GPUs]] — ByteDance/PKU の 10,000 GPU 超 LLM 訓練本番システム。algorithm-system co-design と in-depth observability で 175B を 12,288 GPU・55.2% MFU(Megatron-LM 比 1.34×)。各並列化次元の通信オーバーラップ・O(n) 初期化・2 段階 checkpoint・distributed-view 診断ツール。数週間の本番 run で 100 回超の自動復旧(上記サーベイ SER 3 軸を本番システムで具体化、NSDI '24)
- [[2026__MLSys2026__SAKURAONE - An Open Ethernet-Based AI HPC System]] — [[SAKURA Internet]] の 800 GPU(100×H100)オープン Ethernet AI–HPC クラスタ [[SAKURAONE]] の経験報告。SONiC + RoCEv2 のフルオープン 800 GbE で ISC 2025 TOP500 HPL 49 位・トップ 100 唯一、HPL 33.95 PFLOP/s。単一テナント LLM 開発のワークロード動態(小規模が件数支配・大規模が GPU 時間支配、CPT→fine-tuning のフェーズ遷移、cancellation 73.5%、21 fault の 42.9% が GPU 起因)を telemetry から観測。**vault 所有者 [[Yuuki Tsubouchi]] の共著・本 wiki 初の HPC/open networking 一次論文**(MLSys 2026 採録、arXiv:2604.13600)