_index - yuuk1's Digital Garden

# Sources Index ### 2026-07-21 ingest | Tales from the Lunar Module Guidance Computer (AAS 04-064, 2004) - [[@2004__AAS__Tales from the Lunar Module Guidance Computer]](新規) — [[Don Eyles]]([[MIT Instrumentation Laboratory]])。Apollo 11 の 1201/1202 プログラムアラーム(ランデブーレーダーのICD記載漏れ)とスロットル振動「キャッスレーション」(タイムラグ補償の誤り)を当事者が一次資料で解説する回顧録。優先度駆動プリエンプティブExecutive/Waitlist・リスタート保護の設計思想を詳述。(article / fault-tolerance / real-time-systems / postmortem / apollo) ### 2026-07-18 ingest-paper | OpsMem: Dual-Memory Reasoning with Cross-Memory Resonance for Failure Diagnosis (arXiv 2026) - [[@2026__arXiv__OpsMem - Dual-Memory Reasoning with Cross-Memory Resonance for Failure Diagnosis]](新規) — Yongqian Sunほか9名(Nankai University / Tsinghua University / Huawei Technologies)、arXiv 2607.11357、2026-07-13。短期記憶(STM、診断状態のグラフ)と長期記憶(LTM、運用経験のグラフ)を cross-memory resonance で結合する失敗診断向けデュアルメモリフレームワーク。Huawei の実運用マイクロサービス障害 120 件データセットで ReAct・GoS・GoS+RAG 系全ベースラインを上回り、LTM consolidation による自己進化も実証した。(paper / aiops / failure-diagnosis / agent-memory) ### 2026-07-18 ingest-paper | MLCommons Chakra: Advancing Performance Benchmarking and Co-design using Standardized Execution Traces (MLSys 2026 Oral) - [[@2026__MLSys2026__MLCommons Chakra - Advancing Performance Benchmarking and Co-design using Standardized Execution Traces]](新規) — Srinivas Sridharan・Tushar Krishnaほか29名(NVIDIA / Georgia Institute of Technology / AMD / Meta / Keysight / MLCommons ほか)、arXiv 2605.11333、MLSys 2026 Oral。分散AI/MLワークロードの標準実行トレース表現Chakra ETと、Trace Linker/Converter・trace analysis/replay/simulation-emulationからなるMLCommons公認エコシステムを提示。訓練ワークロード(GPT3/Llama3/Mixtral/DeepSeek-MoE等)のトレース分析・リプレイ・シミュレーション・Hardware-in-the-Loopエミュレーションに加え、vLLM統合によるMoEトークンルーティング・KVキャッシュオフロード・Prefill-Decode分離間KV転送の推論トレース分析を実証した。(paper / distributed / benchmarking / mlsystems) ### 2026-07-15 ingest-paper | Scalable and Energy-Efficient AI: System-Level Profiling of NVIDIA GPU Clusters for Distributed LLM Training (AI, MDPI 2026) - [[@2026__AI__Scalable and Energy-Efficient AI - System-Level Profiling of NVIDIA GPU Clusters for Distributed LLM Training]](新規) — [[Muhammad Ali Shafique]]ほか(Kansas State University / Johnson Controls / Florida Atlantic University / Lawrence Berkeley National Laboratory)、*AI* (MDPI) 2026, 7(7), 232。8×NVIDIA H100と8×NVIDIA B200のシングルノード構成を、5種のLLM(7B〜32B)・3種のVLMのDDP訓練で統制比較。B200のTFLOPs/GPU最大32%向上・訓練時間最大15%短縮という計算優位に対し、TFLOPs/kWとtokens-per-kilojouleは全LLMでH100を下回る「計算-エネルギー不整合」を実測し、ノード単位の実測値を施設規模の年間エネルギー・コストモデリング(2000/5000ノード)へ拡張した。(paper / gpu / energy / llm / aiinfra) ### 2026-07-15 ingest-paper | Speculations Concerning the First Ultraintelligent Machine (Advances in Computers, 1965) - [[@1965__AdvComput__Speculations Concerning the First Ultraintelligent Machine]](新規) — [[I. J. Good]](Trinity College, Oxford / Atlas Computer Laboratory)。「ウルトラ知能機械」の定義から「知能爆発」概念を初めて明示的に定式化した思弁的モノグラフ。Hebb の細胞集成体理論を修正した「サブアセンブリ理論」により、通信理論の「再生(regeneration)」・統計的情報検索・意味論を統一的に説明しようとする。実験を伴わない理論的試み。(paper / ai-safety / intelligence-explosion) ### 2026-07-14 ingest-slides | 言語モデルの内部機序：解析と解釈 (NLP2025 チュートリアル) - [[@2025__SpeakerDeck__言語モデルの内部機序：解析と解釈]](新規) — [[Benjamin Heinzerling]]・[[横井祥]]・[[小林悟郎]](理化学研究所・東北大学・国立国語研究所)、言語処理学会第31回年次大会(NLP2025)チュートリアル1(2025-03-10)。内部表現の解析(プロービング、SAE)・計算過程の解析(注意パターン観察、Logit Lens、Circuit Analysis)・言語と世界の対応づけ(解釈)という3段階フレームワークを解説し、終盤で「局所性・一対一対応」という前提自体への懐疑的検討を展開する。全144ページ、transcript なし。(slides / llm / interpretability / mechanistic-interpretability) ### 2026-07-13 ingest-slides | Oncall: An Equal-Opportunity Waste of Time (SREcon22 EMEA, 2022) - [[@2022__SREcon22EMEA__Oncall - An Equal-Opportunity Waste of Time]](新規) — [[Dave O'Connor]]（[[Twilio]] VP Engineering、元 Google SRE 16 年）、USENIX SREcon22 EMEA（2022-10-25）。「オンコールは良いアイデアだが時間の良い使い方ではない」という挑発的命題を軸に、SRE が toxic exceptionalism（オンコールの意図的複雑化・ゲートキープ）によって自らの価値を狭めていると批判。ステークホルダーへの価値証明を工学的乗数効果に移す方法論と思考実験を提示。10 スライド、transcript なし。(slides / sre / oncall / organization / srecon) ### 2026-07-10 ingest-paper | Failure Trends in a Large Disk Drive Population (FAST 2007) - [[@2007__FAST__Failure Trends in a Large Disk Drive Population]](新規) — [[Eduardo Pinheiro]], [[Wolf-Dietrich Weber]], [[Luiz André Barroso]]([[Google]])、FAST 2007。Google 本番環境 10 万台超の HDD を 9 か月観測。温度・使用率の障害相関が従来通念より弱いことを実証。SMART 強シグナル(スキャンエラー 39×・オフライン再割り当て 21×)を発見するも、障害ドライブの 56% 超が強シグナルゼロという予測限界を定量化。(paper / storage / reliability / hardware / smart / hdd) ### 2026-07-08 ingest-paper | Benchmarking the Overhead of Distributed Tracing Agents (ICPE 2026) - [[@2026__ICPE__Benchmarking the Overhead of Distributed Tracing Agents]](新規) — [[David Georg Reichelt]] ほか(Lancaster University Leipzig / Christian-Albrechts-Universität zu Kiel)、ICPE '26。MooBench マイクロベンチマークを 7 種 Java トレーシングエージェント(Elastic APM / inspectIT / Kieker / OpenTelemetry / Pinpoint / Scouter / SkyWalking)に拡張。Kieker が最速(133.92 ns/depth)・OpenTelemetry が業界標準のわりに遅い(315.28 ns/depth)・Pinpoint と Scouter はスパン損失バグあり。根本原因は過度なメタデータ管理と ArrayBasedContext コピー。(paper / distributed-tracing / observability / performance-engineering / benchmarking) ### 2026-07-07 ingest-paper | VAST AI Operating System (VAST Data 2025) - [[@2025__VAST Data__VAST AI Operating System]](新規) — [[VAST Data]]。DASE アーキテクチャ(CNode + NVMe-oF + DBox)基盤の AI OS 白書。DataStore・DataBase・DataSpace・DataEngine・InsightEngine を統合し、Object Store/DB/Kafka/ベクトルDB/K8s を単一クラスターで代替することを標榜。性能値はベンダー自己申告。(whitepaper / storage / ai-infrastructure / rag / distributed) ### 2026-07-06 ingest-paper | INTFusion: Unifying Network and Host Telemetry in Data Center Networks (IFIP Networking 2026) - [[@2026__IFIP Networking__INTFusion - Unifying Network and Host Telemetry in Data Center Networks]](新規) — [[Leonardo Alberro]] ほか([[Universidad de la República]])、IFIP Networking 2026。smartNIC(Netronome Agilio 4000 CX)への INT ソース/シンクオフロードと eBPF ホスト層トレースを per-flow 粒度で統合する統一型データセンター監視アーキテクチャ。二層エクスポートモデル(イベント駆動リアルタイム + レート制御遅延)。(paper / networking / telemetry / int / smartnic / ebpf) ### 2026-07-06 ingest-paper | ARGUS: Production-Scale Tracing and Performance Diagnosis for over 10,000-GPU Clusters (arXiv 2026) - [[@2026__arXiv__ARGUS - Production-Scale Tracing and Performance Diagnosis for over 10,000-GPU Clusters]](新規) — [[Jiasheng Zhou]] ほか(Tencent)。10,000 GPU 超の本番 LLM 訓練クラスター向け常時稼働トレーシング・診断システム。3 層独立計装(< 2% オーバーヘッド)、KDE クラスタリング 3,700 倍圧縮、L1〜L5 段階的診断。6 ヶ月以上本番デプロイ済み。(paper / aiops / gpu / distributed / llm-training) ### 2026-07-06 ingest-paper | KRCA: An Efficient Root Cause Analysis System in Hyper-Scale Microservice Systems via Agentic AI (ASE '26) - [[@2026__ASE__KRCA - An Efficient Root Cause Analysis System in Hyper-Scale Microservice Systems via Agentic AI]](新規) — [[Jiamin Jiang]] ほか([[Nankai University]] / [[Kuaishou Technology]] / 清華大学)。20万超マイクロサービスのハイパースケール RCA: API レベルドリルダウン + スケルトンベース因果グラフ + マルチエージェント協調の3段パイプライン。AC@1=0.88/0.79 (最強ベースライン比+31%/+32%)、本番77.3%診断時間短縮。(paper / aiops / rca / microservice / multi-agent / llm) ### 2026-07-06 ingest-paper | A Multi-Dataset Benchmark for Evaluating LLM Agents in Microservice Failure Diagnosis (arXiv 2026) - [[@2026__arXiv__A Multi-Dataset Benchmark for Evaluating LLM Agents in Microservice Failure Diagnosis]](新規) — [[Yuanhong Cai]] ほか（CNIC/CAS・南開大学・Alibaba Cloud・清華大学）。LLMエージェントによるマイクロサービス障害診断のための推論プロセス評価パラダイムと2データセット（AIOps2025 400件・RCA100 103件）。大規模競技（合計6,093チーム）で検証済み。(paper / aiops / benchmark / llm / rca / microservice) ### 2026-07-06 ingest-paper | A Checkpoint/Restore Mechanism with Interoperability Among Distinctive WebAssembly Interpreters (APSys 2024 Poster) - [[@2024__APSys__A Checkpoint-Restore Mechanism with Interoperability Among Distinctive WebAssembly Interpreters]](新規) — [[Daigo Fujii]]・[[Katsuya Matsubara]]・[[Yuki Nakata]]([[Future University Hakodate]] / [[SAKURA internet Inc.]])。WasmEdge (standard interpreter) と WAMR・Wasm3 (fast interpreter) の間で、プログラムカウンタ・コントロールスタック・バリュースタックを相互変換する異種 interpreter 間 checkpoint/restore の予備研究。JIT/AOT は対象外。(paper / webassembly / checkpoint / migration / edge-computing) ### 2026-07-05 ingest-paper | Self-Hosted WebAssembly Runtime for Runtime-Neutral Checkpoint/Restore in Edge–Cloud Continuum (Mid4CC ’25) - [[@2025__Mid4CC__Self-Hosted WebAssembly Runtime for Runtime-Neutral Checkpoint-Restore in Edge-Cloud Continuum]](新規) — [[Yuki Nakata]]・[[Katsuya Matsubara]]([[Future University Hakodate]] / [[SAKURA internet Inc.]])。Wasm にコンパイルした自己ホスト型ランタイム Chiwawa を中間層とし、ホストランタイム改修なしでランタイムと最適化戦略の両中立な C/R を実現。wasmtime・WAMR・WasmEdge をホストとする場合ともチェックポイントサイズは 1076 KB で一定。Wizard との比較で自己ホスト設計の有効性、sqlite-bench で自己ホストのオーバーヘッドを評価した。(paper / webassembly / checkpoint / migration / edge-computing) ### 2026-07-05 ingest-paper | Seamless Self-Healing in WebAssembly Container Orchestration with Runtime-Neutral Checkpointing (CANDARW 2025) - [[@2025__CANDARW__Seamless Self-Healing in WebAssembly Container Orchestration with Runtime-Neutral Checkpointing]](新規) — [[Katsuya Matsubara]]・[[Yuzuki Saito]]・[[Daigo Fujii]]・[[Yuki Nakata]]([[Future University Hakodate]] / [[SAKURA internet Inc.]])。ランタイム中立チェックポイントを用いて、Wasm コンテナの障害時にホットリスタートを、メモリ圧力時に WasmEdge から WAMR への動的ランタイム切り替えを実現。Pod 退避なしにメモリ圧力を緩和し、ホットリスタートは通常再起動に比べて応答時間劣化を抑制した。(paper / webassembly / container-orchestration / fault-tolerance / self-healing) ### 2026-07-05 ingest-paper | Reducing Attack Surface with Container Transplantation for Lightweight Sandboxing (APSys ’23) - [[@2023__APSys__Reducing Attack Surface with Container Transplantation for Lightweight Sandboxing]](新規) — [[Yuki Nakata]]・[[Shintaro Suzuki]]・[[Katsuya Matsubara]]([[SAKURA internet Inc.]] / [[Future University Hakodate]])。Linux コンテナを FreeBSD カーネルへ移植し、Linux カーネル固有の脆弱性攻撃を回避するとともに Capsicum を透過適用する Container Transplantation を提案。UnixBench で gVisor 比で大幅に小さいオーバーヘッド(システムコールオーバーヘッドは runC 比 22% 悪化)を達成した。(paper / container / security / virtualization) ### 2026-07-05 ingest-paper | Stateful VM Migration Among Heterogeneous WebAssembly Runtimes for Efficient Edge-cloud Collaborations (EdgeSys ’24) - [[@2024__EdgeSys__Stateful VM Migration Among Heterogeneous WebAssembly Runtimes for Efficient Edge-cloud Collaborations]](新規) — [[Daigo Fujii]]・[[Katsuya Matsubara]]・[[Yuki Nakata]]([[Future University Hakodate]] / [[SAKURA internet Inc.]])。WasmEdge と WAMR 間の異種ランタイムステートフルVMマイグレーションを提案。dirty memory検出でCRIU比30〜100倍のチェックポイント時間短縮を達成し、sqlite-benchでランタイム切り替えが単一ランタイム継続より高速になることを実証した。(paper / webassembly / edge-computing / virtualization / migration) ### 2026-07-05 ingest-paper | Concentrated Isolation for Container Networks Toward Application-aware Sandbox Tailoring (UCC 2021) - [[@2021__UCC__Concentrated Isolation for Container Networks Toward Application-aware Sandbox Tailoring]](新規) — [[Yuki Nakata]]・[[Katsuya Matsubara]]・[[Ryosuke Matsumoto (SAKURA internet)|Ryosuke Matsumoto]]([[Future University Hakodate]] / [[SAKURA internet Inc.]])。PaaS/FaaS コンテナのネットワーク隔離に集中した Sandbox Tailoring の提案と、BitVisor ベースの para-passthrough ハイパーバイザ Subaco を設計・実装。runC と同等の起動時間(約 1.15 秒)を維持しつつ L2/L3/L4 のパケット偽装攻撃とホスト OS のネットワークリソース攻撃を防御する。(paper / container / security / virtualization) ### 2026-07-04 OSDI'25 Extending Applications Safely and Efficiently ingest - [[@2025__OSDI__Extending Applications Safely and Efficiently]](新規) — [[Yusheng Zheng]]・[[Tong Yu]]・[[Yiwei Yang]]・[[Yanpeng Hu]]・[[Xiaozheng Lai]]・[[Dan Williams]]・[[Andi Quinn]]。ユーザ空間アプリケーション拡張の安全性と効率性を両立する Extension Interface Model([[EIM]])と [[bpftime]] を提案。eBPF スタイル検証、Intel MPK プロセス内隔離、動的バイナリ書き換えにより、Nginx 拡張で 2% オーバーヘッドを達成。eBPF エコシステムとの互換性を保ちながら、Nginx, Redis, FUSE, DeepFlow, sslsniff, Syscount の 6 ユースケースを評価。(paper / operating-systems / ebpf / security / observability) ### 2026-07-04 The GPU Observability Gap ingest - [[@2025__eunomia.dev__The GPU Observability Gap - Why We Need eBPF on GPU devices]](新規) — [[Yusheng Zheng]]・[[Tong Yu]]・[[Yiwei Yang]]([[eunomia-bpf]])。GPU 観測性ギャップを指摘し、bpftime による PTX/SPIR-V 注入で eBPF を GPU カーネル内で実行する技術を解説。CPU-GPU 境界ツール・ベンダープロファイラ・研究ツールの 3 類型の限界を整理した。(article / ebpf / gpu / observability) ### 2026-07-04 CUDA Events - eBPF-based CUDA API Tracing ingest - [[@2026__eunomia.dev__CUDA Events - eBPF-based CUDA API Tracing]](新規) — [[yunwei37]]、github-actions[bot]([[eunomia-bpf]])。`libcudart.so` への eBPF uprobe による CUDA API トレースチュートリアル。メモリ管理・データ転送・カーネル起動・ストリーム/イベント同期を ring buffer + libbpf で収集。CUDA API 呼び出しあたり約 2 µs のオーバーヘッドを報告。GPU 内部計装への発展として [[bpftime]]/eGPU を参照。(article / ebpf / cuda / gpu-observability) - [[@2026__note__デジタルネイチャーの十年 - 計算的物質化から発酵する共在へ]](新規) — [[落合陽一]]。[[計算機自然]]の十年を、計算的物質化、境界溶解、身体多様性、[[null2]] の公共空間化、生成AI以後の [[デジタル発酵]]・[[デジタル蒸留]]・[[Homo Convivium]]・[[マタギドライヴ]] へ整理する note 論考。(article / philosophy-of-technology / media-art / ai-ethics) ### 2026-07-04 計算機自然からマタギドライヴへ ingest - [[@2026__note__計算機自然からマタギドライヴへ - 自然の再審と脱人間知性的文明論の10年]](新規) — [[落合陽一]]。[[計算機自然]]の10年を、自然概念の多言語的再審、Simondon 的トランスダクション、[[マタギドライヴ]]による辺縁への自己批判、[[批判的デジタルネイチャー]]としての環境・権力・身体問題の内部化へ整理する note 論考。(article / philosophy-of-technology / media-art / posthuman) ### 2026-07-03 AI tools expand scientists' impact but contract science's focus (Nature 2026) ingest - [[@2026__Nature__Artificial intelligence tools expand scientists' impact but contract science's focus]](新規) — [[Qianyue Hao]]・[[Fengli Xu]]・[[Yong Li]]・[[James Evans]](清華大学 BNRist / シカゴ大学知識ラボ)。4,130 万件の自然科学論文を BERT 識別モデル(F1=0.875)で AI 拡張研究に分類し、個人利益(3.02 倍論文・4.84 倍引用・1.37 年早い PI 昇進)と集団的縮小(トピック多様性 4.63% 減・研究者間交流 22% 減)を同時実証。Nature 649, 1237–1243 (2026)。PDF 非公開(Nature 購読)。(paper / scientometrics / ai-impact / science-of-science) ### 2026-07-02 PLaMo 2 Technical Report ingest - [[@2025__arXiv__PLaMo 2 Technical Report]](新規) — [[Preferred Networks]] による日本語重視 LLM 系列 [[PLaMo 2]] の技術報告。Samba ベースの Mamba + スライディングウィンドウアテンション構成、合成日本語データ、重み再利用、31B→8B の構造化枝刈り・知識蒸留、32K 文脈対応 CPT、vLLM 実装、INT4 重み量子化、FP8 KV キャッシュ量子化を報告。図 1-6 を attachment 化済み。(paper / arxiv / llm / japanese / inference) ### 2026-07-02 XProf (MLSys 2026) ingest - [[@2026__MLSys2026__XProf - An Open, Scalable and Extensible Profiling System for the Modern ML Stack]](新規) — [[Robert Hundt]] ほか([[Google Cloud]]、MLSys 2026 Oral)。OpenXLA エコシステムの ML プロファイラ XProf の設計・アーキテクチャを報告。TraceMe 超低オーバーヘッド計装・GTC 精密クロッキング・MapReduce スケーラブルバックエンドの 3 革新で TPU 0.3% 未満のオーバーヘッドを達成。PJRT C API 拡張でサードパーティアクセラレーターをプラグイン対応。MLPerf 受賞・Google 社内効率改善の実績。(paper / ml-systems / profiling / openxla) ### 2026-07-02 The Case for Learned Index Structures ingest - [[@2017__arXiv__The Case for Learned Index Structures]](新規) — [[Tim Kraska]]・[[Alex Beutel]]・[[Ed H. Chi]]・[[Jeffrey Dean]]・[[Neoklis Polyzotis]]（[[MIT]] / [[Google]]）。B-Tree・ハッシュマップ・Bloom filter を「キーから位置または存在を予測するモデル」と再解釈し、[[Learned Index]]、RMI、学習ハッシュ関数、学習 Bloom filter を提案。整数範囲索引で B-Tree 比最大 1.5〜3 倍高速・最大 2 桁小さい索引、学習ハッシュで最大 77.5% 衝突削減、学習 Bloom filter で 1% FPR 時 36% メモリ削減を報告。(paper / database / machine-learning / indexing) #### Modernizing Incident Response with LLMs, RAG, and the MCP (SREcon25 EMEA, 2025) (2026-07-01) - [[@2025__SREcon25EMEA__Modernizing Incident Response with LLMs, RAG, and the MCP]] — [[Theofilos Papapanagiotou]]([[Amazon]])、USENIX SREcon25 EMEA(2025-10-08、ダブリン)。属人化した障害対応知識を [[Model Context Protocol]] による人間・エージェント共通ツールインターフェースと、[[RAGベースクラウド運用支援|RAG]](OpenSearch + Bedrock Titan embeddings)による知識検索で刷新する取り組みを報告。「自動化ではなく理解を目指した」を中心主張に、MCPアーキテクチャ・IAMロール分離の認証設計・評価駆動開発(Promptfoo)・cognitive reliability への信頼性再定義を提示。70ページ + YouTube Whisper 音声文字起こし。(slides / sre / incident-management / mcp / rag / agentic-sre / srecon) ### 2026-07-01 The Un-Incident (SREcon25 EMEA) ingest - [[@2025__SREcon25EMEA__The Un-Incident]](新規) — [[Andreas Deuschl]]（[[Dynatrace]]、USENIX SREcon25 EMEA、2025-10-08、ダブリン）。正式宣言されない潜在インシデント「アンインシデント」を 4 類型(No-CI / NOF / Near Miss / Fear Miss)に分類し、Gray Zone Playbook(マインドセット→カルチャー→ストラクチャー→プロセス→事実ベース意思決定)として体系化。30〜60% の潜在インシデントが正式トラッキングを通過しないという実務推計(自己経験)を提示。AI 支援トリアージ(Dynatrace Davis CoPilot)・ラッキーセーブの記録・NOF インシデントのプロダクト設計への転用を処方として示す。26 スライド、transcript なし。(slides / sre / incident-management) ### 2026-07-01 Incident Groundhog Day (SREcon24 EMEA) ingest - [[@2024__SREcon24EMEA__Incident Groundhog Day]](新規) — [[Hamed Silatani]]（[[Uptime Labs]]、USENIX SREcon24 EMEA、2024-10-30、ダブリン）。20名のインシデントマネージャーが同一ステージドワールドシミュレーション(Black Friday eコマース・APIキー障害)を個別体験した実験報告。13/20が25分以内に解決。解決時間は経験と相関せず、重大度議論に費やした時間が多いほど解決時間が短くなった。Solo Artist vs Band Member の行動パターン差、Allspaw の4カテゴリ(Diagnostic/Therapeutic/Recruiting/Status-Reporting)を実証。31フレーム、YouTube 自動字幕 transcript(1967行)付き。(video / sre / incident-management / incident-simulation) ### 2026-07-01 Incident Management Metrics that Matter (SREcon25 Americas) ingest - [[@2025__SREcon25Americas__Incident Management Metrics that Matter]](新規) — [[Jamie Luck]]・[[Laura de Vesine]]([[Datadog]])、USENIX SREcon25 Americas、2025-03-27、サンタクララ。MTTR など naive なメトリクスの統計的不堅牢性と逆インセンティブを論証し、8 次元・目標ベースの代替指標フレームワークを Datadog 実践から提示。ロールプレイ形式、49 スライド(スピーカーノート付き)、transcript なし。(slides / sre / incident-management / metrics) ### 2026-07-01 From 4 Hours to 8 Minutes with AI Agents that Transform SRE Incident Response (SREcon25 EMEA) ingest - [[@2025__SREcon25EMEA__From 4 Hours to 8 Minutes with AI Agents that Transform SRE Incident Response]](新規) — [[Peter Jausovec]]([[Solo.io]])、USENIX SREcon25 EMEA、2025-10、ダブリン。AIRE (AI Reliability Engineering) フレームワークと [[kagent]](Kubernetes ネイティブ、CNCF サンドボックス)を用いた SRE インシデント対応の自動化。エージェント構成(システムプロンプト+ツール+LLM)・エージェントループ・MCP(Model Context Protocol)・A2A(Agent2Agent)プロトコル・主要能力4段階(Operational Knowledge / Awareness / Investigation / Resolution)を解説。17スライド、transcript なし、デモあり(スライド未記録)。(slides / sre / aiops / agent / mcp / cloud-native) ### 2026-07-01 Embracing the Multi-Party Dilemma (SREcon23 EMEA) ingest - [[@2023__SREcon23EMEA__Embracing the Multi-Party Dilemma - Incident Response Across Company Boundaries]](新規) — [[Sarah Butt]]([[SentinelOne]])・[[Alex Elman]]([[Indeed]])、USENIX SREcon23 EMEA、2023-10、ダブリン。組織境界を越えたインシデント対応で生じる「Multi-Party Dilemma(多者間ジレンマ)」——情報・影響・時間的の3非対称性——を、Indeed の Learning from Incidents 実践（2021年テーマ分析）を出発点に体系化。ベンダーとの一過性組織(transient organization)・多中心的統治(polycentric governance)モデル、CDN ベンダーとの双方向情報共有によるリトライストーム回避事例を含む。20フレーム(7枚を目視確認)、whisper 自動文字起こし transcript(147行)付き。(video / sre / incident-response / resilience-engineering / human-factors) ### 2026-07-01 What Is Incident Severity, but a Lie Agreed Upon? (SREcon24 Americas) ingest - [[@2024__SREcon24 Americas__What Is Incident Severity, but a Lie Agreed Upon?]](新規) — [[Emily Ruppe|Em Ruppe]]（[[Jeli]]、登壇時点で [[PagerDuty]] に買収済み、USENIX SREcon24 Americas、2024-03-19、サンフランシスコ）。インシデント重大度は「組織内で合意された嘘」であるという Fred Nii の言葉を出発点に、重大度の正しい定義よりも組織的合意の難しさを論じる。severity を組織的問題（過小評価・過大評価・説明不足・未成熟さ）の「カナリア」と位置づけ、Google/Facebook 型の複雑な多次元マトリクス化（"incident math"）を明確に否定。17フレーム、YouTube 自動字幕 transcript（1634行）付き。(video / sre / incident-management) ### 2026-07-01 An Organizational Response to Incidents (SREcon23 Americas) ingest - [[@2023__SREcon23Americas__An Organizational Response to Incidents]](新規) — Dr. [[Laura Maguire]]([[Jeli]]、USENIX SREcon23 Americas、2023-03-22、Santa Clara)。Incident Commander への組織的関心の集中を問い直し、対応の大半を担う「フォロワー」の働き——[[Followship]]——を、SNAFUcatchers・IBM・New Relic 等との共同研究知見から体系化。調整のパラドックス・DELEGATE/DELAY/DIMINISH/DROP戦略・フォロワーシップが見える8つの行動・共通基盤(common ground)の4象限・Reconfiguring(組織再編)・Observe/Talk/Analyzeフレームワークを提示。101スライド、transcript なし。(slides / sre / incident-response / resilience-engineering / human-factors) ### 2026-07-01 Handover Communications in Software Operations (SREcon23 Americas) ingest - [[@2023__SREcon23Americas__Handover Communications in Software Operations - Findings from the Field]](新規) — [[Chad Todd]]([[CrowdStrike]]、[[Lund University]] 大学院で人的要因・安全科学を専攻、USENIX SREcon23 Americas、2023-03-21、サンフランシスコ)。半構造化インタビューによる質的研究で、CrowdStrike 社内の Network Operations Center・Customer Support Center を対象に、引き継ぎコミュニケーション([[Handover Communications]])がエンジニアの確信度(Confidence)に与える影響を [[Joint Activity]]・[[Common Grounding]]・Adaptive Capacity の3概念で分析。6テーマを抽出。38スライド、Whisper transcript(335行)付き。(slides / human-factors / sre / incident-response) ### 2026-07-01 The Math behind the Incident Aftermath (SREcon22 APAC) ingest - [[@2022__SREcon22APAC__The Math behind the Incident Aftermath]](新規) — [[Ashish Patel]] / [[Sriram Srinivasan]]([[PayPal]] Site Reliability Platform Engineering / Technical Architect、SREcon22 APAC、2022-12-07、シドニー)。インシデントの顧客影響を FCI(Failed Customer Interactions)という定量指標で測定する実務フレームワーク。ベースライン予測との乖離から可用性を算出し(実例: Baseline 99.9990% vs 実測 99.6171%、FCI 33,322件)、国・製品・マーチャント等5軸でセグメンテーション可能。動画は要ログインのため未取得。34スライド。(slides / sre / incident-management / fci) ### 2026-07-01 Evolution of Incident Management at Slack (SREcon21) ingest - [[@2021__SREcon21__Evolution of Incident Management at Slack]](新規) — [[Brent Chapman]]（Slack, Staff Engineer / Reliability Pillar、USENIX SREcon21、2021-10-14）。Google iMAG の設計者が Slack の 2018年 reliability crisis を機に Incident Management プログラムをゼロから構築し、Major IC オンコールが直面した7つの課題（地域間負荷格差・個人責任過多・タスク過多・同時多発・リソース競合・長期化・特定チーム偏在）とその解決策（Slack IC・Area Command・pillar別ローテーション等）を解説。PagerDuty クラスを土台にした IC 訓練率実績25%等の定量データも含む。41スライド、YouTube 音声 Whisper transcript（301行）付き。(slides / sre / incident-management) ### 2026-07-01 You Can't Stop Fires with an Ambulance (SREcon18 Asia) ingest - [[@2018__SREcon18Asia__You Can't Stop Fires with an Ambulance]](新規) — [[Piers Chamberlain]]（[[Xero]] Head of Site Reliability Engineering、SREcon18 Asia/Australia、2018-06、シンガポール）。クラウド移行後のアラート倍増・インシデント増加への対応として、症状ベースアラート [[Klaxon]](顧客ページヒット率検知)・chatbot [[Multivac]](war room 代替)・運用衛生スコア [[Report Card]] を紹介。2年分の post-mortem を手動横断集計し `#release` が最大の contributing cause と発見。23スライド、transcript付き。(slides / sre / alert-management / incident-management) ### 2026-07-01 Fixing On-Call When Nobody Thinks It's (Too) Broken (SREcon19 Americas) ingest - [[@2019__SREcon19 Americas__Fixing On-Call When Nobody Thinks It's (Too) Broken]](新規) — [[Tony Lykke]]（[[Hudson River Trading]] Trade Systems SRE、SREcon19 Americas、2019-03-25）。高urgencyページを6年間の71,317件(週平均201件)から4か月で1,015件(週平均56件)へ削減した実務報告。技術変更は最小限のフィルタ層追加に留め、「9 Really Hard Steps」フレームワークとgit shortlogによるバイイン可視化で組織的合意形成を進めた。34スライド、YouTube自動字幕transcript付き。(slides / sre / alert-management / on-call) ### 2026-07-01 nrrd 911 ic me (SREcon16 Americas) ingest - [[@2016__SREcon16__nrrd 911 ic me - The Incident Commander Role]](新規) — [[Alice Goldfuss]]（[[New Relic]] SRE、SREcon16 Americas、2016-03）。ICS（Incident Command System）のソフトウェア運用適応。3役分離（IC/TL/CL）・Sev1 拡張（EC/LL）・重大度5段階・Hubot/Nrrd chatbot デモ・全員訓練方針・3日→3時間の ROI 証拠。transcript（Whisper）付き。51スライド。(slides / sre / incident-management / ics) ### 2026-07-01 Software Engineering (Boehm, IEEE-TC 1976) ingest - [[@1976__IEEE-TC__Software Engineering]](新規) — [[Barry W. Boehm]]（[[TRW Systems and Energy Group]]、IEEE Transactions on Computers, Vol. C-25, No. 12、1976-12）。ソフトウェアエンジニアリングの定義と 1976 年時点の包括的サーベイ。欠陥修正コストの指数的増大・設計エラー優位(60:40)・保守コスト約 70% の実証データを含む。Area 1 vs Area 2 の二分類でソフトウェア科学の成熟度を診断。6 図・104 文献。(paper / software-engineering / survey / classic) ### 2026-07-01 Unified Theory of SRE (SREcon22 EMEA) ingest - [[@2022__SREcon22 EMEA__Unified Theory of SRE]](新規) — [[Emil Stolarsky]]（[[Wave Mobile Money]]、SREcon22 EMEA、2022-10）。SRE Book が 2400+ インフラエンジニアを抱える Google 固有の前提で書かれているという批判的考察と、スタートアップ（Default Dead）向けの SRE 再構築論。開発速度優先・Boring Technology・FAANG 技術フロンティア論を含む。48 スライド、YouTube 動画付き。(slides / sre / startup / reliability / boring-technology) ### 2026-07-01 Notes from Production Engineering (SREcon15) ingest - [[@2015__SREcon15__Notes from Production Engineering]](新規) — [[Pedro Canahuati]]（Facebook Production Engineering ディレクター）。SREcon15, 2015-03-13。Facebook が 2009 年から 2015 年にかけて SRE 組織をゼロから再建した 5 段階変革の記録。SRO の創設と解散・FBAR による自動化・Cobalt クラスター自動構築・ODS モニタリング・週次 SEV レビューを詳述。(video / sre / organization / facebook) ### 2026-06-30 Software Analytics for Incident Management of Online Services (ASE 2013) ingest - [[@2013__ASE__Software Analytics for Incident Management of Online Services - An Experience Report]](新規) — [[Jian-Guang Lou]] / [[Qingwei Lin]] / [[Rui Ding]] / [[Qiang Fu]] / [[Dongmei Zhang]](Microsoft Research Asia) / [[Tao Xie]](UIUC)。ASE 2013 Experience Track, pp. 475–485。インシデント管理をソフトウェアアナリティクス問題として定式化し Service Analysis Studio(SAS)を開発・本番展開した最初期産業 AIOps の経験報告。CAR マイニングによるインシデントビーコン特定(再現率~90% vs L1-LR ~60%)・FCA+DMI による不審実行パターン抽出・ガウス異常検知による異常サーバロール検知・GVSM 治癒行動推薦(top-1 精度 0.90)の 4 手法を含む。OCE 91% が利用、86% のインシデントを診断対象、76% で有用。(paper / aiops / incident-management / software-analytics / log-analysis) ### 2026-06-30 Xpert (ICSE 2024) ingest - [[@2024__ICSE__Xpert - Empowering Incident Management with Query Recommendations via Large Language Models]](新規) — [[Yuxuan Jiang]] ほか 10 名（[[University of Michigan]] / [[Microsoft]]）。ICSE 2024。LLM ICL + Faiss ベクター検索による KQL クエリ自動推薦。GPT-4 版が Identicality 35.46%(template)で全ベースラインを凌駕。Xcore(構文・意味・出力スキーマの 3 観点評価指標)を新提案。本番 1 ヶ月パイロットで応答時間約 5 秒。(paper / aiops / incident-management / llm / kql / query-recommendation) ### 2026-06-30 AI Assistants for Incident Lifecycle in a Microservice Environment (arXiv 2024) ingest - [[@2024__arXiv__AI Assistants for Incident Lifecycle in a Microservice Environment - A Systematic Literature Review]](新規) — [[Dahlia Ziqi Zhou]]・[[Marios Fokaefs]]（[[York University]]）。arXiv 2410.04334、2024 年 10 月。309 件から 31 件を選定した SLR。Detect 54.8%・Contain 35.4%・Prepare 9.7%・Post-incident 3.2%。LLM 38.7%・DL 32.2%。ユーザースタディ 5/31 件。(paper / survey / aiops / incident-management / microservice / llm) ### 2026-06-30 FaultProfIT (ICSE-SEIP 2024) ingest - [[@2024__ICSE-SEIP__FaultProfIT - Hierarchical Fault Profiling of Incident Tickets in Large-scale Cloud Systems]](新規) — [[Junjie Huang]] ほか 9 名（[[The Chinese University of Hong Kong]] / [[Sun Yat-sen University]] / [[Huawei Cloud]]）。ICSE-SEIP 2024。クラウドシステムのポストモーテムにおける障害パターンプロファイリングを初めて自動化。階層誘導型対照学習 + Graphormer で F1=78.3%（HiAGM 比 +3.2 ポイント）を達成。Huawei Cloud(CloudA)で 6 ヶ月本番稼働、30+ サービス・10,000+ インシデントを解析。(paper / aiops / incident-management / postmortem / cloud) ### 2026-06-30 Fail through the Cracks (EuroSys 2023) ingest - [[@2023__EuroSys__Fail through the Cracks - Cross-System Interaction Failures in Modern Cloud Systems]](新規) — [[Lilia Tang]]・[[Chaitanya Bhandari]]* ほか([[University of Illinois Urbana-Champaign]] / [[Purdue University]])。EuroSys '23。CSI 障害(クロスシステムインタラクション障害)の初体系分析。本番インシデントの20%がCSI起因。データプレーン51%・管理プレーン32%・コントロールプレーン17%。(source / paper / cloud / reliability / distributed / csifailures) ### 2026-06-30 Metastable Failures in Distributed Systems (HotOS 2021) ingest - [[@2021__HotOS__Metastable Failures in Distributed Systems]](新規) — [[Nathan Bronson]]（Rockset、旧 Facebook）ほか 3 名。HotOS 2021。分散システムのメタ安定障害を初めて体系化。安定・脆弱・メタ安定の 3 状態モデルと sustaining effect の概念を導入。再試行・キャッシュ・リンク不均衡の 4 事例。特性メトリクス・隠れキャパシティ・トリガー強度の研究課題を提示。(paper / distributed-systems / reliability / sre / metastable-failures) ### 2026-06-30 Gray Failure: The Achilles' Heel of Cloud-Scale Systems (HotOS 2017) ingest - [[@2017__HotOS__Gray Failure - The Achilles' Heel of Cloud-Scale Systems]](新規) — [[Peng Huang]] ほか 6 名（[[Microsoft Research]] / [[Microsoft Azure]] / [[Johns Hopkins University]]）。HotOS 2017。Azure 本番インシデント経験からグレイ障害の公式定義(差分可観測性)を提唱し、高冗長性が逆に可用性を下げる逆説・ハートビート検知器の死角・復旧が連鎖障害を招くケースを示す。解決方向は「Observer の観測ギャップを埋める」多次元ヘルス監視。(paper / reliability / cloud / gray-failure / differential-observability / azure) ### 2026-06-30 mTCP: a Highly Scalable User-level TCP Stack for Multicore Systems (NSDI 2014) ingest - [[@2014__NSDI__mTCP - a Highly Scalable User-level TCP Stack for Multicore Systems]](新規) — [[EunYoung Jeong]] ほか（[[KAIST]] / Princeton University）。ユーザーレベルTCPスタック mTCP。パケットI/Oとソケットイベントの双方向バッチ統合でカーネルTCPスタックの根本的非効率性を解決。8コアで Linux 比25倍・MegaPipe 比3倍のトランザクション性能。NSDI Community Award 受賞。(source / paper / networking / systems / kernel-bypass) ### 2026-06-30 ISPASS 2015 — VM vs Linux Containers ingest - [[@2015__ISPASS__An Updated Performance Comparison of Virtual Machines and Linux Containers]](新規) — Wes Felter ほか(IBM Research Austin)。Docker 1.0 と KVM を Intel Sandy Bridge-EP サーバ上で体系比較。コンテナはほぼ全ケースで VM と同等以上の性能。AUFS と NAT がパフォーマンス落とし穴。(source / paper / systems / virtualization / cloud) ### 2026-06-30 Scaling Memcache at Facebook (NSDI 2013) ingest - [[@2013__NSDI__Scaling Memcache at Facebook]](新規) — Rajesh Nishtala ほか 13 名(Facebook Inc.)。秒間数十億リクエストを処理する memcached ベース分散キー値ストアの設計・運用を詳述。リースメカニズム・Gutter プール・mcsqueal・Cold Cluster Warmup 等を体系化。(source / paper / distributed / caching) ### 2026-06-30 Live Upgrading Thousands of Servers from an Ancient Red Hat Distribution to 10 Year Newer Debian Based One (LISA 2013) ingest - [[@2013__LISA__Live Upgrading Thousands of Servers from an Ancient Red Hat Distribution to 10 Year Newer Debian Based One]](新規) — Marc Merlin(Google)による、Red Hat 7.1 から Debian ベース ProdNG へ数千台をライブアップグレードした経験報告。ファイルレベル同期・段階的パッケージ移行・ELF バイナリパッチ。LISA '13。 ### 2026-06-30 An AI system to help scientists write expert-level empirical software (Nature 2026) ingest - [[@2026__Nature__An AI system to help scientists write expert-level empirical software]] — Eser Aygün\* ほか 14 名（\*equal contrib, alphabetical）、責任著者: Shibl Mourad（[[DeepMind]]）・[[Michael P. Brenner]]（[[Google Research]] / [[Harvard University]]）。Nature Vol. 654, Issue 8120（2026-05-19 オンライン）。ERA（Empirical Research Assistance）：LLM + PUCT 木探索でスコアリング可能な科学タスクの経験的ソフトウェアを自動生成。scRNA-seq バッチ統合で 40 手法が OpenProblems リーダーボードの人手最高手法を凌駕、COVID-19 入院予測で 14 手法が CDC アンサンブルを上回った。GIFT-Eval・ZAPBench・地理空間・数値積分でもエキスパートレベル。arXiv:2509.06503v3。(paper / ai4science / llm / tree-search / code-generation / nature / bioinformatics / epidemiology) ### 2026-06-30 Towards end-to-end automation of AI research (Nature 2026) ingest - [[@2026__Nature__Towards end-to-end automation of AI research]] — [[Chris Lu]]・[[Cong Lu]]・[[Robert Tjarko Lange]]・[[Yutaro Yamada]]・[[Shengran Hu]]・[[Jakob Foerster]]・[[David Ha]]・[[Jeff Clune]]([[Sakana AI]] / University of Oxford / UBC / Vector Institute)。Nature Vol. 651 (2026-03-26)。The AI Scientist: アイデア創出・実験・論文執筆・査読を端から端まで自律化するパイプライン。テンプレートベースとテンプレート自由(並列化エージェントツリー探索)の2モード。生成論文がILCR 2025 ICBINBワークショップ査読(採択率70%)を通過した初事例。自動査読者の均衡精度は人間と同等(69% vs 66%)。モデル世代・計算量の両軸でスケーリングする。(paper / ai-research-automation / llm / agentic-ai / scientific-discovery / nature) ### 2026-06-30 Practices for Making Alerts Actionable (SRE NEXT 2020) - [[@2020__SRENext2020__Practices for Making Alerts Actionable]] — [[Sohei Iwahori]]（[[GREE, Inc]]、インフラ/Monitoring Unit Leader）。SRE NEXT 2020（2020-01-25）。オンプレ由来アラートルールのクラウド流用で2018/09に月300件超ピークを経験。月次Top10計測・振り分け3段階（Slack/JIRA/PagerDuty）・Alert Operator自動復旧・SysLoad共通指標の5本柱でアクショナブル化を実践。41 スライド。(slides / sre / alert-management / on-call / gree / sre-next) ### 2026-06-30 Who owns the Service Level? (SRE NEXT 2022) - [[@2022__SRENext2022__Who owns the Service Level?]] — [[近藤武士]]（[[Recruit]]、Engineering Manager, SRE）。SRE NEXT 2022（2022-05-15）。スタディサプリでの SLO Review（2020）振り返りと技術戦略グループによる解決——SLI/SLO 定義・観察は成功したが Error Budget Policy の行動定着に失敗した構造的理由（非機能要求への予算・権限不足）と 1:1:1 予算配分による解決。「Service Level は全員のもの」。79 スライド。(slides / sre / slo / sre-next / studysapuri / recruit) ### 2026-06-30 Enabling Client-side SLO (SRE NEXT 2024) - [[@2024__SRENext2024__Enabling Client-side SLO]] — [[Wataru Tsuda]]（[[Luup]] Reliability Engineer、gr1m0h）。SRE NEXT 2024（2024-08-04、Track B jp005）。iOS/Android クライアントへの SLO 拡張——BLE 操作や Firestore 直接通信が API 計測では漏れるため、CUJ 再設定（PdM/SWE/SRE 三者・ユーザージャーニーマトリクス）→ Datadog APM p75 Latency SLI → Datadog Time Slice SLO + Multi-tiered SLOs（Upside/Downside/Actual）まで実践。文化醸成（Weekly SLI/SLO レビュー）が最重要。41 スライド。(slides / sre / slo / client-side / mobile / enabling-sre / sre-next / luup) ### 2026-06-30 電動マイクロモビリティのシェアサービス「LUUP」におけるEnabling SLOの実践 (SRE NEXT 2023) - [[@2023__SRENext2023__電動マイクロモビリティのシェアサービス「LUUP」におけるEnabling SLOの実践]] — [[Wataru Tsuda]]（[[Luup]] SRE、gr1m0h）。SRE NEXT 2023（2023-09-29）。Enabling SLO として開発組織全体に SLI/SLO を普及（習熟度調査14問+勉強会）し、IoT チームには CMC（Critical Machine Communication）概念で SLI を設計。Embedded SRE が困難なスタートアップではLeadとの直接コミュニケーションが有効。35 スライド。(slides / sre / slo / iot / enabling-sre / sre-next / luup) ### 2026-06-30 プロダクトオーナーとしてSLOに向き合う〜Mackerelチームの事例〜 (SRE NEXT 2023) - [[@2023__SRENext2023__プロダクトオーナーとしてSLOに向き合う〜Mackerelチームの事例〜]] — [[渡辺起]]（[[Hatena]]、Mackerel プロデューサー）。SRE NEXT 2023（2023-09-29）。PO 視点での SLO 導入実践——「判断と改善をチームで回す」を動機に、信頼性をユーザー主語で定義し仮値から始めた Mackerel チームの事例。Error Budget Policy は「調査するか判断する」から開始。DORA 2022 フロー/後期段階。39 スライド。(slides / sre / slo / sre-next / hatena / mackerel) ### 2026-07-01 Tales from the VOID: The Scary Truth About Incident Metrics (SREcon22 Americas) - [[@2022__SREcon22Americas__Tales from the VOID - The Scary Truth About Incident Metrics]] — [[Courtney Nash]]（[[Verica]]）。SREcon22 Americas（2022-03-14）。VOID データベース（1,856 件・610 組織）の実分布を用いて MTTR・持続時間・RCA の統計的不堅牢性と認識論的問題を論証し、SLO・調整コスト・テーマ/ナラティブ・ニアミス分析への転換を提案。29 スライド、transcript なし。(slides / sre / incident-management / metrics / postmortem) ### 2026-06-30 DO, RE, Me: Measuring the Effectiveness of Site Reliability Engineering (SREcon22 Americas) - [[@2022__SREcon22Americas__DO RE Me - Measuring the Effectiveness of Site Reliability Engineering]] — [[Dave Stanke]]（Google Cloud、SREcon22 Americas、2022-03-16）。DORA の 2021 年 SRE 調査を紹介。52% が SRE 実践、信頼性は force multiplier、SRE は DevOps の一部を実装。49 スライド。(slides / sre / devops / dora) ### 2026-06-30 Is the S in SRE for "Security"? (SREcon25 Americas) - [[@2025__SREcon25Americas__Is the S in SRE for Security]] — [[John Benninghoff]]（[[Security Differently]] 創業者）。SREcon25 Americas（2025-03）。Safety-II・DORA・Veracode・Sonatype の実証データを根拠に、SRE の中核実践（インベントリ管理・パッチ頻度）がセキュリティコントロールのトップ2と同一であることを示す。Security Level Objectives（SLO のセキュリティ版）の概念を提案。29 スライド。(slides / sre / security / safety) Navigation: [[index]] | [[concepts/_index]] | [[entities/_index]] ingest した新規ソース 1 件につき 1 ページの要約一覧。原本は `.raw/` に不変で保持される。 --- ### 2026-06-30 Beyond Sequential: A Recipe for Async Pipeline Observability and Alerting (SREcon25 Americas) - [[@2025__SREcon25Americas__Beyond Sequential - A Recipe for Async Pipeline Observability and Alerting]] — [[Jash Mistry]]・[[Gabriela Medvetska]]（[[eBay]] SRE）。SREcon25 Americas（2025-03）。非同期パイプライン（Producer→Queue→Consumer→Retry）に SLI/SLO を適用するレシピ。可用性 SLI（SUCCESS/ABANDONED 比率、RETRY 除外）・レイテンシ SLI（end-to-end 累積 histogram）・マルチウィンドウ・マルチバーンレートアラート（Critical/Warning 2 段階）・SLO ダッシュボード 4 ビュー・Serving Suggestions（Triage Assistant/CI 統合/Coverage & Compliance）・ケーススタディ 2 件。50 スライド。(slides / sre / slo / async / observability) ### 2026-06-30 9 Things You Should Do When Starting to Use SLOs (SREcon23 EMEA) - [[@2023__SREcon23EMEA__9 Things You Should Do When Starting to Use SLOs]] — [[Sal Furino]]（Customer Reliability Engineer）。SREcon23 EMEA（2023-10-11、ダブリン）。SLO 導入の 9 アドバイスを「システム理解・期待値理解・逸脱認識」3 カテゴリで整理。成功率 > エラー率の SLI 原則、ステークホルダー別時間窓（24h/14D/Monthly）、SLODLC（SLO Development Lifecycle）フレームワーク、「Observability Without Action is Just Storage」の格言。40 スライド。(slides / sre / slo / slodlc) ### 2026-06-30 Measuring Reliability: What Got Us Here Won't Get Us There (SREcon22 EMEA) - [[@2022__SREcon22EMEA__Measuring Reliability - What Got Us Here Won't Get Us There]] — [[Štěpán Davidovič]]（[[Google]] Senior Staff SRE）。SREcon22 EMEA（2022-10-25、アムステルダム）。SLI/SLO モデルの限界（誤差マージン・線形性仮定・最良データでない）を体系化し、「問い → モデル → バックテスト」3 ステップのオペレーショナリゼーションを提唱。ステークホルダー 5 類（オンコール〜CEO）ごとに異なる時間窓・SLI 数が必要というバブルチャートが特徴的。42 スライド。(slides / sre / slo / reliability-measurement) ### 2026-06-30 SLX: An Extended SLO Framework to Expedite Incident Recovery (SREcon21) - [[@2021__SREcon21__SLX - An Extended SLO Framework to Expedite Incident Recovery]] — [[Qian Ding]]・[[Xuan Zhang (Ant Group)]]（[[Ant Group]] Infra SRE）。SREcon21（2021-10-13、Virtual）。SLO を SLF（Service Level Factor）と SLD（Service Level Dependency）に拡張し、SLX Graph と GitOps 管理で大規模インシデント調査を効率化する実践報告。40 スライド。(slides / sre / slo / aiops) ### 2026-06-30 Going from 30 to 30 Million SLOs (SREcon22 EMEA) - [[@2022__SREcon22EMEA__Going-from-30-to-30-Million-SLOs]] — [[Alex Palcuie]]（[[Google]] SRE、GCE Compute API チーム）。SREcon22 EMEA（2022-10、アムステルダム）。GCE の SLO を 6 年間で 30 個 → 約 1,000 個 → 3,000 万個（顧客単位）へ拡張した実践。レイテンシを「fast requests / total requests」として可用性 SLI と同一基盤で管理するトリック、Rachel Kroll "Your nines are not my nines" の動機、5 エラーのルール（少トラフィック顧客への動的 SLO ターゲット設定）、per-project SLI/SLO 演算グラフを解説。28 スライド。(slides / sre / slo / per-customer) ### 2026-06-30 Principled Performance Analytics (SREcon22 Americas) - [[@2022__SREcon22Americas__Principled Performance Analytics]] — [[Narayan Desai]]・[[Brent Bryan]]（[[Google]] Cloud SRE）。SREcon22 Americas（2022-03-16）。SLO の根本的限界（エラー認識は人間のゲシュタルト的判断に依存し SLO は実現不可能）を論じ、代替として 2σ手法（ワークロードコホート＋正規分布 z スコア＋較正不要の定常性検定）を提示。バックテストで従来監視より 18 時間先行した障害検知、階層的診断、逸脱影響評価、相関計測、コホート A/B テストの 5 アプリケーション。40 スライド。(slides / sre / performance-analytics / stationarity) ### 2026-06-30 Beyond Goldilocks Reliability (SREcon21) - [[@2021__SREcon21__Beyond-Goldilocks-Reliability]] — [[Narayan Desai]]（[[Google]] Cloud SRE）。SREcon21（2021-10-14）。Goldilocks Reliability（SLI 閾値設定アプローチ）の 4 荷重仮定を分析・批判し、代替として定常性（Stationarity）による信頼性モデル化を提唱。3 次元（可用性・パフォーマンス・正確性）への定常性仮定付与と階層的診断による根本原因識別を解説。23 スライド。(slides / sre / reliability-modeling) ### 2026-06-30 Squish Level Objectives (SREcon20 Americas) - [[@2020__SREcon20Americas__Squish Level Objectives]] — [[Dave Stanke]]（[[Google]] Cloud Platform Developer Advocate）。SREcon20 Americas（2020、バーチャル）。「スクイッシュな人間」である顧客を中心に据えた SRE 実践。3 つの神話（顧客接点なし・プロダクトを作っていない・フィーチャーを作っていない）の反論、製品の認知的構築物定義、顧客理解の 3 手法（Talk/Be/Mess with them）、エラーバジェットの UX 実験活用、SLO Policy Rationale でユーザー行動データを根拠づける手法。41 スライド、YouTube 字幕あり。(slides / sre / slo / customer-centric) ### 2026-06-30 Latency and Availability Error Budgets Done Right at Scale (SREcon20 Americas) - [[@2020__SREcon20Americas__Latency-and-Availability-Error-Budgets-Done-Right-at-Scale]] — [[Fred Moyer]]（[[Zendesk]] SRE）。SREcon20 Americas（2020-12-08、バーチャル）。SLI/SLO/EB の機械解析可能な公式・レイテンシと可用性の OR 結合複合 SLI・1,000 名規模でのエラーバジェット民主化・マルチサービス構成での EB 伝播問題を解説。37 スライド。(slides / sre / slo / error-budget) ### 2026-06-30 Avoiding Goodhart's Law (SREcon20 Americas) - [[@2020__SREcon20Americas__Avoiding Goodhart's Law]] — [[Marco Coulter]]（[[AppDynamics]]、AIOps Technical Evangelist）。SREcon20 Americas（2020-12-07、バーチャル）。グッドハートの法則の SRE 文脈応用——SLO が「棍棒」になるとゲーミングが起きることを HL7 医療ラボシステム事例で示す。Code・Infrastructure・CX の 3 次元 SLI/SLO/SLA フレームワークと、パフォーマンスカーブ SLO（多段パーセンタイル閾値）、行動ベース CX SLI（再試行パターン）、反復的 SLO 交渉プロセスを提案。35 スライド。(slides / sre / slo / goodharts-law) ### 2026-06-29 SLOs for Data-Intensive Services (SREcon19 EMEA) - [[@2019__SREcon19EMEA__SLOs for Data-Intensive Services]] — [[Yoann Fouquet]]（[[Booking.com]] SRE）。SREcon19 EMEA（2019-10-02）。可用性・レイテンシ SLO に加えて、検索サービスのデータ一貫性(99.99%)・新鮮性(99.9%/xx秒)・完全性・耐久性という「データ品質 SLO」を定義したプロセスを紹介。プローブ・ゲートウェイ内部比較・クエリバケット(手動/自動)による実装と、SLO が可能にした自動緩和・自動修復を解説。29 スライド。(slides / sre / slo / data-quality) ### 2026-06-29 Extending the Error Budget Model to Security and Feature Freshness (SREcon19 Americas) - [[@2019__SREcon19Americas__Extending the Error Budget Model to Security and Feature Freshness]] — [[Jim Thomson]]・[[David Laing]]（[[Pivotal Software]] Cloud R&D）。SREcon19 Americas（2019-03-27、NYC）。エラーバジェットモデルを[[脆弱性バジェット]](SLI=パッチリリースからの経過日数・SLO=30 日)と[[フィーチャーフレッシュネス]](k8s 90 日アップグレード)に拡張。Equifax 侵害(CVE-2017-5638、67 日)への 30 日 SLO の有効性を論証。51 スライド。(slides / sre / security / error-budget) ### 2026-06-29 Latency SLOs Done Right (SREcon19 Americas) - [[@2019__SREcon19 Americas__Latency SLOs Done Right]] — [[Fred Moyer]]（[[Circonus]] Developer Evangelist）。SREcon19 Americas（2019-03-27、Brooklyn）。パーセンタイル平均化の誤り（p95(W1∪W2)≠(p95(W1)+p95(W2))/2、~200% 誤差）と、レイテンシ SLO の 3 手法（ログ・カウンタ・ヒストグラム）を解説。libcircllhist のマージ可能ログリニアヒストグラムを推奨。50 スライド。(slides / sre / slo / observability) ### 2026-06-29 SLOs and SLIs in the Real World: A Deep Dive (SREcon18 Europe/EMEA) - [[@2018__SREcon18Europe__SLOs and SLIs in the Real World - A Deep Dive]] — [[Elisa Binette]]・[[Matthew Flaming]]（[[New Relic]]）。SREcon18 Europe/EMEA（2018-08-30）。Americas 版の再演。ケイパビリティ駆動 SLI/SLO 7 ステップレシピ・ハードシャード per-shard SLO・複合 SLO・インフラ SLO・UI SLI・dumb SLI・10 takeaway。29 スライド・音声収録あり。(slides / sre / slo) ### 2026-06-29 SLOs and SLIs in the Real World: A Deep Dive (SREcon18 Americas) - [[@2018__SREcon18Americas__SLOs and SLIs in the Real World - A Deep Dive]] — [[Elisa Binette]]・[[Matthew Flaming]]（[[New Relic]]）。SREcon18 Americas（2018-03-28）。ケイパビリティ駆動の SLI/SLO 定義 7 ステップレシピ、ハードシャード per-shard SLO、複合 SLO、コアインフラ SLO 設計、全体 dumb SLI によるサニティチェック、10 の takeaway。25 スライド。(slides / sre / slo) ### 2026-06-29 How Atlassian Is Tackling Error Budgets, Agile Style (SREcon18 Asia) - [[@2018__SREcon18Asia__How Atlassian Is Tackling Error Budgets, Agile Style]] — [[Gui Vieiro]]（[[Atlassian]] SRE Team Lead）。SREcon18 Asia（2018-06-06）、シンガポール。エラーバジェットの段階的(アジャイル)導入事例。「Error Budgets 0.1」として開発停止なしに開始、13週中7週未達をトリガーに設計、週次可視化・ブログ公開による組織的受容、SLO 達成率の回復（Jul-Sep 下降→Oct 以降 85-100%）。47 スライド。(slides / sre / error-budget / reliability) ### 2026-06-29 Error Budgets and Risks (SREcon15, 2015) - [[@2015__SREcon15__Error Budgets and Risks]] — [[Marc Alvidrez]]（[[Google]]）。SREcon15（2015-03-16）、Santa Clara, CA。エラーバジェットフレームワークの初期体系的紹介。SLA はミニマムかつマクシマム、リクエスト成功率による可用性計算、1% クラスターによるリスク境界化、エラーバジェット = 可用性 − SLA ターゲット。transcript（Whisper）付き。26 スライド。(slides / sre / error-budget / reliability) ### 2026-06-29 How We Foster "Reliability" in Diversity (SRE NEXT 2022) - [[@2022__SRE NEXT__How We Foster Reliability in Diversity]] — [[Narimichi Takamura]]（[[Topotal]]）。SRE NEXT 2022（2022-05-14）。組織の多様性に応じた SRE の育て方。5ステップ・氷山モデル（Level 1/2/3）・MVV 策定・ダイナミックケイパビリティ・組織の信頼性マインドセット。50 スライド。(slides / sre / organization) ### 2026-06-29 小さくはじめるSLI/SLO ～育てながら組織に定着させる実践知～ (Road to SRE NEXT 2026 @神戸) - [[@2026__Road to SRE NEXT 2026 神戸__小さくはじめるSLI-SLO 育てながら組織に定着させる実践知]] — [[Narimichi Takamura]]（[[Topotal]]）。2026-06-15、Road to SRE NEXT 2026 @神戸。SLI/SLO 導入の 3 つの難点・SRE 4 ステップを援用した段階的フレームワーク・SLO 違反ポリシー 5 段階拡大・成熟度モデル（定義/運用/定着各 5 段階）。48 スライド。(slides / sre / slo) ### 2026-06-29 Rethinking Incident Response: Context-Aware AI in Practice (SRE NEXT 2025) - [[@2025__SRE NEXT 2025__Rethinking Incident Response - Context-Aware AI in Practice]] — [[Ryota Yoshikawa]]（[[Topotal]]）。SRE NEXT 2025（2025-08-19）。SAE 自動運転 L0〜L5 に対応する IR0〜IR5 フレームワークを提唱。MCP + Coding Agent により IR2〜IR3 が現実的になった現状を分析し、Waroom MCP を用いた IR2+ デモ(Sentry→調査→PR→クローズ)を示す。OpenRCA(11%) / AIOpsLab(RCA 14%)ベンチマークから RCA・緩和は研究段階と整理。(slides / sre / incident-response / aiops) ### 2026-06-29 組織的なインシデント対応を目指して / SRE NEXT 2024 - [[@2024__SRE NEXT 2024__組織的なインシデント対応を目指して]] — [[Narimichi Takamura]]（[[Topotal]]）。SRE NEXT 2024（2024-08-03）。[[インシデント対応成熟度モデル]]（Pre-Incident/Response/Post-Incident の3フェーズ×9プロセス×Absent/Reactive/Proactive/Strategic の4段階）の提案。成熟度評価・フェーズマイグレーション手順を含む。(slides / sre / incident-management / maturity-model) ### 2026-06-29 On-demand Container Loading in AWS Lambda (USENIX ATC 2023) - [[@2023__ATC__On-demand Container Loading in AWS Lambda]] — [[Marc Brooker]] ほか([[Amazon Web Services]])。USENIX ATC 2023 Best Paper Award。AWS Lambda のオンデマンドコンテナローディングシステム。決定論的フラット化 + 収束暗号化 + 3 階層キャッシュ(L1 ワーカーローカル/L2 AZ レベル/L3 S3)+ 4-of-5 イレイジャーコーディングで、毎秒 15,000 コンテナ起動と 99.8% 超のキャッシュヒット率を達成。(paper / serverless / distributed-systems / cloud) ### 2026-06-29 In Search of an Understandable Consensus Algorithm (USENIX ATC 2014) - [[@2014__ATC__In Search of an Understandable Consensus Algorithm]] — [[Diego Ongaro]]・[[John Ousterhout]]（[[Stanford University]]）。USENIX ATC 2014 Best Paper Award。Raft 合意アルゴリズムの提案論文。multi-Paxos 等価・リーダー選出/ログ複製/安全性の分解設計・ランダム化タイムアウトによるスプリットボート解消・ジョイントコンセンサスによるメンバーシップ変更。43 名スタディで 33 名が Paxos より Raft クイズ高得点。(paper / distributed / consensus) ### 2026-06-28 CockroachDB: The Resilient Geo-Distributed SQL Database (SIGMOD 2020) - [[@2020__SIGMOD__CockroachDB - The Resilient Geo-Distributed SQL Database]] — [[Rebecca Taft]] ほか([[Cockroach Labs]])。SIGMOD 2020。汎用ハードウェア上で直列化可能分離を実現する地理分散 SQL DBMS。MVCC + Read Refresh + Parallel Commits のトランザクションモデル・Raft 合意・3 種地理分散データ配置ポリシー。TPC-C 100,000 ウェアハウスで 98.8% 効率。(paper / database / distributed / sql / oltp) ### 2026-06-28 F1: A Distributed SQL Database That Scales (VLDB 2013) - [[@2013__VLDB__F1 - A Distributed SQL Database That Scales]] — [[Jeff Shute]] ほか([[Google]])。VLDB 2013 / PVLDB Vol.6 No.11。Spanner 上の分散 OLTP/OLAP SQL DB。AdWords 基盤。100 TB 超・5 ナイン可用性・フル SQL。階層スキーマ・3 種トランザクション・非ブロッキングスキーマ変更・変更履歴・ハッシュ分散 SQL エンジン。(paper / database / distributed / sql) ### 2026-06-28 Amazon MemoryDB: A Fast and Durable Memory-First Cloud Database (SIGMOD 2024) - [[@2024__SIGMOD__Amazon MemoryDB - A Fast and Durable Memory-First Cloud Database]] — [[Yacine Taleb]] ほか([[Amazon Web Services]])。2024 年 SIGMOD-Companion。Redis API 互換・11 9s 耐久性のインメモリクラウド DB。マルチ AZ トランザクションログへの耐久性分離・書き込み後ろロギング・オフボックススナップショット・ログベースリーダー選出を核心とする。(database / cloud / distributed-systems) ### 2026-06-28 Amazon Aurora: On Avoiding Distributed Consensus for I/Os, Commits, and Membership Changes (SIGMOD 2018) - [[@2018__SIGMOD__Amazon Aurora - On Avoiding Distributed Consensus for I Os, Commits, and Membership Changes]] — [[Alexandre Verbitski]] ほか（[[Amazon Web Services]]）。2018-06、SIGMOD 2018 Industry Track。Aurora 2017 論文の続編。SCL/PGCL/VCL/VDL 一貫性ポイント階層・クォーラム読み込み回避（単一セグメント直接読み）・クォーラムセット + エポックによる非ブロッキックメンバーシップ変更・フル/テールセグメント非対称コスト削減（6× → 約 3×）の 4 貢献。(database / distributed / cloud) ### 2026-06-28 Amazon Aurora: Design Considerations for High Throughput Cloud-Native Relational Databases (SIGMOD 2017) - [[@2017__SIGMOD__Amazon Aurora - Design Considerations for High Throughput Cloud-Native Relational Databases]] — [[Alexandre Verbitski]] ほか（[[Amazon Web Services]]）。2017-05、SIGMOD 2017。MySQL 互換クラウドネイティブ OLTP DB の設計。Redo ログのみをネットワーク越しに送る「ログがデータベース」設計・6 ウェイ AZ+1 クォーラム・10 秒以内クラッシュリカバリ・ミラード MySQL 比 35 倍スループットを実現。(database / distributed / cloud) ### 2026-06-28 Characterizing Cloud Computing Hardware Reliability (SoCC 2010) - [[@2010__SoCC__Characterizing Cloud Computing Hardware Reliability]] — [[Kashi Venkatesh Vishwanath]]・[[Nachiappan Nagappan]]([[Microsoft Research]])。2010 年 SoCC。100,000 台超のサーバーを 14 か月観測した初の大規模データセンターハードウェア障害実証研究。AFR 約 8%、HDD が修理の 78%・初回障害の 70%、障害予測因子はデータセンター名とメーカー名、連続障害はインバース曲線(R²=0.974)に適合。(datacenter / reliability / hardware) ### 2026-06-28 Unlock High-Frequency Deployments without Blowing Up Prometheus (SREcon26 Americas) - [[@2026__SREcon26Americas__Unlock High-Frequency Deployments without Blowing Up Prometheus]] — [[Ganesh Vernekar]]（[[Reddit]] Staff SWE / Prometheus TSDB メンテナー）。2026-03-26、SREcon26 Americas。Kubernetes 高頻度デプロイによる Prometheus OOM 問題と、stale-series compaction（v3.10.0 実験機能）の設計・Reddit 本番実験・閾値選択ガイドを解説。失活系列比率 > 0.5 で検討、YouTube 字幕 transcript 付き。(slides/sre/prometheus/observability) ### 2026-06-28 Reliability Equilibrium: The Hidden Playbook behind SRE Influence (SREcon26 Americas) - [[@2026__SREcon26Americas__Reliability Equilibrium - The Hidden Playbook behind SRE Influence]] — [[Daria Barteneva]]（[[Microsoft Azure]] Observability Engineering, Principal SRE）。2026-03-26、SREcon26 Americas。ゲーム理論（囚人のジレンマ・Stag Hunt・公共財ゲーム・ベイジアンゲーム・進化的ゲーム）を SRE の社会技術的問題に適用する「Reliability Equilibrium」フレームワーク。メカニズムデザインとして SLO・エラーバジェット・カナリアデプロイを再定義。60 ページ、transcript なし。(slides/sre/game-theory/mechanism-design) ### 2026-06-28 Loop Engineering Working Note (Osmani / HuaShu) - [[@2026__Working Note__Loop Engineering - The Anthropic Playbook for Designing Systems That Prompt Your Agents]] — [[Addy Osmani]] ほか（HuaShu 編）。2026-06。ループエンジニアリングの包括的 working note。4 層スタック・5 ムーブ（discovery/handoff/verification/persistence/scheduling）・6 パーツ・5 失敗パターン・ジェネレータ/エバリュエータ分離・4 コスト強化サイクルを体系化。Stripe Minions（週 1,300+ PR）実例収録。(paper / agents / software-engineering) ### 2026-06-28 Beyond Loss and Accuracy: Closing the Observability Gaps in AI Training with TrainCheck (SREcon26 Americas) - [[@2026__SREcon26Americas__Beyond Loss and Accuracy - Closing the Observability Gaps in AI Training with TrainCheck]] — [[Yuxuan Jiang]]・[[Ryan Huang]]（[[University of Michigan]] / [[OrderLab]]）。2026-03-25、SREcon26 Americas。[[TrainCheck]](OSDI 2025)の SRE 向け実践発表。損失スカラー・GPU 使用率では検知できないサイレント障害に対し、訓練不変条件の自動推論・継続検証で 18/20 件を 1 イテレーション以内に検知、偽陽性率 2% 未満。BLOOM-176B・凍結エンコーダの詳細ケーススタディ収録。(slides/systems-ml/deep-learning/sre/traincheck) ### 2026-06-28 Executing Chaos Engineering in Production at a Critical Financial Institution (SREcon26 Americas) - [[@2026__SREcon26Americas__Executing Chaos Engineering in Production at a Critical Financial Institution]] — [[Luiz Siqueira]]・[[Leonardo Marques]]（[[Bradesco]]）。2026-03-24、SREcon26 Americas。ブラジル最大級の民間銀行が本番環境でカオスエンジニアリングを段階的に導入。手動実験フェーズで Redis・Hikari・Circuit Breaker・DNS キャッシュ等の重大脆弱性を発見し、内製ツール [[EasyPerform]] による自動化・+300 人 GameDay へ発展。MTTD 73% 削減・MTTR 22% 改善。transcript なし。(slides/sre/chaos-engineering/financial) ### 2026-06-28 AI Agents for Incident Investigation (SREcon26 Americas) - [[@2026__SREcon26Americas__AI Agents for Incident Investigation - The Good, The Bad, and The Ugly]] — [[Vladyslav Budichenko]]（[[Vocaly AI]]）。2026-03-24、SREcon26 Americas。AIエージェントによるインシデント調査の利点・欠点・危険を実務視点で整理。RCA精度11.34%実測・プロンプトインジェクション+540%・trust-for/verifyフレームワーク。(slides/sre/aiops/incident-response/agent) ### 2026-06-28 So You Want a New Incident Commander (SREcon26 Americas) - [[@2026__SREcon26 Americas__So You Want a New Incident Commander]] — [[Vanessa Huerta Granda]]（[[Enova]]）。2026年、SREcon26 Americas。IC プログラム10年超の実践知。IC の3コアコンピテンシー（コミュニケーション・社会技術的リーダーシップ・認知負荷管理）と3チーム類型（Deliberate/Domain/Volunteer）を定義。構造より「IC の役割の明示」が普遍的要件。スライド PDF 25 ページ。(slides/sre/incident-management/incident-commander) ### 2026-06-28 1年間のポストモーテム運用とそこから生まれたツール sre-advisor (SRE NEXT 2022) - [[@2022__SRENEXT2022__1年間のポストモーテム運用とそこから生まれたツール sre-advisor]] — [[藤原俊一郎]]（[[面白法人カヤック]]）。2022-05-14、SRE NEXT 2022。Embedded SRE 組織での横断統一ポストモーテム運用（2020年10月開始）と、振り返りから生まれた AWS リソース設定静的チェック CLI ツール sre-advisor を紹介。「インシデント → ポストモーテム → sre-advisor → 事前検出」循環ループ。YouTube 字幕トランスクリプト使用。(slides/sre/postmortem/incident-management) ### 2026-06-28 Learning from Incidents at Scale (SREcon25 Americas) - [[@2025__SREcon25 Americas__Learning from Incidents at Scale - Actually Doing Cross-Incident Analysis]] — [[Vanessa Huerta Granda]]（[[Enova]]）。2025-03-26、SREcon25 Americas。個別インシデント学習から[[クロスインシデント分析]]へ。専任チーム・定量＋定性アーティファクト・組織計画連動ケイデンスの3要素。MTTR 等の指標はコンテキストなしでは意味がない。部門横断招待が最重要変革。スライドPDF未取得（USENIX サインイン必須）、YouTube 字幕トランスクリプトに基づく。(slides/sre/incident-management/postmortem/cross-incident-analysis) ### 2026-06-28 The Case of the Misnamed Cities: CAST Analysis of a Google Maps Incident (SREcon26 Americas) - [[@2026__SREcon26Americas__The Case of the Misnamed Cities - CAST Analysis of a Google Maps Incident]] — [[Ruben Barroso]]（[[Google]]）。2026-03-25、SREcon26 Americas。Google Maps 都市名誤表示インシデントを事例に RCA vs CAST を対比実演。時系列≠因果・イベント選択の主観性・制御構造による組織的因果要因の析出を論じる。(slides / sre / postmortem / safety-engineering / CAST) ### 2026-06-28 Human Observability of Incident Response (SREcon23 Americas) - [[@2023__SREcon23Americas__Human Observability of Incident Response]] — [[Matt Davis]]（[[FORM.com]]）。2023-03-23、SREcon23 Americas、サンタクララ。インシデント対応を即興演奏（Joint Activity）として捉え、Response Trio（コンダクター・コミュニケーター・問題解決者）・Common Grounding・Practice of Practice Gamelan を提案。人間のオブザーバビリティを技術的オブザーバビリティから独立した観測問題として位置付ける。(slides / sre / incident-response / resilience-engineering / human-factors) ### 2026-06-28 Incident Archeology (SREcon23 Americas) - [[@2023__SREcon23Americas__Incident Archeology - Finding Value in the Paperwork and Narratives of the past]] — [[Clint Byrum]]（[[Spotify]]）。2023-03-21、SREcon23 Americas、サンタクララ。過去のインシデント記録をアーティファクトとして仮説検証する「インシデント考古学」を提唱。Spotify の 2020〜2021 年データから、ポストモーテム完了率 55%→62%・業務時間中宣言 80%・変更起因 30%・時刻フィールド 75% デフォルト放置という副産物知見を報告。(slides / sre / postmortem / incident-management) ### 2026-06-28 The Repeat Incident Fallacy (SREcon22 EMEA) - [[@2022__SREcon22EMEA__The Repeat Incident Fallacy - What Jurassic Park Can Teach Us about Incidents]] — [[Emily Ruppe]]（[[Jeli|Jeli.io]]）。2022-10-26、SREcon22 EMEA、アムステルダム。「同じインシデントは二度と起きない（Repeat Incident Fallacy）」——CI/CD による継続的変化が「再発防止誓約」を達成不可能にすることをジュラシックパーク映画で論じ、「Insights from the Past = Options in the Future」への目標転換を提唱。(slides / sre / postmortem / resilience-engineering / incident-management) ### 2026-06-28 A Post Incident Review Review (SREcon22 APAC) - [[@2022__SREcon22APAC__A Post Incident Review Review]] — [[Tom Partington]]（[[ANZx]]）。2022-12-09、SREcon22 APAC。PIR の目的を「修復 > 学習」から「学習 > 修復」へ転換する。根本原因・アクションアイテム・MTTx を意図的に除外した ANZx の PIR² プロセス（7ステップ）を紹介。Safety II・Rasmussen モデル・Dekker's Tunnel・スイスチーズモデル・カウザルマップ・Blame-aware デブリーフィングを実践に接続。(slides / sre / postmortem / safety-engineering) ### 2026-06-28 Principled Identification of "Root Causes" Using Techniques from Safety Engineering (SREcon22 EMEA) - [[@2022__SREcon22 EMEA__Principled Identification of Root Causes Using Techniques from Safety Engineering]] — Laura de Vesine(Datadog)。安全工学の System/Environment 境界モデルを SRE インシデント分析に適用し「根本原因 = システムの脆弱性」「トリガー = 環境条件」と再定義。5 Whys の失敗モードをトリガーホワイトアモールとして診断し、ニアミス調査の重要性を論じた。YouTube transcript 付き。(slides / sre / postmortem / safety-engineering) ### 2026-06-28 Ditch the Template: How to Write Incident Reports They Want To Read (SREcon22 EMEA) - [[@2022__SREcon22 EMEA__Ditch the Template - How to Write Incident Reports They Want To Read]] — [[Laura Nolan]]（[[Stanza Systems]]、元 Google・Slack SRE）、SREcon22 EMEA、2022-10-26、アムステルダム。「IR の価値は学習にあり、プロセスにあるのではない」。テンプレート形式を捨てナラティブ（謎→調査→解決）で書くことを提唱。読者サポート・視覚化・分析・文体の 4 軸。(slides / sre / postmortem / incident-management) ### 2026-06-27 Architecting a Technical Post Mortem (SREcon18 Americas) - [[@2018__SREcon18 Americas__Architecting a Technical Post Mortem]] — Will Gallego(Etsy)。ポストモーテムを「学習文化の適用」として再定義。ブレーム・アウェア / 根本原因は誤った概念 / 反事実の回避 / ローカル合理性 / 修復的正義。33 枚スライド。(slides / sre / postmortem / SREcon18) ### 2026-06-27 Failures and Fixes: A Study of Software System Incident Response (arXiv 2020) - [[@2020__arXiv__Failures and Fixes - A Study of Software System Incident Response]] — Jonathan Sillito・Esdras Kutomi(Brigham Young University)。30 インシデント(15 件インタビュー + 15 件公開ポストモーテム)の定性分析。障害の 4 原因カテゴリ・検知の 3 次元(自動化/特異性/適時性)・調査の日和見的/体系的戦略・緩和の 5 戦略・11 の主要観察を体系化。(paper / incident-response / qualitative / arXiv 2020) ### 2026-06-27 Do Not Blame Users for Misconfigurations (SOSP'13) - [[@2013__SOSP__Do Not Blame Users for Misconfigurations]] — Tianyin Xu ほか(UCSD/Toronto/NetApp)。SPEX: ソースコードのデータフロー解析で設定制約を自動推論し、設定ミス脆弱性 743 件を検出。「設定ミスはユーザーの失敗ではなく開発者の設計問題」を主張。(paper / configuration / program-analysis / systems / SOSP'13) ### 2026-06-27 OTel-Arrow Phase 2 (opentelemetry.io blog 2026) - [[@2026__OTelBlog__OTel-Arrow-Phase-2]] — OTel-Arrow SIG、2026。Apache Arrow のカラム型フォーマットをパイプライン全体の内部表現として採用する Phase 2 構想。OTAP が単一コアで OTLP 比 20× スループット（2.47M vs 121K logs/sec）。DFE は Rust 実装、incubation-stage。(article / observability / opentelemetry) ### 2026-06-27 マイクロサービス RCA/FL 10 論文一括 ingest - [[@2024__arXiv__Cloud Atlas - Efficient Fault Localization for Cloud Systems using Language Models and Causal Insight]] — Zhiqiang Xie ほか(Stanford/CMU/Microsoft Research)。LLM でシステム文書から因果グラフを自動合成し障害箇所特定。手動構築グラフと同等精度。(paper / fault-localization / llm / causal) - [[@2024__FSE__Chain-of-Event - Interpretable Root Cause Analysis for Microservices through Automatically Learning Weighted Event Causal Graph]] — Zhenhe Yao ほか(清華/CAS/eBay)。マルチモーダル観測データをイベントに変換し重み付きイベント因果グラフで解釈可能な RCA。(paper / rca / microservice / interpretable) - [[@2024__KDD__Microservice Root Cause Analysis with Limited Observability]] — 限定観測可能性下の潜在空間介入認識による RCA。(paper / rca / causal)(既存更新) - [[@2024__TOSEM__HeMiRCA - Fine-Grained Root Cause Analysis for Microservices with Heterogeneous Data Sources]] — Zhouruixing Zhu ほか(CUHK-Shenzhen/CUHK)。トレース+メトリクスの異種データ間単調相関で階層的 RCA。top-1 82.7%。(paper / rca / heterogeneous) - [[@2026__Elsevier__MicroIRC - Instance-level Root Cause Localization for Microservice Systems]] — Yuhan Zhu ほか(武漢大学/CSIRO)。インスタンスレベル GNN ベース RCA。二重グラフ構造。(paper / rca / gnn / instance-level) - [[@2025__NeurIPS__Root Cause Analysis of Outliers with Missing Structural Knowledge]] — Orchard ほか(Cambridge/MPI/Amazon)。因果グラフ未知の単一サンプル RCA の理論的保証。(paper / causal / theory) - [[@2026__TVCG__RCInvestigator - Towards Better Investigation of Anomaly Root Causes in Cloud Computing Systems]] — Shuhan Liu ほか(Zhejiang/Microsoft)。人間-機械協調型 RCA 可視分析。(paper / visualization / rca) - [[@2024__FSE__Illuminating the Gray Zone - Non-Intrusive Gray Failure Localization in Server Operating Systems]] — Shenglin Zhang ほか(南開/清華/Huawei)。グレー障害の非侵入的箇所特定。AC@5 90%。(paper / gray-failure / fault-localization) - [[@2024__FSE__SynthoDiag - Fault Diagnosis for Test Alarms in Microservices through Multi-source Data]] — Shenglin Zhang ほか(南開/Huawei Cloud/清華)。テストアラーム多ソース障害診断。(paper / testing / diagnosis) - [[@2024__TSC__MicroDig - Diagnosing Performance Issues for Large-Scale Microservice Systems With Heterogeneous Graph]] — Lei Tao ほか(南開/清華/Tencent)。異種グラフで性能障害診断。(paper / microservice / performance / heterogeneous-graph) ### 2026-06-27 PreServe ICSE 2026 ingest - [[@2026__ICSE__PreServe - Intelligent Management for LMaaS Systems via Hierarchical Prediction]] — Zhihan Jiang ほか(CUHK)。mLSTM ワークロード予測 + DistilBERT 応答長予測の二層構造で LMaaS オートスケーリングとルーティングを最適化。(paper / llm / serving / aiops) ### 2026-06-27 障害箇所特定・根本原因分析 11 論文一括 ingest - [[@2025__nkcs.iops.ai__Accurate and Interpretable Log-Based Fault Diagnosis using Large Language Models]] — LogInsight。LLM ファインチューニング + FOLS ログ圧縮による障害診断と説明文生成。(paper / aiops / log / llm) - [[@2025__arXiv__BSODiag - A Global Diagnosis Framework for Batch Servers Outage in Large-scale Cloud Infrastructure Systems]] — 時空間グラフ RCA + 障害伝播パス推論によるクラウドインフラ障害診断。(paper / cloud-infra / rca) - [[@2025__arXiv__COCA - Generative Root Cause Analysis for Distributed Systems with Code Knowledge]] — ソースコードを第四の診断信号源として活用する生成的 RCA。(paper / rca / llm / code) - [[@2025__arXiv__RADICE - Causal Graph Based Root Cause Analysis for System Performance Diagnostic]] — PCMCI+ + 部分ドメイン知識で因果サブグラフを出力する RCA。(paper / causal / rca) - [[@2025__AAAI Workshop AICT__Causal Discovery for Cloud Microservice Architectures]] — PCMCI+ によるマイクロサービスのレイテンシグラフ因果発見。(paper / causal / microservice) - [[@2022__ESEC FSE__Actionable and Interpretable Fault Localization for Recurring Failures in Online Service Systems]] — DéjàVu。障害ユニット粒度の再帰障害向け箇所特定。(paper / fault-localization) - [[@2025__TOSEM__Making Fault Localization in Online Service Systems More Actionable and Interpretable]] — FL-AIer。多層 GAT + 不均衡対処で DéjàVu を拡張。(paper / fault-localization) - [[@2024__TSC__No More Data Silos - Unified Microservice Failure Diagnosis With Temporal Knowledge Graph]] — UniDiag。TKG で 3 モダリティの異種性を解消。(paper / microservice / knowledge-graph) - [[@2024__ASE__SLIM - A scalable and interpretable light-weight fault localization algorithm for imbalanced data in microservice]] — DNF ルールセットで二重不均衡の障害箇所特定。(paper / fault-localization) - [[@2024__ASE__The Potential of One-Shot Failure Root Cause Analysis - Collaboration of the Large Language Model and Small Classifier]] — LasRCA。LLM をラベラーに限定し小型分類器と協調するワンショット RCA。(paper / rca / llm) - [[@2024__arXiv__FaaSRCA - Full Lifecycle Root Cause Analysis for Serverless Applications]] — サーバーレス関数のライフサイクル段階単位 RCA。(paper / serverless / rca) ### 2026-06-27 RCA・障害箇所特定・集合通信診断 9 論文一括 ingest - [[@2026__TOSEM__LLMRCA - Multilevel Root Cause Analysis for LLM Applications Using Multimodal Observability Data]] — [[Gou Tan]] ほか。LLM アプリケーション特化の多段 RCA。マルチモーダルオブザーバビリティデータ（トレース・ログ・メトリクス）を統合。(paper / aiops / rca / llm) - [[@2026__FSE__MetaRCA - A Generalizable Root Cause Analysis Framework for Cloud-Native Systems Powered by Meta Causal Knowledge]] — メタ因果知識による未知システムへの汎化可能な RCA フレームワーク。(paper / aiops / rca / causal) - [[@2026__PPoPP__CCL-D - A High-Precision Diagnostic System for Slow and Hang Anomalies in Large-Scale Model Training]] — 大規模モデル訓練における集合通信の遅延・ハング異常の高精度診断。(paper / hpc / collective-communication / diagnosis) - [[@2025__arXiv__KPIRoot+ - An Efficient Integrated Framework for Anomaly Detection and Root Cause Analysis in Large-Scale Cloud Systems]] — 異常検知と RCA を統合したエンドツーエンドフレームワーク。(paper / aiops / rca / anomaly-detection) - [[@2025__SIGCOMM__Towards LLM-Based Failure Localization in Production-Scale Networks]] — [[BiAn]] / [[Guyue Liu]] ほか。本番規模ネットワークにおける LLM ベース障害箇所特定。(paper / networking / fault-localization / llm) - [[@2025__ICLR__Robust Root Cause Diagnosis using In-Distribution Interventions]] — [[TWIST]]。分布内介入による因果推論ベース RCA のロバスト性向上。(paper / causal / rca / interventional) - [[@2026__ACM TOSEM__ThinkFL - Self-Refining Failure Localization for Microservice Systems via Reinforcement Fine-Tuning]] — 強化微調整による自己改善型障害箇所特定。(paper / aiops / fault-localization / llm) - [[@2025__arXiv__eARCO - Efficient Automated Root Cause Analysis with Prompt Optimization]] — [[eARCO]]。プロンプト最適化による効率的な自動 RCA。(paper / aiops / rca / llm) - [[@2025__arXiv__GALA - Can Graph-Augmented Large Language Model Agentic Workflows Elevate Root Cause Analysis]] — [[GALA]]。グラフ拡張 LLM エージェントワークフローによる RCA。(paper / aiops / rca / llm / agent) ### 2026-06-27 データベースノブチューニング・自律 DB 3 論文 ingest - [[@2024__VLDB__GPTuner - A Manual-Reading Database Tuning System via GPT-Guided Bayesian Optimization]] — [[Jiale Lao]]・[[Mingjie Tang]]（Sichuan University）/ [[Jianguo Wang]]（[[Purdue University]]）ほか。LLM でマニュアル・フォーラムを読み構造化知識を構築、Coarse-to-Fine ベイズ最適化で既存手法比 16 倍速く良い設定を発見。最善手法比最大 30% の性能改善。(paper / database / llm / aiops) - [[@2021__VLDB__openGauss - An Autonomous Database System]] — [[Guoliang Li]]・[[Xuanhe Zhou]]（[[Tsinghua University]]）ほか。学習ベースの最適化技術を実オープンソース DB に統合した初の包括的自律データベースフレームワーク。学習型オプティマイザ（MCTS クエリ書き換え・Tree-LSTM コスト推定・DRL プラン生成）と学習型アドバイザ（自己監視・自己診断・自己設定・自己最適化）を構成。(paper / database / autonomous-database / aiops) - [[@2017__SIGMOD__Automatic Database Management System Tuning Through Large-scale Machine Learning]] — [[Dana Van Aken]]・[[Andrew Pavlo]]（[[Carnegie Mellon University]]）ほか。OtterTune の原論文。教師あり・教師なし ML を組み合わせた 3 段階パイプラインで DBMS ノブ設定を自動最適化。デフォルト比 58〜94% のレイテンシ低減。(paper / database / machine-learning / aiops) ### 2026-06-27 データベース異常診断・RCA 8 論文一括 ingest - [[@2025__ICDE__Anomaly Diagnosis with Siamese Discrepancy Networks in Distributed Cloud Databases]] — [[Lingsen Yan]]・[[Bolong Zheng]]（[[Huazhong University of Science and Technology]]）/ [[Xiaofang Zhou]]（HKUST）/ Huawei ほか。分散クラウド DB の異常診断をシャムネットワークによる正常-異常乖離パターンで分類。少数ショット対応。(paper / aiops / database / anomaly-diagnosis) - [[@2025__AIDB__AutoDebugger - Efficient Root Cause Analysis for Anomaly Jobs]] — Fathelrahman Ali（Google）/ Yiwen Zhu ほか（Microsoft）。Microsoft Fabric 環境の Spark ジョブ異常に対しホワイトボックス予測モデル+ML で根本原因分析を 10 倍以上高速化。(paper / aiops / spark / rca) - [[@2025__VLDB__RCRank - Multimodal Ranking of Root Causes of Slow Queries in Cloud Database Systems]] — [[Biao Ouyang]]・Yingying Zhang（Alibaba Cloud）/ [[Yang Shu]]・[[Chenjuan Guo]]（ECNU）/ [[Christian S. Jensen]]（Aalborg）ほか。スロークエリの根本原因をクエリ文・実行計画・ログ・KPI の 4 モダリティでランキング。(paper / database / rca / multimodal) - [[@2023__Amazon Science__Vista - Machine Learning based Database Performance Troubleshooting Framework in Amazon RDS]] — [[Vikramank Singh]]・Zhao Song・[[Tim Kraska]]（AWS / MIT）ほか。Amazon RDS の DB 性能トラブルシューティング 3 段パイプライン（検知→RCA→解決）。深層自己回帰モデルで非定常・準周期ワークロード対応。(paper / database / aiops / amazon) - [[@2023__FSE__Adapting Performance Analytic Techniques in a Real-World Database-Centric System]] — [[Lizhi Liao]]・[[Heng Li]]・[[Weiyi Shang]]（Waterloo / Polytechnique Montréal）/ ERA Environmental ほか。データベース中心アーキテクチャの性能分析技法適応に関する産業経験報告。(paper / database / performance / industrial-experience) - [[@2023__PACMMOD__BALANCE - Bayesian Linear Attribution for Root Cause Localization]] — [[Chaoyu Chen]]・Hang Yu・[[Jianguo Li]]（[[Ant Group]]）/ Wenhui Shi（[[OceanBase]]）ほか。XAI の帰属フレームワークを RCA に適用。BMFS + 帰属分析 + KPI 間マージの 3 コンポーネント。(paper / rca / xai / database) - [[@2019__VLDB__GRANO - Interactive Graph-based Root Cause Analysis for Cloud-Native Distributed Data Platform]] — [[Hanzhang Wang]]・Phuong Nguyen ほか（[[eBay]]）。eBay NuData プラットフォーム向けグラフベース RCA システム。Detection Layer / Anomaly Graph Layer / Application Layer の 3 層。(paper / rca / graph / cloud-native) - [[@2019__SIGMOD__ExplainIt! - A Declarative Root-cause Analysis Engine for Time Series Data]] — [[Vimalkumar Jeyakumar]]・[[Navindra Yadav]]（[[Cisco Tetration Analytics]]）ほか。SQL ライクな宣言的言語で因果仮説を列挙・ランキングする教師なし RCA エンジン。(paper / rca / causal / declarative) ### 2026-06-27 データベースノブチューニングサーベイ 2 本 ingest - [[@2023__TKDE__Automatic Database Knob Tuning - A Survey]] — [[Xinyang Zhao]]・[[Xuanhe Zhou]]・[[Guoliang Li]]（[[Tsinghua University]]）。ノブチューニングのパイプラインを4段階（ノブ選択・特徴量選択・チューニング手法・転移技術）に分解し、ヒューリスティック・BO・DL・RL の4クラス16手法を体系的に比較した初の包括的サーベイ。(paper / database / aiops / survey) - [[@2024__arXiv__Automatic Configuration Tuning on Cloud Database - A Survey]] — [[Limeng Zhang]]・[[M. Ali Babar]]（[[University of Adelaide]]）。クラウド DBMS の自動設定チューニングサーベイ。安全性・適応性をフレームワークに明示的に組み込み、「経験からの知識」を独立段階として定式化。(paper / database / aiops / cloud / survey) ### 2026-06-27 DB-BERT SIGMOD 2022 論文 ingest - [[@2022__SIGMOD__DB-BERT - a Database Tuning Tool that Reads the Manual]] — [[Immanuel Trummer]](Cornell University)。BERT × Double DQN で DBMS マニュアルを「読んで」ノブをチューニングする NLP 強化型データベースチューニング。全実験(TPC-H/TPC-C × Postgres/MySQL)でベースラインを凌駕。(paper / database / nlp / aiops) ### 2026-06-26 SRE NEXT 2023「エンジニアのためのSRE論文への招待」スライド ingest - [[@2023__SRE NEXT 2023__エンジニアのためのSRE論文への招待]] — [[坪内佑樹]]による SRE NEXT 2023 IN TOKYO 発表。未普及技術論文をエンジニアの実装・適用のアイデア源として位置づけ、SRE 論文を国際会議・検索・引用ネットワークから能動的に探し、探索時の速読と適用時の精読を分ける実践を紹介。(slides / sre / research / paper-reading) ### 2026-06-26 データセンター信頼性・クラウド障害論文 9 本 ingest - [[@2017__DSN__What Can We Learn from Four Years of Data Center Hardware Failures]] — 29 万件超のハードウェア障害操作チケットから相関障害と修理保留の影響を分析。(paper / datacenter / reliability) - [[@2016__SoCC__Why Does the Cloud Stop Computing - Lessons from Hundreds of Service Outages]] — 597 件の停止から復旧連鎖の不完全さを整理。(paper / cloud / reliability) - [[@2018__IMC__A Large Scale Study of Data Center Network Reliability]] — Facebook のデータセンター内外ネットワークを長期分析。(paper / networking / reliability) - [[@2019__HotOS__What Bugs Cause Production Cloud Incidents]] — Azure 本番インシデントのバグを分析。(paper / cloud / software-reliability) - [[@2011__SOSP__An Empirical Study on Configuration Errors in Commercial and Open Source Systems]] — 546 件の設定誤りを分析。(paper / configuration) - [[@2020__NSDI__Understanding, Detecting and Localizing Partial Failures in Large System Software]] — OmegaGen による部分障害の検知・箇所特定。(paper / distributed) - [[@2013__ACM TOS__Datacenter Scale Evaluation of the Impact of Temperature on Hard Disk Drive Failures]] — HDD 温度・利用率・障害の関係を分析。(paper / datacenter) - [[@2024__ISSTA__An Empirical Study on Kubernetes Operator Bugs]] — 210 件の Kubernetes Operator バグを分析。(paper / kubernetes) - [[@2016__ASPLOS__TaxDC - A Taxonomy of Non-Deterministic Concurrency Bugs in Datacenter Distributed Systems]] — 104 件の分散並行バグの分類体系。(paper / distributed / concurrency) ### 2026-06-26 SRE NEXT 2022 AIOps研究録スライド ingest - [[@2022__SRE NEXT 2022__AIOps研究録―SREのためのシステム障害の自動原因診断]] — [[坪内佑樹]]（[[さくらインターネット研究所]]）による SRE NEXT 2022 ONLINE 発表。SLO ベースの症状アラートと原因診断を分離し、全メトリクスからの因果グラフ生成に向けて異常検知・形状クラスタリングを前処理として段階化。PC アルゴリズムの条件付き独立性検定が原因から症状への経路を切りうる課題と、AI を運用する自動化の皮肉を示す。(slides / aiops / sre / rca / time-series) ### 2026-06-26 ソフトウェア信頼性工学 2 論文 ingest - [[@2007__FOSE__Software Reliability Engineering - A Roadmap]](新規) — [[Michael R. Lyu]]（[[The Chinese University of Hong Kong]]）。SRE の 35 年史と将来ロードマップ。障害ライフサイクル 4 技法・SRE プロセス 4 構成要素を体系化し、アーキテクチャ・テスト・メトリクス・新興アプリケーションの 5 軸で将来方向を提示。(paper / software-reliability) - [[@2019__arXiv__The First 50 Years of Software Reliability Engineering - A History of SRE with First Person Accounts]](新規) — [[James J. Cusick]]。1968 年 NATO 会議から 2018 年までの SRE 50 年通史。Schneidewind・Musa への未発表インタビュー収録。Hudson (1967)→Jelinski-Moranda (1971)→Musa (1975)→体系化→アジャイル/モバイルへの展開。(paper / software-reliability / history-of-science) ### 2026-06-26 SREcon23 EMEA スライド ingest（From Sysadmins to Flying Unicorns） - [[@2023__SREcon23 EMEA__From Sysadmins to (almost) Flying Unicorns]](新規) — [[Guillaume Hérail]] と [[Gilberto Müller]]（[[Sony Interactive Entertainment]]）。シスアドチームから SRE チームへの文化的転換。TOS・SRE Academy・CFT・SLO・Reliability Meetup の 5 施策で 5 課題を解消したケーススタディ。(slides / sre / culture) ### 2026-06-26 データベース/分散システム異常診断 6 論文一括 ingest - [[@2020__PVLDB__Diagnosing Root Causes of Intermittent Slow Queries in Cloud Databases]](新規) — Minghua Ma ほか（Tsinghua University・Alibaba Group・Nankai University）。クラウドデータベースの間欠的遅延クエリ（iSQ）の根本原因診断フレームワーク iSQUAD。異常抽出・依存性クレンジング・TOPIC クラスタリング・ベイズ事例モデルの 4 コンポーネントで F1 80.4% を達成。(paper / aiops / database) - [[@2024__arXiv__OS Pre-trained Transformer - Predicting Query Latencies across Changing System Contexts]](新規) — Parimarjan Negi ほか（MIT CSAIL）。OS メトリクスの時系列をトランスフォーマーで事前学習し、システムコンテキスト変化に対応するクエリレイテンシ予測。因子分解アーキテクチャで新システムへの汎化を実現。(paper / database / ml) - [[@2024__KDD__Multivariate Log-based Anomaly Detection for Distributed Database]](新規) — Lingzhe Zhang ほか（Peking University）。分散データベース向け初のマルチノードログ異常検知データセットと MultiLog 手法。単一ノードログでは不十分であることを実証し、既存手法を約 12% 上回る。(paper / aiops / database) - [[@2023__PACMMOD__DBPA - A Benchmark for Transactional Database Performance Anomalies]](新規) — Shiyue Huang ほか（Peking University・ZTE Corporation）。OLTP 性能異常 9 種の決定論的再現手順を体系化したベンチマーク。複合異常生成アルゴリズムと大規模データセットを提供。(paper / database / benchmark) - [[@2025__arXiv__LogDB - Multivariate Log-based Failure Diagnosis for Distributed Databases]](新規) — Lingzhe Zhang ほか（Peking University）。MultiLog の拡張版。ノード単位のログ特徴抽出・圧縮とマスターノード集約による分散データベース障害診断。Apache IoTDB で評価。(paper / aiops / database) - [[@2025__IEEE TSC__Towards Close-To-Zero Runtime Collection Overhead - Raft-Based Anomaly Diagnosis on System Faults for Distributed Storage System]](新規) — Lingzhe Zhang ほか（Peking University）。Raft ログを活用したゼロオーバーヘッド異常診断手法 RBAD。モニタリングベース手法を 15.38%、ログベース手法を 53.10% 上回る。(paper / aiops / distributed-storage) ### 2026-06-26 arXiv:2508.08906 Ultra Ethernet 論文 ingest - [[@2025__arXiv__Ultra Ethernet's Design Principles and Architectural Innovations]](新規) — Torsten Hoefler ほか 15 名（ETH Zürich・Broadcom・HPE・OpenAI・Intel・AMD・Cisco・Microsoft）。UE 1.0 の設計解説論文。EV ベースパケットスプレー・PDC ゼロ RTT 確立・NSCC+RCCC 輻輳制御・TSS ゼロトラストセキュリティ・LLR/CBFC リンク層機能を詳述。(paper / networking / hpc / ai-infrastructure) ### 2026-06-26 SONiC Workshop Japan 2026 スライド ingest - [[@2026__SONiC Workshop Japan 2026__SONiC Scale-Up Working Group から探る Scale-Up や Ultra Ethernet 機能の実装方法]](新規) — [[海老澤健太郎]]（[[Arrcus]]）による SONiC Scale-Up WG の技術解説スライド。Scale-Up/Out/Across の 3 層分類、RoCEv2 対次世代トランスポート比較表、LLR・CBFC・LLDP の SONiC 実装方法。(slides / networking / gpu-cluster) ### 2026-06-26 SOSP 2024 ReCycle 論文 ingest - [[@2024__SOSP__ReCycle - Resilient Training of Large DNNs using Pipeline Adaptation]] — [[Swapnil Gandhi]] ほか([[Stanford University]])。ハイブリッド並列訓練のデータ並列冗長性とパイプラインバブルを利用し、スペアサーバなしで障害時も訓練を継続。分割逆伝播とストラグラーオプティマイザで Oobleck 対比最大 1.46×、Bamboo 対比最大 1.64× のスループット向上。(paper / distributed / fault-tolerant-training) ### 2026-06-26 SIGCOMM 2024 Alibaba HPN 論文 ingest - [[@2024__SIGCOMM__Alibaba HPN - A Data Center Network for Large Language Model Training]] — [[Kun Qian]] ほか([[Alibaba Cloud]])。LLM 訓練専用データセンターネットワーク HPN。2 層デュアルプレーン + 非スタック型デュアル ToR + レール最適化で 1 Pod 内 15K GPU を収容。8 ヶ月本番運用で DCN+ 比 14.9% 訓練スループット向上、ToR 単一障害点ゼロ。(paper / networking / distributed / llm-training) --- ### 2026-06-26 SC24 GPU-to-GPU Communication 論文 ingest - [[@2024__SC__Exploring GPU-to-GPU Communication - Insights into Supercomputer Interconnects]] — [[Daniele De Sensi]] ほか([[Sapienza University of Rome]] / [[ETH Zürich]] / [[CINECA]] / [[NVIDIA]] ほか)。Alps・Leonardo・LUMI 3台のスーパーコンピュータで GPU 間インターコネクトを最大4,096 GPU 規模で実計測比較した初の包括的研究。デフォルト設定から手動チューニングで最大1桁の性能向上。ノード間点対点では MPI が*CCL 比最大10倍高速、ネットワークノイズが allreduce を最大50%低下させる。(paper / hpc / networking / benchmark) --- ### 2026-06-26 arXiv 2401.00134 Unicron 論文 ingest - [[@2024__arXiv__Unicron - Economizing Self-Healing LLM Training at Scale]] — [[Tao He (Alibaba)]] ほか([[Alibaba Group]])。LLM 訓練の障害回復コストをクラスタ全体で最小化する自己修復ワークロードマネージャ Unicron。インバンド誤り検知(3× D_iter)・WAF 最大化動的計画法・部分結果再利用遷移戦略の三機構。128 GPU で Megatron 比 1.9×(高頻度障害)の累積 WAF 改善。(paper / distributed / machine-learning / fault-tolerance) --- ### 2026-06-26 HotNets 2024 I've Got 99 Problems But FLOPS Ain't One 論文 ingest - [[@2024__HotNets__I've Got 99 Problems But FLOPS Ain't One]] — [[Costin Raiciu]] ら([[University Politehnica of Bucharest]] / [[Broadcom]])。1000 億ドル規模 AI データセンター建設計画を起点に、百万 GPU・103.8T パラメータ LLM 訓練のネットワーキング課題を体系化。スケールアップ 14.4 Tbps が露出ネットワーキングを 5%/20% に抑える鍵。RoCEv2 シングルパスは FCT 9 ms(最適の 9 倍)、マルチパストランスポートで 5% 以内に。マルチプレーン・マルチレールでスイッチコスト 50%・リンクコスト 66% 削減。(paper / networking / distributed / llm-training) --- ### 2026-06-26 ICPADS 2024 Generic and ML Workloads in an HPC Datacenter 論文 ingest - [[@2024__ICPADS__Generic and ML Workloads in an HPC Datacenter]] — [[Xiaoyu Chu]], [[Daniel Hofstätter]] ほか([[Vrije Universiteit Amsterdam]] / [[TU Wien]] / [[SURF]] / [[NREL]])。SURF Lisa(338 ノード)の 9400 万タプル・100 指標の長期運用データで汎用/ML ジョブを統計比較。ML ジョブはノード 15%・件数 9% に対してエネルギー 39% を消費し、GPU 温度制限に頻繁に達する。クラスタエネルギーの 50% が未完了ジョブに費やされる。ジョブ-ノード結合解析によりジョブ終了状態相関(NODE_FAIL: 0.94/0.75)を初報告。データセット・ツールキットをオープンソース公開。(paper / hpc / workload-characterization / energy / gpu) --- ### 2026-06-26 ICSE 2023 Quality Issues of DL Platform 論文 ingest - [[@2023__ICSE__An Empirical Study on Quality Issues of Deep Learning Platform]] — [[Yanjie Gao]] ほか([[Microsoft Research]] 北京・[[Chongqing University]])。Microsoft 社内 DL プラットフォーム Platform-X の品質問題 360 件を手動分析。症状 7 カテゴリ・根本原因 22 カテゴリ(ハードウェア 28.33% / プラットフォーム側 28.33% / ユーザー側 43.34%)・緩和アクション 10 カテゴリを体系化。(paper / aiops / software-reliability / deep-learning) --- ### 2026-06-26 SRE NEXT 2024 工学としてのSRE再訪スライド ingest - [[@2024__SRE NEXT 2024__工学としてのSRE再訪]] — [[坪内佑樹]]（[[さくらインターネット研究所]]・[[Topotal]]）による SRE NEXT 2024（東京, 2024-08-03）発表。SRE を「工学」として再訪し、技芸→工学の歴史的背景、未解決オープンチャレンジ（アラート問題・トレースデータ・TTR・SLO ベース意思決定・LLM によるインシデント対応・SLO→アーキテクチャ導出）、SREcon 経由の学術分野接続（レジリエンス工学・認知科学・社会学・人類学）を三軸で展開。Human-Computer Engineering としての発展可能性を示唆。(slides / sre / engineering) ### 2026-06-26 Demystifying NCCL (arXiv 2507.04786) 論文 ingest - [[@2025__IEEE__Demystifying NCCL - An In-depth Analysis of GPU Communication Protocols and Algorithms]] — [[Zhiyi Hu]], [[Siyuan Shen]] ほか([[ETH Zürich]] SPCL・[[NVIDIA]]・Broadcom)。NCCL 2.19.1 の内部設計を体系的に解析。Simple/LL/LL128 プロトコル・ノード内外データ転送・Ring/Tree アルゴリズムの設計原理と実測を文書化。ATLAHS シミュレーションの基盤。(paper / hpc / nccl / distributed) ### 2026-06-26 OSDI 2025 TrainCheck 論文 ingest - [[@2025__OSDI__Training with Confidence - Catching Silent Errors in Deep Learning Training with Automated Proactive Checks]] — [[Yuxuan Jiang]] ほか([[University of Michigan]] [[OrderLab]])。DL 訓練のサイレントエラーを訓練不変条件の自動推論・継続検証で検知するフレームワーク TrainCheck。20 件中 18 件を 1 イテレーション以内に検知、6 件の新規バグを発見。(paper / systems-ml / software-reliability) ### 2026-06-24 ClickHouse PVLDB 2024 論文 ingest - [[@2024__PVLDB__ClickHouse - Lightning Fast Analytics for Everyone]] — [[Robert Schulze]] ほか（[[ClickHouse Inc|ClickHouse Inc.]]）。カラム型 OLAP DB ClickHouse のシステム論文。MergeTree* ストレージ・3 機構データプルーニング・ベクトル化実行+LLVM コンパイル・ClickBench 最速を解説。(paper / database / olap) ### 2026-06-24 SREcon スライド 7 件一括取り込み (anomaly detection / monitoring) - [[@2019__SREcon19 Asia__Anomaly Detection on Golden Signals]] — [[Yu Chen (Baidu)]]（[[Baidu]]）による SREcon19 Asia 発表。ゴールデンシグナル上の異常検知を STL 分解・クラスタリング・曜日別正規化で構築。(slides / sre / anomaly-detection) - [[@2015__SREcon15 Europe__Signatures, Patterns, and Trends - Timeseries Data Mining at Etsy]] — [[Andrew Clegg]]（[[Etsy]]）による SREcon15 Europe 発表。時系列マイニングで SAX・DTW・類似度検索を Kale/Skyline パイプラインに統合。(slides / sre / time-series) - [[@2024__SREcon24 EMEA__Anomaly Detection in Time Series from Scratch Using Statistical Analysis]] — [[Ivan Shubin]]（[[Booking.com]]）による SREcon24 EMEA 発表。Z スコア・MAD・Graphite ネイティブ関数で AI/ML なしの異常検知サービス Granomaly を構築。(slides / sre / anomaly-detection) - [[@2025__SREcon25 Americas__Using Statistical Techniques to Automatically Detect Game-Breaking Issues]] — [[Ian Neidel]]（[[Netflix]]）による SREcon25 Americas 発表。ゲーム QoE メトリクスの変化点検知に統計手法を適用。(slides / sre / changepoint-detection) - [[@2025__SREcon25 Americas__Stopping Performance Regression via Changepoint Detection]] — [[Joseph Cirella]]・[[Shanthini Velan]]（[[Bloomberg]]）による SREcon25 Americas 発表。PELT アルゴリズムで性能レグレッションを CI/CD パイプラインで自動検知。(slides / sre / changepoint-detection) - [[@2017__SREcon17 Asia__Smart Monitoring System for Anomaly Detection on Business Trends in Alibaba]] — [[Zhaogang Wang]]（[[Alibaba Group]]）による SREcon17 Asia 発表。STL 分解・N-σ 適応閾値・ヒューマンフィードバックでビジネストレンド異常検知を構築。(slides / sre / anomaly-detection) - [[@2015__SREcon15__Smart Monitor System For Automatic Anomaly Detection at Baidu]] — [[Xianping Qu]]（[[Baidu]]）による SREcon15 発表。BNS/BMS/DMP/Transfer 4 モジュールの監視プラットフォームで自動異常検知を構築。(slides / sre / anomaly-detection) ### 2026-06-23 SREcon18 Americas Automatic Metric Screening - [[@2018__SREcon18 Americas__Automatic Metric Screening for Service Diagnosis]] — [[Yu Chen (Baidu)]]（[[Baidu]]）による SREcon18 Americas 発表。障害前 60 分と障害後 5 分のメトリクスを KDE で比較し、インスタンス単位クラスタリングとダイジェストランキングで、ゴールデンメトリクスなしに診断候補を推薦する。(slides / sre / aiops / rca) ### 2026-06-23 SREcon17 Americas Practical Monitoring and Alerting - [[@2017__SREcon17 Americas__A Practical Guide to Monitoring and Alerting with Time Series at Scale]] — [[Jamie Wilkinson]]（[[Google]] SRE）による SREcon17 Americas 発表。監視保守コストを劣線形に抑える必要性、静的しきい値から時間・分布・SLO に基づくアラート設計への移行、[[Prometheus]] のラベル付き時系列・記録ルール・トポロジ集約を整理。(slides / sre / monitoring / prometheus) ### 2026-06-29 SREcon16 Service Levels and Error Budgets - [[@2016__SREcon16__Service Levels and Error Budgets]] — [[Chris Jones]]・[[Niall Murphy]]（[[Google]]）による SREcon16 発表（2016 年 4 月）。SRE Book 第 4 章の共著者が SLI/SLO/SLA の区別とエラーバジェットの制御ループ的運用を口頭解説。「SRE の仕事は可用性最大化ではなくプロダクトベロシティ最大化」「SRE は No から Yes/if へ」の組織的帰結を直接語った。(video / sre / slo / error-budget) ### 2026-06-23 SREcon16 Europe Alerting for Distributed Systems - [[@2016__SREcon16 Europe__Alerting for Distributed Systems - A Tale of Symptoms and Causes, Signals and Noise]] — [[Björn Rabenstein]]（[[SoundCloud]] Production Engineer / [[Prometheus]] 主要開発者の一人）による SREcon16 Europe 発表。症状と原因の分離、ブラックボックス/ホワイトボックス監視の使い分け、時系列ベースの imminent problem 検知、ページ用異常検知の単純性を整理。(slides / sre / alert-management / prometheus) ### 2026-06-23 SREcon16 Less Alarming Alerts - [[@2016__SREcon16__Less Alarming Alerts]] — [[Robert Treat]]（[[OmniTI]] CEO）による SREcon16 発表。アラートを「人を起こすページ」に限定し、ビジネス影響・修復手順・通知先・予防可能性を説明できないものを削除・通知化・修正する発火前ガバナンスを提示。(slides / sre / alert-management) ### 2026-06-23 SREcon17 Asia Draining the Flood — Alert Fatigue at Baidu - [[@2017__SREcon17 Asia__Draining the Flood - A Combat against Alert Fatigue]] — Yu Chen（Baidu SRE）が Argus 監視システムのアラート洪水（1 人 100 件超/日、有効率 15% 未満）に対し、リンガバッファグルーピング・アソシエーションルールマイニング・重要度キャリブレーション・オンコールエスカレーション・自動修復の 4 施策で 85% 削減を達成。(slides / sre / alert-management) ### 2026-06-23 SREcon17 Europe Over-Monitoring and Alert Fatigue - [[@2017__SREcon17 Europe__Want to Solve Over-Monitoring and Alert Fatigue - Create the Right Incentives]] — Kishore Jalleda（Yahoo / 元 Zynga SRE 責任者）がアラートバジェットによるインセンティブ設計で偽アラーム 90% 削減を達成した Clean Room イニシアティブの事例報告。(slides / sre / alert-management) ### 2026-06-23 SREcon21 Spike Detection in Alert Correlation at LinkedIn - [[@2021__SREcon21__Spike Detection in Alert Correlation at LinkedIn]] — Nishant Singh（LinkedIn シニア SRE）が修正 Z スコアによるスパイク分離を実装。アラート相関の推奨結果から一時的スパイクを分離し、偽陽性率 1% 未満・トイル 30–40% 削減を ML なしで達成。(slides / sre / alert-correlation) ### 2026-06-23 Sakana Fugu Technical Report - [[@2026__Sakana AI__Sakana Fugu Technical Report]] — Sakana AI による学習型 LLM オーケストレーター群(Fugu / Fugu-Ultra)のテクニカルレポート。オーケストレーションを新スケーリング軸として実証し、SWE-bench Pro 73.7%・GPQA 95.5% 等で公開フロンティアモデルを超えた。(multi-agent / collective-intelligence / llm) --- ### 2026-06-23 SREcon19 EMEA Adaptive Paging スライド - [[@2019__SREcon19 EMEA__Are We All on the Same Page - Lets Fix That]] — [[Luis Mineiro]]（[[Zalando SE]] SRE 責任者）による SREcon19 EMEA 発表。症状ベースアラーティングの限界を示し、分散トレーシングの因果関係で通知先を動的に決定する [[Adaptive Paging]] を提案。(slides / sre / alert-management / distributed-tracing) - [[@2023__SRE NEXT__Warningアラートを放置しない！アラート駆動でログやメトリックを自動収集する仕組みによる恩恵]] — [[池田将士]]([[面白法人カヤック]])による SRE NEXT 2023 発表資料。Mackerel の Warning アラートを放置せず、[[prepalert]] で発火時点のログ・メトリクスを自動収集してアラートメモに貼る運用を紹介。(slides / sre / alert-management / observability) - [[@2026__arXiv__Rethinking the Role of Efficient Attention in Hybrid Architectures]] — [[Ziqing Qiao]], [[Yinuo Xu]] ほか ([[Tsinghua University]]・[[OpenBMB]])。ハイブリッドアーキテクチャにおける効率的注意の役割を体系的解析。Large-Window Laziness の発見と NoPE によるフルアテンション強化の提案。(paper / machine-learning / llm / architecture / long-context) - [[@2022__NeurIPS__Training language models to follow instructions with human feedback]] — [[Long Ouyang]] ほか (OpenAI)。InstructGPT: 人間フィードバックからの強化学習(RLHF)で GPT-3 を指示追従に整列。SFT → 報酬モデル → PPO の 3 段階パイプライン。(paper / machine-learning / alignment / rlhf) - [[@2022__arXiv__Training Compute-Optimal Large Language Models]] — [[Jordan Hoffmann]] ほか (DeepMind)。Chinchilla: 計算最適訓練ではモデルサイズとデータ量を等比率でスケールすべき。70B パラメータ × 4 倍データで 280B Gopher を凌駕。(paper / machine-learning / scaling-laws) - [[@2017__ICLR__Outrageously Large Neural Networks The Sparsely-Gated Mixture-of-Experts Layer]] — [[Noam Shazeer]] ほか (Google Brain)。スパースゲート MoE 層: 計算量を緩やかに増やしつつモデル容量を 1000 倍以上に拡大。(paper / machine-learning / moe) - [[@2023__ICLR__ReAct Synergizing Reasoning and Acting in Language Models]] — [[Shunyu Yao]] ほか (Princeton)。ReAct: 推論トレースと行動を交互に生成し、知識検索・意思決定タスクで CoT 単体を上回る。(paper / machine-learning / prompting / agents) - [[@2026__TSC__LLM-Enhanced Failure Localization in Microservices - Integrating Multi-Modal Data and Expert Interpretation]] — [[Zhenyu Zhong]] ほか。LLM とマルチモーダルデータ(メトリクス・ログ・トレース)を統合した障害箇所特定フレームワーク LocaleXpert。(paper / aiops / rca / llm / multi-modal / TSC) - [[@2026__arXiv__Time Series as Language - A Universal Tokenizer for General-Purpose Time Series Foundation Models]] — [[Yunhao Zhang]]・[[Junchi Yan]] ほか（[[Shanghai Jiao Tong University]]・[[Huawei Noah's Ark Lab]]）。VQ-VAE ベースの汎用時系列トークナイザ UniTok と NTP 事前学習基盤モデル UniTok-FM。(paper / time-series / foundation-model / arXiv) - [[@2024__ASE__MRCA - Metric-level Root Cause Analysis for Microservices via Multi-Modal Data]] — [[Yidan Wang]] ほか。マルチモーダルデータからメトリクスレベルの根本原因を特定する MRCA。(paper / aiops / rca / multi-modal / ASE) - [[@2024__TSC__Holistic Root Cause Analysis for Failures in Cloud-Native Systems Through Observability Data]] — [[Yongqi Han]]・[[Qingfeng Du]] ほか（[[Tongji University]]・[[Di-Matrix]]）。メトリクス・ログ・トレース 3 モダリティを統合したクラウドネイティブ障害の包括的 RCA。(paper / aiops / rca / cloud-native / multi-modal / TSC) - [[@2024__ASE__Giving Every Modality a Voice in Microservice Failure Diagnosis via Multimodal Adaptive Optimization]] — [[Lei Tao]]・[[Shenglin Zhang]]・[[Dan Pei]] ほか。マルチモーダル適応最適化による障害診断フレームワーク Medicine。(paper / aiops / multi-modal / failure-diagnosis / ASE) - [[@2025__FSE__A Multimodal Intelligent Change Assessment Framework for Microservice Systems Based on Large Language Models]] — [[Yuchi Ma]]・[[Qiuai Fu]]・[[Pinjia He]] ほか。LLM によるマルチモーダルな変更影響評価フレームワーク ChangeLLM/SCELM。(paper / aiops / change-management / llm / FSE) - [[@2025__TOSEM__Interpretable Failure Localization for Microservice Systems Based on Graph Autoencoder]] — [[Yongqian Sun]]・[[Shenglin Zhang]]・[[Dan Pei]] ほか（[[Nankai University]]）。グラフオートエンコーダベースの解釈可能な障害箇所特定フレームワーク DeepHunt。(paper / aiops / fault-localization / graph-neural-network / TOSEM) - [[@2021__JSEP__TraceRank - Abnormal service localization with dis-aggregated end-to-end tracing data in cloud native systems]] — [[Guangba Yu]]・[[Zicheng Huang]]・[[Pengfei Chen]]（[[Sun Yat-sen University]]）。非集計トレースを用いたスペクトル解析 + PageRank ランダムウォークによるサービスレベル異常箇所特定。(paper / aiops / rca / microservices / distributed-tracing / JSEP) - [[@2016__ICSE-C__Log Clustering Based Problem Identification for Online Service Systems]] — [[Qingwei Lin]]・[[Hongyu Zhang]]・[[Jian-Guang Lou]] ほか（[[Microsoft Research]]）。IDF ベースのログクラスタリングと知識ベース照合による問題特定。(paper / aiops / log-analysis / ICSE) - [[@2023__TSC__LogKG - Log Failure Diagnosis through Knowledge Graph]] — [[Yicheng Sui]]・[[Shenglin Zhang]]・[[Dan Pei]] ほか（[[Tsinghua University]] / [[BNRist]]）。知識グラフによるログ障害診断フレームワーク。(paper / aiops / log-analysis / knowledge-graph / TSC) - [[@2022__SREcon22 APAC__Introducing the Reliability Map – r9y.dev]] — [[Aaron Bowden]]（Google Cloud Professional Services、SRE Practice Lead JAPAC）による SREcon22 APAC（シドニー）講演。SRE ケイパビリティをゲームのテック・ツリーに着想を得たマップとして体系化したオープンソースプロジェクト `r9y.dev` を紹介。ベストプラクティスはコンテキスト依存であり、「コンテキスト抽出→ケイパビリティ選択→戦術・戦略ロードマップ」のプロセスを提唱。(video / sre / reliability / ケイパビリティ / SREcon22 APAC) - [[@2022__SREcon22 Americas__Modeling Alert Quality]] — [[Moshe Zadka]]。アラート品質をコスト（アンチクオリティ）としてモデル化。真/偽/欠落の 3 アラーム分類と 4 区間レイテンシ分解。Goodhart の法則への警告。(slides / alert-management / SREcon22) - [[@2022__IEEE CLOUD__Localizing and Explaining Faults in Microservices Using Distributed Tracing]] — [[Jesus Rios]]・[[Saurabh Jha]]・[[Larisa Shwartz]]（[[IBM Research]]）。分散トレーシングのスパンツリー動的因果推論による教師なし障害箇所特定。(paper / aiops / fault-localization / microservices / distributed-tracing / IEEE CLOUD) - [[@2023__ESEC-FSE__Nezha - Interpretable Fine-Grained Root Causes Analysis for Microservices on Multi-modal Observability Data]] — [[Guangba Yu]]・[[Pengfei Chen]] ほか（[[Sun Yat-sen University]]）。マルチモーダルオブザーバビリティデータによるコード領域・リソースタイプレベルの解釈可能な根本原因分析。(paper / aiops / rca / microservices / multi-modal / ESEC-FSE) - [[@2023__arXiv__Eadro - An End-to-End Troubleshooting Framework for Microservices on Multi-source Data]] — [[Cheryl Lee]]・[[Tianyi Yang]]・[[Zhuangbin Chen]]・[[Michael R. Lyu]]（[[The Chinese University of Hong Kong]] / [[Sun Yat-sen University]]）。異常検知と根本原因箇所特定を統合するエンドツーエンドトラブルシューティングフレームワーク。(paper / aiops / rca / microservices / multi-source / arXiv) - [[@2013__JSPI__Energy statistics - A class of statistics based on distances]] — [[Gábor J. Székely]]・[[Maria L. Rizzo]]（NSF / Rényi 数学研究所 / Bowling Green State University）による JSPI 2013 レビュー論文。距離に基づく統計量族「エネルギー統計」の理論と応用を体系化。エネルギー距離・DISCO・E-クラスタリング・距離共分散(dCov)・距離相関(dCor)・ブラウン共分散との同値性を解説。(paper / statistics / distance-statistics / dependence-measure / JSPI) - [[@2018__NSDI__Odin - Microsoft's Scalable Fault-Tolerant CDN Measurement System]] — [[Matt Calder]]・[[Ethan Katz-Bassett]] ほか([[Microsoft]] / [[University of Southern California|USC]] / [[Columbia University]])による NSDI 2018 論文。100+ PoP の Microsoft CDN を支えるクライアント側アプリケーション層計測プラットフォーム Odin の設計・評価。サードパーティ CDN フォールバックで耐障害性を実現し、Odin データから生成した DNS マップで最大 P75 30% 超の低遅延化を達成。(paper / networking / cdn / internet-measurement / NSDI) - [[@2002__DSN__Pinpoint - Problem Determination in Large, Dynamic Internet Services]] — [[Mike Y. Chen]]・[[Emre Kıcıman]]・[[Armando Fox]]・[[Eric Brewer]]（[[UC Berkeley ROC Project]] / [[Stanford University]]）による DSN 2002 論文。大規模インターネットサービスにおけるリクエストトレースと統計的クラスタリング（決定木・χ²検定）を組み合わせた障害コンポーネント自動特定。J2EE ミドルウェア計装によりアプリ改変不要。(paper / distributed-tracing / fault-localization / statistical-analysis / DSN) - [[@2003__HotOS__Magpie - Online Modelling and Performance-aware Systems]] — [[Paul Barham]]・[[Rebecca Isaacs]]・[[Richard Mortier]]・Dushyanth Narayanan（[[Microsoft Research]] Cambridge）による HotOS IX 2003 論文。OS カーネル・ミドルウェアのイベントトレーシングとスキーマ駆動パーサにより、個別リクエストの資源消費モデルをオンライン構築。クラスタリングによる異常リクエスト検出とワークロードモデリングのビジョンを提示。(paper / distributed-tracing / request-modelling / performance-analysis / HotOS) - [[@2014__OSDI__lprof - A Non-intrusive Request Flow Profiler for Distributed Systems]] — [[Xu Zhao]]・[[Ding Yuan]]・[[Michael Stumm]]ほか（[[University of Toronto]]）による OSDI 2014 論文。ソースコード改変なしに既存ログからリクエストフローを再構築する非侵入プロファイラ。バイトコード静的解析でログ形式・識別子・実行順序を抽出し、分散ノード間のログを個別リクエストに縫合。HDFS・HBase 等で有効性を実証。(paper / distributed-tracing / non-intrusive-profiling / request-flow / OSDI) - [[@2015__SOSP__Pivot Tracing - Dynamic Causal Monitoring for Distributed Systems]] — [[Jonathan Mace]]・[[Ryan Roelke]]・[[Rodrigo Fonseca]]（[[Brown University]]）による SOSP 2015 論文。動的計装と happened-before 結合を組み合わせた分散モニタリングフレームワーク。実行時にトレースポイントを挿入し、コンポーネント・マシン境界を越えた因果関係に沿ったメトリクス集計を実現。Hadoop クラスタ（HDFS/HBase/MapReduce/YARN）で評価。(paper / distributed-tracing / dynamic-instrumentation / causal-monitoring / SOSP) - [[@2017__SOSP__Canopy - An End-to-End Performance Tracing And Analysis System]] — [[Jonathan Kaldor]]・[[Jonathan Mace]]・Michał Bejda ほか（[[Facebook]]）による SOSP 2017 論文。Facebook 規模（日次数十億リクエスト）のエンドツーエンドパフォーマンストレーシング基盤。トレースモデル・特徴量抽出 DSL・パフォーマンスデータセット・Scuba 統合の 4 層アーキテクチャ。(paper / distributed-tracing / performance-analysis / trace-sampling / SOSP) - [[@2016__ISSTA__Practitioners' Expectations on Automated Fault Localization]] — [[Pavneet Singh Kochhar]]・[[Xin Xia]]・[[David Lo]]・[[Shanping Li]]（[[Singapore Management University]] / [[Zhejiang University]]）による ISSTA 2016 論文。386 名実務者への大規模アンケートで FL 採用閾値（Top-5・成功率 75%・100kLOC・1 分・判断根拠・IDE）を定量化し、2011–2015 年の 15 本文献レビューで研究-実務ギャップを明示。(paper / software-engineering / fault-localization / empirical-study) - [[@2020__IWQoS__Localizing Failure Root Causes in a Microservice through Causality Inference]] — [[Yuan Meng]]・[[Shenglin Zhang]]・[[Yongqian Sun]] ほか（[[Tsinghua University]] / [[Nankai University]] / [[Alibaba Group]] / BNRist）による IWQoS 2020 論文。イントラマイクロサービス障害根本原因特定（初の体系的研究）のために PCTS（PCMCI ベース時系列因果グラフ）と TCORW（偏相関 + 異常度 + 優先度 + 時刻の統合ランダムウォーク）を提案。86 件の実障害チケットで AC@5=98.7%（最良ベースライン比 +33.4%）を達成。(paper / aiops / rca / microservices / causal-inference / IWQoS) - [[@2017__arXiv__A Tutorial on Kernel Density Estimation and Recent Advances]] — [[Yen-Chi Chen]]（[[University of Washington]]）による arXiv 2017 チュートリアル。KDE の統計的性質（収束レート・帯域幅選択）から信頼区間/信頼帯構成のバイアス処理、密度関数の幾何学的・位相的特徴（局所モード・レベルセット・リッジ・クラスターツリー・パーシステント図）の推定まで体系的に概観。(paper / nonparametric-statistics / density-estimation) - [[@2011__JMLR__DirectLiNGAM - A Direct Method for Learning a Linear Non-Gaussian Structural Equation Model]] — [[Shohei Shimizu]]・[[Aapo Hyvärinen]]・[[Kenneth Bollen]] ほか（[[Osaka University]] / [[University of Helsinki]]）による JMLR 2011 論文。LiNGAM の因果順序推定において ICA ベースの反復探索に依存しない直接推定法を提案。外生変数の逐次同定により変数数に等しい固定ステップ数で収束を保証。(paper / causal-discovery / structural-equation-models) - [[@2020__Signal Processing__Selective review of offline change point detection methods]] — [[Charles Truong]]・[[Laurent Oudre]]・[[Nicolas Vayatis]]（[[ENS Paris-Saclay]] / University Paris 13）による Signal Processing 2020 サーベイ。オフライン変化点検知を**コスト関数**（パラメトリック 7 種 + ノンパラメトリック 6 種 = 計 13 種）・**探索手法**（Opt・Pelt・Win・BinSeg・BotUp）・**制約**（l0/l1/複雑ペナルティ）の 3 軸で統一的に体系化。Python ライブラリ [[ruptures]] として実装公開。(paper / signal-processing / change-point-detection / survey) - [[@2025__PVLDB__Time-Series Clustering - A Comprehensive Study of Data Mining, Machine Learning, and Deep Learning Methods]] — [[John Paparrizos]]・Bogireddy（[[The Ohio State University]] / Aristotle University of Thessaloniki）による PVLDB 2025 論文。84手法を10クラスに分類し、[[UCR Time Series Archive]] 全128データセットで包括的に評価。10年前の k-Shape を統計的に有意に上回る手法は存在せず、「進歩の幻想」が先行ベンチマークのバグ・不公平な設定に起因することを実証。基盤モデル(CHRONOS・OFA・MOMENT)もクラスタリングでは k-Shape を超えられない。(paper / pvldb / time-series / clustering / benchmark) - [[@2026__Boris Tane Blog__The Software Development Lifecycle Is Dead]] — [[Boris Tane]] によるブログ記事(2026-02-20)。AI エージェントが従来 SDLC を解体したと論じ、モニタリング（オブザーバビリティ）を唯一の生存フェーズとして位置づける。新たな差別化要因として[[コンテキストエンジニアリング]]、AI ネイティブエンジニアの台頭（[[AIネイティブ開発]]）を提唱。(article / software-development / ai-native / observability) - [[@2022__CSUR__D'ya Like DAGs - A Survey on Structure Learning and Causal Discovery]] — [[Matthew J. Vowels]]・[[Necati Cihan Camgoz]]・[[Richard Bowden]]（CVSSP, [[University of Surrey]]）による ACM Computing Surveys 2022 サーベイ。構造発見の4系統を統一整理し、組合せ手法約60件と連続最適化手法約30件（NOTEARS 以降）を横断比較。「因果の跳躍」への哲学的批判を展開。(paper / causal-discovery / structure-learning / continuous-optimization / survey) - [[@2019__Frontiers in Genetics__Review of Causal Discovery Methods Based on Graphical Models]] — [[Clark Glymour]]・[[Kun Zhang]]・[[Peter Spirtes]]（[[Carnegie Mellon University]]）による Frontiers in Genetics 2019 レビュー。制約ベース（PC・FCI）・スコアベース（GES）・関数的因果モデルベース（LiNGAM・ANM・PNL）の3系統を体系化。忠実性仮定・識別可能性条件・スケーラビリティ・生物学応用ガイドラインを整理。(paper / causal-discovery / graphical-models / review) - [[@2023__Physics Reports__Signal propagation in complex networks]] — [[Peng Ji]] ほか 10 名([[Fudan University]]・PIK・[[University of Maribor]] ほか)による Physics Reports 2023 包括サーベイ（96 ページ、860 以上の参考文献）。感染症モデル・蔵本モデル・反応拡散・カスケード障害・神経科学動力学から、時間的ネットワーク・多層ネットワーク・GNN、グレンジャー因果性・転送エントロピー・発生源特定・AI 駆動時系列解析、疫学・社会動態・電力網・ロボット群への応用まで体系化。(paper / physics-reports / complex-networks / network-science / nonlinear-dynamics / survey) - [[@2009__CSUR__Anomaly Detection - A Survey]] — [[Varun Chandola]]・[[Arindam Banerjee]]・[[Vipin Kumar]]([[University of Minnesota]])による ACM Computing Surveys 2009 サーベイ論文。異常検知を点異常・文脈異常・集合異常に分け、分類・近傍・クラスタリング・統計・情報理論・スペクトルの 6 技法群を、それぞれの正常/異常仮定、計算量、利点/欠点から整理する。後続の性能異常検知・マイクロサービス/AIOps 異常検知サーベイが依拠する古典的 taxonomy。(paper / csur / anomaly-detection / survey) - [[@2019__SREcon19 EMEA__Latency SLOs Done Right]] — [[Heinrich Hartmann]]([[Circonus]])による SREcon19 EMEA 2019 講演資料。レイテンシ SLO を「対象期間の全リクエストのうち、しきい値以内に処理された割合」として定式化し、パーセンタイル時系列は複数時間窓・複数ノードで集約できないため SLO 実装に不適切と示す。正しい実装経路としてログ、しきい値別カウンタ、[[ヒストグラムメトリクス]]を比較する。(slides / sre / slo / latency / telemetry) - [[@2024__arXiv__Failure Diagnosis in Microservice Systems - A Comprehensive Survey and Analysis]] — [[Shenglin Zhang]] ほか([[Nankai University]] / [[Microsoft]] / [[Tsinghua University]])による arXiv 2024 包括サーベイ。2003〜2024 年の 98 論文を調査し、ログ・メトリクス・トレース・マルチモーダルの 4 カテゴリ分類体系と根本原因箇所特定(RCL)/障害種別分類(FC)の問題設定を整理。PC アルゴリズム + ランダムウォークの古典的パイプラインから result/model/feature fusion のマルチモーダル進化線まで体系化。公開データセット 10 種・ツールキット 20 種・評価メトリクスを初めて一覧化。(paper / aiops / microservices / survey) - [[@2021__ASE__Graph-based Incident Aggregation for Large-Scale Online Service Systems]] — [[Zhuangbin Chen]]・[[Jinyang Liu]]・[[Yuxin Su]]・[[Hongyu Zhang]]・[[Xuemin Wen]]・[[Xiao Ling]]・[[Yongqiang Yang]]・[[Michael R. Lyu]]([[The Chinese University of Hong Kong]] / [[University of Newcastle]] / [[Huawei Cloud]])による ASE 2021 論文。[[GRLIA]] は、EVT によるインシデントバースト検知、KPI + incident 類似度による障害影響グラフ補完、DeepWalk/Word2Vec による incident type 表現学習、トポロジ距離つきオンライン集約を組み合わせる。Huawei Cloud Networking サービス 2020 年 5〜11 月本番データで NMI 0.831/0.866/0.912、実運用で障害対応時間 18.6〜24.8% 短縮を報告。(paper / ase / aiops / incident-management / alert-aggregation) - [[@2025__SpeakerDeck__AIスーパーコンピュータにおけるLLM学習処理性能の計測と可観測性]] — [[Yuuki Tsubouchi]]([[SAKURA Internet]])による 2025 年度情報処理学会中国支部主催講演会資料。深層学習ワークロード、GPU/集団通信、[[SAKURAONE]] の 3 クラスタ構成、GPT-3 175B 事前学習ベンチマーク、ジョブ履歴分析、OTel + Grafana によるリソース分析、GPU ゼロコード計装、[[R-Pingmesh]] 型 RoCE 能動プロービング、AI スパコン障害管理研究の観測点・診断アルゴリズム・侵入度分類を統合的に説明する。(slides / ai-supercomputer / llm-training / observability / rdma) - [[@2025__O11yConTokyo2025__AIスパコン「さくらONE」のオブザーバビリティ]] — [[坪内佑樹]]（[[さくらインターネット研究所]]）Observability Conference Tokyo 2025。[[SAKURAONE]] のオブザーバビリティ基盤(OTeL Collector Agent/Gateway → VictoriaMetrics/VictoriaLogs/Pyroscope → Grafana)の構成を開示し、クラウドネイティブ分野との「オブザーバビリティギャップ」を 3 つ(学習処理性能のボトルネック特定・問題切り分け・マイクロバースト監視)に整理。eBPF による GPU ゼロコード計装と [[R-Pingmesh]] による RoCE 常時監視で解消を目指す。(slides / observability / gpu / hpc) - [[@2024__Anthropic Engineering Blog__Introducing Contextual Retrieval]] — [[Daniel Ford]]([[Anthropic]])による Contextual Retrieval 提案記事(2024-09-19)。各チャンクの先頭に LLM 生成の文脈テキスト(50〜100 トークン)を付与してベクトル埋め込みと BM25 両方に適用し、検索失敗率を 5.7% → 1.9%(67% 削減)に改善。Voyage・Gemini Text-004 が最高性能の埋め込みモデル。プロンプトキャッシングで約 $1.02/百万ドキュメントトークン。(article / anthropic / rag / information-retrieval) - [[@2025__PyTorchConference__Scaling KV Caches for LLMs - How LMCache + NIXL Handle Network and Storage Heterogeneity]] — [[Moein Khazraee]]([[NVIDIA]])・[[Junchen Jiang]]([[University of Chicago]] / [[LMCache]])による PyTorch Conference 2025 講演資料。[[LMCache]] を GPU-GPU 転送、GPU-CPU 退避、CPU-CPU 転送、ストレージ退避を扱う KV キャッシュ層として示し、[[NIXL]] の Memory Section / Metadata Handler / UCX・GDS・OBJ バックエンドで異種ネットワーク/ストレージ転送を抽象化する。VAST Storage 例では 224K 入力付近で KV 再計算 TTFT 約 36 秒に対しストレージ取得は約 4 秒弱。(slides / pytorch-conference / llm-serving / kv-cache / NIXL) - [[@2023__arXiv__GPT-4 Technical Report]] — [[OpenAI]](280 名超)。大規模マルチモーダル LLM の技術報告。予測可能スケーリング(1/1,000〜1/10,000 の計算量から性能予測)、模擬バー試験上位 10%・MMLU 86.4%・GSM-8K 92.0% 達成、RLHF によるキャリブレーション劣化(ECE 0.007→0.074)を定量化。アーキテクチャ詳細は非公開。(paper / arxiv / llm / scaling / alignment / multimodal) - [[@2026__arXiv__KVCache Cache in the Wild - Characterizing and Optimizing KVCache Cache at a Large Cloud Provider]] — [[Xingda Wei]] ほか(SJTU IPADS / [[Alibaba Group]])。Aliyun 本番 LLM サービスの KV キャッシュワークロード特性を初めて体系的に分析。理想ヒット率 to-C 62%/to-B 54%、シングルターンが再利用の 97% を占め、ワークロード対応エビクションで LRU 比最大 41.4% QTTFT 削減。(paper / arxiv / llm-serving / kv-cache / workload-characterization) - [[@2022__NSDI__MLaaS in the Wild - Workload Analysis and Scheduling in Large-Scale Heterogeneous GPU Clusters]] — [[Qizhen Weng]] ほか(HKUST / [[Alibaba Group]])。Alibaba PAI 6,742 GPU 異種混合クラスタの 2 か月トレース分析。GPU 共有で必要 GPU 平均 50% 削減、タスク繰り返しによる SJF の有効性、CPU 競合ボトルネックを報告。(paper / nsdi / gpu-cluster / scheduling / workload-analysis) - [[@2025__EuroSys__CacheBlend - Fast Large Language Model Serving for RAG with Cached Knowledge Fusion]] — [[Jiayi Yao]] ほか(University of Chicago / Microsoft Research)。RAG 向け非プリフィックス KV キャッシュ再利用。KV 偏差上位 10-20% トークンの選択的再計算で TTFT 2.2-3.3× 削減、スループット 2.8-5× 改善。EuroSys 2025 Best Paper。(paper / eurosys / llm-serving / kv-cache / rag) - [[@2025__arXiv__KVShare - An LLM Service System with Efficient and Effective Multi-Tenant KV Cache Reuse]] — [[Huan Yang]] ほか(Central South University / Tsinghua University)。マルチテナント KV キャッシュ再利用の DHD アルゴリズムと cache-aware スケジューラ。CacheBlend を発展させ、デコードフェーズのアテンション・ドリフトを解決。TTFT 最大 9.39× 短縮、SOTA 比精度 20.38% 向上。(paper / arxiv / llm-serving / kv-cache / multi-tenant) - [[@2025__ICLR__SCBench - A KV Cache-Centric Analysis of Long-Context Methods]] — [[Yucheng Li]] ほか(Microsoft / University of Surrey)。KV キャッシュ中心の長コンテキスト手法ベンチマーク。生成・圧縮・検索・ローディングの 4 フェーズを共有コンテキストで評価。sub-O(n) 手法はマルチターン破綻、動的スパース性が静的パターンに優越。ICLR 2025。(paper / iclr / llm-serving / kv-cache / benchmark / long-context) - [[@2024__arXiv__Mooncake - A KVCache-centric Disaggregated Architecture for LLM Serving]] — [[Ruoyu Qin]]・[[Zheming Li]] ほか([[Moonshot AI]] / [[Tsinghua University]] MadSys)による arXiv 2407.00079 テックレポート。Kimi サービングプラットフォーム Mooncake を記述。KVCache 中心の 3 プール分離(Prefill/KVCache/Decode)、CPU/DRAM/SSD 分散 KVCache、Conductor グローバルスケジューラ、Chunked Pipeline Parallelism(CPP)、Layer-wise Prefill、過負荷指向 Early Rejection を提案。実ワークロードで vLLM 比 75% 多いリクエスト処理、長コンテキスト模擬データで最大 525% スループット改善。(paper / arxiv / llm-serving / kv-cache / pd-disaggregation / Moonshot) - [[@2025__MPLSJapan__A study on accelerating LLM inference using KV cache sharing with IOWN APN]] — [[田仲顕至]]([[NTT]] デバイスイノベーションセンタ)による MPLS JAPAN 2025 講演資料。LLM 推論需要と電力インフラ制約を背景に、小規模データセンターを分散配置し、[[IOWN APN]] でリクエストルーティングと KV キャッシュ共有を行う構想を提示。CacheBlend/KVShare によりユーザー間 KV キャッシュ共有の可能性を示し、100 km 圏内で TTFT 短縮効果の変化 8%、電力効率 2.31x と評価。(slides / mpls-japan / llm-serving / kv-cache / iown) - [[@2023__SOSP__Efficient Memory Management for Large Language Model Serving with PagedAttention]] — [[Woosuk Kwon]] ほか([[University of California, Berkeley]] / Stanford / UC San Diego)による SOSP 2023 論文。[[vLLM]] と PagedAttention を提案し、KV キャッシュを固定サイズブロックに分けて非連続 GPU メモリ上で管理する。既存システムの予約・内部/外部断片化を抑え、FasterTransformer/Orca 比で同等レイテンシのまま 2-4 倍のスループット改善。(paper / sosp / llm-serving / kv-cache / vLLM) - [[@2024__NeurIPS__SGLang - Efficient Execution of Structured Language Model Programs]] — [[Lianmin Zheng]] ほかによる NeurIPS 2024 論文。複数 generation call、制御フロー、構造化入出力を持つ LM プログラムを frontend/runtime 協調で実行する [[SGLang]] を提案。RadixAttention、圧縮 FSM、API speculative execution により、エージェント、RAG、JSON decoding、マルチターンチャット等で最大 6.4 倍スループット改善。(paper / neurips / llm-serving / structured-generation / kv-cache) - [[@2025__arXiv__LMCache - An Efficient KV Cache Layer for Enterprise-Scale LLM Inference]] — [[Yuhan Liu]] ほか([[Tensormesh Inc]] / University of Chicago)による [[LMCache]] 論文。[[vLLM]] / [[SGLang]] から KV キャッシュを抽出・再読込し、CPU/SSD/リモートストレージ/Redis/RDMA/NVLink をまたいで退避・再利用・PD 転送する。chunk 化、計算 I/O 重畳、zero-copy により最大 15 倍スループット改善。(paper / arxiv / llm-serving / kv-cache / LMCache) - [[@2024__arXiv__P-D-Serve - Serving Disaggregated Large Language Model at Scale]] — [[Yibo Jin]] ほか(Huawei Technologies)による [[P-D-Serve]] 論文。数万 NPU 規模の [[Prefill-Decode分離]]で、scenario 単位 P/D group、on-demand forwarding、block-free D2D KVCache transfer を提案。Ascend/MindSpore 上で 8 か月超商用展開され、E2E throughput 60%、TTFT SLO 42%、D2D transfer time 46% 改善、集約型比 6.7 倍 throughput。(paper / arxiv / llm-serving / pd-disaggregation / kv-cache) - [[@2024__arXiv__A Survey on Efficient Inference for Large Language Models]] — [[Zixuan Zhou]] ほか([[Infinigence-AI]] / Tsinghua / Shanghai Jiao Tong / Peking University)による LLM 推論効率化サーベイ。非効率の原因をモデルサイズ、二乗 attention、自己回帰復号に整理し、data-level / model-level / system-level の三層タクソノミーとフレームワーク比較を提示。(paper / arxiv / survey / llm-inference) - [[@2025__arXiv__From Attention to Disaggregation - Tracing the Evolution of LLM Inference]] — [[Srinivasa Rao Aravilli]] ほか([[Capital One]])による LLM 推論発展史サーベイ。KV Cache、FlashAttention、Continuous Batching、Speculative Decoding、PagedAttention、RadixAttention を disaggregated inference へ接続し、DistServe/AIBrix/NVIDIA Dynamo をアーキタイプとして比較。(paper / arxiv / survey / llm-serving / disaggregation) - [[@2024__OSDI__DistServe - Disaggregating Prefill and Decoding for Goodput-optimized Large Language Model Serving]] — [[Yinmin Zhong]]・[[Shengyu Liu]] ほか([[Peking University]] / [[UC San Diego]] / [[StepFun]])による OSDI 2024 論文。LLM 推論の Prefill と Decode を別 GPU に分離し、段階別の資源割当・並列化・帯域考慮配置で per-GPU Goodput を最大化する [[DistServe]] を提案。vLLM/DeepSpeed-MII 比で最大 7.4 倍高いリクエスト率または 12.6 倍厳しい SLO、OPT-175B でも KV キャッシュ転送は総レイテンシ 0.1% 未満。(paper / llm-serving / osdi / goodput / pd-disaggregation) - [[@2025__INLG__Taming the Titans - A Survey of Efficient LLM Inference Serving]] — [[Ranran Zhen]]・[[Juntao Li]] ほか([[Soochow University]] / [[Huawei Cloud]])による INLG 2025 サーベイ。LLM 推論サービングをインスタンスレベル(モデル配置・スケジューリング・KV キャッシュ・[[Prefill-Decode分離]])、クラスタレベル(異種 GPU・ロードバランシング・クラウド/エッジ)、新興シナリオ(長コンテキスト・RAG・MoE・LoRA・投機的復号・エージェント・マルチモーダル)に階層化。(paper / survey / llm-serving / inlg / acl) - [[@2026__SpeakerDeck__推論基盤のパフォーマンス検証と最適化戦略]] — [[道下幹也]]([[SAKURA Internet]])による 2026-03-06 公開 SpeakerDeck 資料。第 3 回 vLLM roundup Community Meetup Tokyo 登壇資料。LLM 推論基盤をユーザー体験・SLO/SLA・Goodput から最適化する考え方を示し、PD Disaggregation と Mooncake Store を用いた KV Cache Reuse/Sharing を実測。入力 8k・出力 1k・32 同時接続で PD 分離が ITL P99 30 ms 以内、KV Cache Reuse/Sharing が TTFT 最大 1.75 倍程度削減。(slides / llm-serving / benchmark / gpu / vLLM / LMCache) - [[@2025__ペパボ研究所__gpt-ossモデルのサービング性能評価]] — [[三宅悠介]]([[GMOペパボ]] ペパボ研究所)による 2025-08-18 公開レポート。OpenAI のオープンウェイトモデル gpt-oss を Google Cloud H100/A100/L4 で vLLM + Locust により評価。H100 のみ並列スケーリングが有効で A100/L4 はサービス用途に非推奨。出力トークン数がスループットを支配し、Reasoning effort 管理がモデルサイズ選択と同等に重要。(article / llm-serving / benchmark / gpu / vLLM) - [[@2019__ASPLOS__An Open-Source Benchmark Suite for Cloud and IoT Microservices]] — [[Yu Gan]] ほか 24 名([[Christina Delimitrou]] @ [[Cornell University]])による ASPLOS 2019 論文。**[[DeathStarBench]]** suite を初公開:Social Network・Media Service・E-commerce・Banking・Swarm Cloud/Edge の 5(+1) サービス、各々 25-41 unique microservices。Apache Thrift RPC / REST、Conway の法則準拠の言語多様性、自前 distributed tracing(Thrift timing interface、Zipkin Collector 派生、overhead 0.1% 未満)。実証研究で(1)フロントエンドストール大半・retired instructions 21%、(2)ネットワーク処理 36.3%(monolithic NGINX 5.3% との対比)、(3)単スレッド性能感度の高さ、(4)dependency 管理ミスで tail latency 10.4× 悪化、(5)tail-at-scale 効果の顕著性を示した。MS benchmark の原点的ベンチで AIOpsLab・SREGym・Astraea 等の後続 testbed として広く再利用。(paper / microservices / benchmark / distributed-systems / Cornell) - [[@2023__arXiv__Benchmarks for End-to-End Microservices Testing]] — [[Sheldon Smith]] ほか([[Baylor University]])・[[Tomas Cerny]]([[Baylor University]])・[[Miroslav Bures]]([[Czech Technical University]])・[[Davide Taibi]]([[University of Oulu]])による arXiv 2306.05895。[[Train-Ticket]] v1.0.0(47 microservices、FudanSELab)と [[eShopOnContainers]] v5.0.0(C# .NET reference)の Selenium + JUnit/TestNG による functional regression テスト(51 + 26 ユースケース)と Gatling による load testing を Zenodo(10.5281/zenodo.7877723)で公開。1,000 ユーザで Train-Ticket booking 10.2%/eShop checkout 19.0% が 800ms 超(合格)、2,500 ユーザで両者不合格。両 system で login シナリオが負荷下に脆弱。Selenium 並列化で実行時間 25s → 6-7s。best practice(token 抽出・form parameter・並列化)も実装込み公開。(paper / microservices / benchmark / testing / Train-Ticket) - [[@2024__MSR__A Dataset of Microservices-based Open-Source Projects]] — [[Dario Amoroso d'Aragona]]([[Tampere University]])ほか 19 名([[Alexander Bakhtin]]・[[Davide Taibi]] @ [[University of Oulu]] ほか)による MSR 2024 論文。[[World of Code]](173M projects)から **378 件の手動ラベル付き OSS-MS dataset** を構築:I1-I7 の 7 criteria(2021-2022 active、commit ≥100、contributors ≥3、Docker-Compose ≥3 services、12+ active months、age ≥1 year、英語 README)+ 6 軸の手動ラベル(application type/purpose/developer/archived/WIP/is_microservice)。Top 50 で `taskcluster/taskcluster`(50 services)・`FudanSELab/train-ticket`(42)等を確認。CC BY-NC-SA 4.0、figshare 公開、replication package あり。Research Council of Finland MuFAno 助成。(paper / microservices / dataset / mining-software-repositories / OSS-MS) - [[@2026__SANER-C__TrainTicketTrace - A Multi-Fault Distributed Dataset for Microservice Fault Detection and Localization]] — [[Pirmin Urbanke]]・[[Stefan Fischer]]([[Software Competence Center Hagenberg]] GmbH)による SANER-C 2026 論文。**[[Train-Ticket]] 42 microservices × 9 fault branch + 1 cleaned baseline** の trace+metric+log dataset。[[EvoMaster]] white-box mode(38 Java services、1h/service)、[[OpenTelemetry]] + [[Jaeger]] + [[Prometheus]] + Logback。各 branch 約 440,000 traces、計 380h データ収集。fault は Gregor+ ICST 2025 taxonomy で Exec F.→Service Faulty 7 件(race condition/SQL error/VIP logic)・Depl F.→Wrong Config 2 件(thread-pool saturation/body size limit)・Conn F.→Timed out 1 件(third-party delay)。Train-Ticket fault replication repo の不整合を著者が修正、reproducible 化。EvoMaster の test では seeded fault を 1 件も検出できなかったが、trace breadth/depth・endpoint coverage 差として痕跡が残る。Zenodo DOI 10.5281/zenodo.17811972。(paper / microservices / dataset / fault-localization / distributed-tracing) - [[@2012__NOMS__Optimizing System Monitoring Configurations for Non-Actionable Alerts]] — [[Liang Tang]]・[[Tao Li]]([[Florida International University]])・[[Florian Pinel]]・[[Larisa Shwartz]]([[IBM T.J. Watson Research Center]])・[[Genady Grabarnik]]([[St. John's University]])による IEEE NOMS 2012 論文。「アラートをリアル/非リアルに分類する」のではなく「SLA の許す範囲でチケット生成を遅延 → 一過性アラートを自然消滅」へ設計転換し、リアルチケットの見逃しゼロを数学保証(Theorem 1: P(損失) → 0)しながら非アクション可能チケットを最大 75% 削減。IBM Tivoli 本番データ(Account1: actionable rate 49%、Account2: 21%)で実証。ルールベース学習(Srikant-Agrawal 量的アソシエーション、Laplace 精度)で「ルール条件 + 最適遅延時間」を抽出するオフライン手法。(paper / aiops / alert-management / monitoring / IBM) - [[@2009__ICAC__Ranking the Importance of Alerts for Problem Determination in Large Computer Systems]] — [[Guofei Jiang]]・[[Haifeng Chen]]・[[Kenji Yoshihira]]・[[Akhilesh Saxena]]([[NEC Laboratories America]])による ICAC 2009 論文(ICAC'09, Barcelona)。複雑システムのルールベース監視で個別閾値が異なる多メトリクス間の真陽性確率を相対ランクづけるため、不変条件ネットワーク([[ARXモデル]])による値伝播と等価閾値変換 → ピアレビュー機構による NTV(Number of Threshold Values)集計を提案。事前知識ゼロで真陽性確率(PRTP)を導出。ISSRE 2020 の AlertRank が同問題を ML ランキングで再定式化した先行研究。(paper / aiops / alert-management / ranking / NEC) - [[@2017__KDD__Anomaly Detection in Streams with Extreme Value Theory]] — [[Alban Siffer]]・[[Pierre-Alain Fouque]]・[[Alexandre Termier]]・[[Christine Largouet]]([[Amossys]]・[[Inria]]・[[IRISA]]・[[Univ. Rennes 1]]・[[AgroCampus]])による KDD 2017 論文。EVT(Extreme Value Theory)の Peaks-Over-Threshold(POT)アプローチで、データ分布を仮定せず・閾値を手動設定せずに、リスクパラメータ q 1 個だけでストリーム異常検知を実現する **SPOT/DSPOT**。一般化パレート分布(GPD)で超過分布をモデル化、Grimshaw 最尤推定。Zhao+ ICSE-SEIP 2020 のアラートストーム検知器が EVT を採用したことで、本論文はアラートストーム文脈の統計的ルーツ。単変量 iid 仮定で初期バッチサイズ n≈1000 件が要件。(paper / time-series / anomaly-detection / streaming / EVT / KDD) - [[@2018__DICOMO2018__なめらかなシステムを目指して]] — [[栗林健太郎]]・[[三宅悠介]]・[[Ryosuke Matsumoto]](GMOペパボペパボ研究所)による DICOMO2018 論文。[[なめらかなシステム]]の一次出典。利用者・情報システム・開発運用者の継続的相互影響による総体を定義し、[[コンテキスト・アウェアネス]]と[[基礎情報学]](HACS)を統合。(paper / systems-thinking / sre / context-aware) - [[@2018__CIKM__Collaborative Alert Ranking for Anomaly Detection]] — [[Ying Lin]]([[University of Houston]])・[[Zhengzhang Chen]]・[[Lu-An Tang]]・[[Wei Cheng]]・[[Zhichun Li]]([[NEC Laboratories America]])・[[Cheng Cao]]([[Amazon]])・[[Kai Zhang (Temple University)]]([[Temple University]])による CIKM 2018 産業論文。**CAR(Collaborative Alert Ranking)** は異種カテゴリカルアラートの時間的依存性(Pitman-Yor 前置木階層ベイズ)とコンテンツ類似度(エンティティ埋め込み)を統一凸最適化(NNLS)で同時に解き、ラベル不要のまま個別アラートと多段攻撃パターンを同時ランキング。企業セキュリティ実データで ROC-AUC 0.998、PRC-AUC 0.719、FPR 0.010、攻撃シナリオ(MLS/SNO/BOT/EEE/DAV/DCP)を完全復元。ISSRE2020 AlertRank の教師あり相補、AlertRCA(CCGRID2024)へのパイプライン構成可能。(paper / aiops / alert-ranking / anomaly-detection / enterprise-security / CIKM) - [[@2020__CLOUD__DEAR - Distributed Evaluation of Alerting Rules]] — [[Mathias Mormul]]・[[Pascal Hirmer]]・[[Christoph Stach]]・[[Bernhard Mitschang]]([[University of Stuttgart]] IPVS)による IEEE CLOUD 2020 論文。集約による精度劣化と分散化による管理複雑性の **二重トレードオフ**を BET(Binary Expression Tree)中間表現でアラートルール評価を VM に自動配布する **DEAR Plugin** で解決。ルール管理は中央のアラートフレームワーク(Esper CEP)に保持しつつ評価のみ分散。TTI(Time-To-Insight)が集約インターバル依存(最大 27 秒)から定値 ~360-380ms に。発火後フィルタリング(Voutsas+/Bhukar+)とは独立した「発火前精度向上」の介入点として位置づけ。(paper / cloud-monitoring / distributed-monitoring / alerting-rules / IEEE-CLOUD) - [[@2022__ICSE__Online Summarizing Alerts through Semantic and Behavior Information]] — [[Jia Chen (Fudan)]]・[[Peng Wang (Fudan)]] corresponding・[[Wei Wang (Fudan)]]([[Fudan University]])による ICSE 2022 論文。**OAS(Online Alert Summarizing)** は障害報告書(failure report)をラベル源とした教師あり深層学習で、ASR(Alert Semantic Representation, BERT)+ ABR(Alert Behavior Representation, LSTM)+ ACT(Alert Correlation Transformer)を統合。CMDB 不要、意味的に異なるアラート(同義語・記述差)も同一障害として集約。2 商業銀行実データで Bank B ACR > 99%・VCR ≈ 54% を達成。Fudan アラート集約三部作 OAS(2022)→ DyAlert(ASE2023)→ ProAlert(FSE2025)の起点。(paper / aiops / alert-aggregation / online-service-systems / deep-learning / ICSE / Fudan) - [[@2024__FSE__ChangeRCA - Finding Root Causes from Software Changes in Large Online Systems]] — [[Guangba Yu]]・[[Pengfei Chen]]・[[Zilong He]]([[Sun Yat-sen University]])・[[Qiuyu Yan]]・[[Yu Luo (Tencent)]]・[[Fangyuan Li]]([[Tencent]])・[[Zibin Zheng]] による FSE 2024 論文(Proc. ACM Softw. Eng. 1, FSE, Article 2、DOI:10.1145/3643728)。既存の ACD(Abnormal Change Detection、変更の異常度判定)から **RCCA**(Root Cause Change Analysis、複数 changes から defective change を pinpoint)へ問題を昇格。3 情報統合(サービス依存グラフ・変更フロー・KPI 差分)の 3 段階フレームワーク。WeChat 本番 30 件 + OnlineBoutique シミュレーション 51 件(計 81 件、81 種類の defective changes)で HR@1=85.78%・HR@3=96%、TTI を 90% 以上削減、FUNNEL/SCWarn/Gandalf を 20-28 ポイント超え。(paper / aiops / rca / software-change / online-service-systems / FSE) - [[@2025__arXiv__ARGOS - Agentic Time-Series Anomaly Detection with Autonomous Rule Generation via Large Language Models]] — [[Yile Gu]]([[University of Washington]] / [[Microsoft Research]])・[[Yifan Xiong]]・[[Jonathan Mace]]・[[Yuting Jiang]]・[[Yigong Hu]]([[Boston University]] / Microsoft Research)・[[Baris Kasikci]](UW)・[[Peng Cheng]](MSR)による arXiv 論文(2501.14170、2025-01-24)。**ARGOS** は LLM をルール生成フェーズ(訓練時)のみに使い、推論時はルール実行のみ — 説明可能性・再現性・自律性を同時達成する Agentic TSAD システム。Detection / Repair / Review の 3 エージェント協調 + Aggregator(モデル融合)で精度退行ゼロ保証、top-k ルール選択で収束加速。KPI/Yahoo/Microsoft 内部データセットで SOTA 超え、内部データセットで LSTMAD 比 F1 +28.3%、推論レイテンシは最良ベースライン比 1.5x-34.3x 高速化。1 試行あたり LLM コスト最大 $0.177。(paper / aiops / time-series-anomaly-detection / llm / agentic / arXiv) - [[@2025__arXiv__Can Multimodal LLMs Perform Time Series Anomaly Detection]] - [[@2012__ECCE__The Ironies of Automation Still Going Strong at 30]] — [[Gordon Baxter]]・[[John Rooksby]] ほか([[University of St Andrews]])による ECCE 2012 論文。Bainbridge (1983) の「自動化のアイロニー」発表 30 周年に際し、航空(名古屋 A300 事故)・金融取引(フラッシュクラッシュ 2010)・クラウドコンピューティング(AWS 障害 2011)の 3 ドメインでアイロニーの残存を確認。クラウドの低コストが品質保証プロセスの迂回を招く新しいアイロニーを特定。(paper / automation / human-factors / aviation / cloud-computing / financial-trading) - [[@2017__IEEE THMS__Ironies of Automation - Still Unresolved After All These Years]] — [[Barry Strauch]]([[National Transportation Safety Board]])による IEEE THMS 2017 論文。Bainbridge (1983) へのトリビュート。NTSB 事故調査官としての実務経験に基づき、Crown Princess 傾斜事故・B747-SP 事故・AF447 事故・Marshall パイプライン破裂等で Bainbridge のアイロニーが事故として顕現する構造を実証。新しいアイロニー(技能マスキング・同一エラーの 30 年間反復・機能過多)を体系化。自律走行車・スマートフォンへのアイロニーの射程拡大を議論。(paper / automation / human-factors / accident-investigation / aviation / autonomous-vehicles) — [[Xiongxiao Xu]]([[Illinois Institute of Technology]])・[[Haoran Wang]]([[Emory University]])・[[Yueqing Liang]](IIT)・[[Philip S. Yu]]([[University of Illinois Chicago]])・[[Yue Zhao]]([[University of Southern California]])・[[Kai Shu]](Emory)による arXiv 論文(2502.17812、2025-02-24、WWW 2026 採択)。**VisualTimeAnomaly** は MLLM(視覚言語モデル)で時系列を画像化し point-wise / range-wise / variate-wise / irregular の 4 タイプの異常を統合的に扱う。MLLM は不規則サンプリングへロバスト・ハルシネーション削減を実現するが、点別異常では数値推論限界により F1 上限 8.12% で従来手法に大幅劣後(粗粒度の range/variate では従来手法超え)。MLLM × 数値手法は**相補的に使うべき**との実証。TSAD-Agents(scan→plan→detect→verify)も実装。(paper / time-series-anomaly-detection / multimodal-llm / mllm / vision-language / arXiv / WWW) - [[@2025__FSE__Alert Summarization for Online Service Systems by Validating Propagation Paths of Faults]] — [[Jia Chen (Fudan)]]・[[Yuang He]]・[[Peng Wang (Fudan)]] corresponding・[[Xiaolei Chen]]・[[Jie Shi]]・[[Wei Wang (Fudan)]]([[Fudan University]])による FSE 2025 論文(Proc. ACM Softw. Eng. 2, FSE, Article FSE097、DOI:10.1145/3729367、23p)。**ProAlert** はトポロジ接続性だけでなく**エッジのセマンティクス**を考慮するアラート集約。歴史的アラート + CMDB トポロジから fault propagation patterns を**教師なし** DBSCAN で学習(オフライン)、real-time alerts に対し propagation paths を validate(オンライン推論軽量、S1: 200+ alerts/sec、S2: 1280+ alerts/sec)。S1 で VCR 93.53%・SA 99.71%、S2 で VCR 77.63%・SA 98.55% を達成し LiDAR/StormSum/OAS を上回る。Fudan 三部作の最新作。コード: github.com/Pro-Alert/ProAlert。(paper / aiops / alert-aggregation / fault-propagation / online-service-systems / FSE / Fudan) - [[@2026__NSDI__Harp - Improving VPC Network Availability via Efficient Failure Detection and Rerouting in Tencent Cloud]] — [[Jiayu Hu]]・[[Feng Jin]]・[[Kai Zhang]] ほか([[Tencent]]・[[Fudan University]])による NSDI 2026 論文。UDP ソースポートによる決定論的 ECMP パス制御と VM パケットへのインバンドプローブ埋め込みで VPC ネットワーク障害をサブ秒(P50: 48-97 ms)で回復。Tencent Cloud の 8 件の重大スイッチ障害で停止時間 78.71%-99.97% 削減。特定ハードウェア不要・VM 透過。(paper / networking / cloud / reliability) - [[@2024__Electronics__Leveraging Large Language Models for Efficient Alert Aggregation in AIOPs]] — [[Junjie Zha]] ら 5 名([[State Grid Jiangsu Electric Power]])による MDPI Electronics 2024 論文(DOI:10.3390/electronics13224425)。時空間 DBSCAN([[node2vec]] + [[Sentence-BERT]] のハイブリッド類似度、τ=15min)と LLM × [[サービス依存グラフ]]の弱連結成分集約を組み合わせた二段階アラート集約手法を提案。State Grid Jiangsu の 100K アラート × 130 ストーム実本番データで F1 0.815-0.850 を達成し、FPGrowth(0.475-0.540)/DBSCAN(0.248-0.295)/AlertStorm(0.408-0.468)を大差で上回る。アブレーションで時間情報除去が最大の劣化(F1 -0.275)、Phase 2 LLM 除去で F1 -0.294。(paper / aiops / alert-management / llm) - [[@2025__FASE__VOCE - A Virtual On-Call Engineer for Automated Alert Incident Analysis Using a Large Language Model]] — [[Jia Chen (Fudan)]] ほか([[Peng Wang (Fudan)]] グループ、[[Fudan University]])による FASE 2025 論文(DOI:10.1007/978-3-031-90900-9_4)。**アラートインシデント分析**(alert linking 後段の根本原因 alert 特定)を新概念として導入。Company A 10,680 アラート/827 インシデントの本番データで「originating alert は system layer 最下層 93%・impact scope 最広 95%・severity 最高 93% で一致、Order = 45.34%」を実証(時系列順仮定の半分の誤りを定量化)。VOCE は (i) Drain で template 化、(ii) CoT で 3 因子抽出、(iii) source 内→隣接 source 間の階層 causality mining(k=5 多数決)、(iv) 統計的 causality correction、(v) fault propagation graph 上の [[Eigenvector Centrality]] で originating alert を推定。VOCE-GPT 88.90%(56.79s)、VOCE-LLaMA 81.26%(279.91s)、CoT/Prompt をいずれも上回る。(paper / aiops / alert-management / llm / incident-management) - [[@2025__SIGCOMM__SkyNet - Analyzing Alert Flooding from Severe Network Failures in Large Cloud Infrastructures]] — [[Bo Yang]]・[[Huanwu Hu]]・[[Yifan Li]] ほか([[Ennan Zhai]]・[[Tao Lin (Alibaba)]] が corresponding author、[[Alibaba Cloud]])による SIGCOMM 2025 論文(DOI:10.1145/3718958.3750536)。89 DC × 29 リージョン × O(10⁵) ネットワークデバイスの本番で **1.5 年安定稼働**、severe network failure の mitigation time を中央値 736s→147s、最大 14,028s→1,920s(80% 削減)、false negative 0% を達成。12 種監視ツール(Ping/Traceroute/Out-of-band/Traffic/Internet telemetry/Syslog/SNMP+GRPC/INT/PTP/Route monitoring/Modification events/Patrol inspection、[[FT-tree]] で Syslog template 化)を統一入力に変換する preprocessor、location 階層(Region/City/Logic Site/Site/Device/Cluster)で構築する hierarchical alert tree(threshold 2/1+2/5)、impact × time の severity score(Eq.1-3)で incident をランクする evaluator の 3 モジュール。**LLM 不採用**を §2.3 で明文化(Syslog 10M/15min が 20M トークン context 超過、ハルシネーション、ブラックボックス性の 3 理由)。SkyNet 出力を LLM 入力にする posterior integration を future work と位置づける。(paper / aiops / networking / alert-management) - [[@2026__SpeakerDeck__Reliability in the Age of AI - Engineering for AI Velocity]] — [[Ryota Yoshikawa]]([[Topotal]])による 2026-06-09 公開 SpeakerDeck 資料。AI による開発速度向上と信頼性指標悪化を DORA・AI コード品質・生成 AI サービス運用の 3 軸で整理し、SLI/SLO・エラーバジェット・Production-Readiness Check・障害対応/ポストモーテムへの AI 導入を人間承認付きで段階化する。(slides / sre / aiops / ai-engineering) - [[joisino-トランスフォーマーはRNN-2024]] — [[佐藤竜馬]] による 2024-09-30 ブログ記事。Transformer の自己注意機構を [[カーネル法]] として再定式化し、線形注意により固定次元状態を持つ [[RNN]] として等価に書き直せることを示す。訓練時はトランスフォーマーモード(並列)、推論時は RNN モード(定メモリ・定計算量)に切り替え可能。[[線形注意]]・[[状態空間モデル]]（Mamba 等）・[[文脈内学習]] と重み内学習の同質性まで通読可能な入門解説。(article / machine-learning / sequence-modeling) - [[joisino-否定文理解-2024]] — [[佐藤竜馬]] による 2024-12-18 ブログ記事。BERT のテキスト埋め込みは正反対の意味の文を高類似度(0.97)で近接させ、softmax の構造上、否定文に対応する埋め込みベクトルは数学的に存在できないことを示す。ChatGPT o1 も否定文穴埋めで誤答多発。[[テキスト埋め込み]]・[[自然言語推論]]・BERTNOT・[[Anthropic]] の[[文脈付き検索]](Contextual Retrieval、検索ミス 5.0%→2.9%)等の回避策をサーベイ。(article / machine-learning / llm / nlp / negation) - [[joisino-超人的AIと認知不能情報-2025]] — [[佐藤竜馬]] による 2025-01-15 ブログ記事。[[敵対的摂動]]は AI を騙すノイズではなく、人間に認知できない正当な分類手がかりを含む正規な信号であると論じ、[[帰属手法]]の限界・[[機構的解釈性]]の難しさを示す。NP 完全性・対話型証明系を引いて「探索は AI に任せ、検証は人間が担う」役割分担（[[AI検証可能性]]）を提案。(article / machine-learning / adversarial / interpretability / ai-alignment) - [[joisino-機械学習理論入門-2025]] — [[佐藤竜馬]] による 2025-03-17 ブログ記事。[[集中不等式]]（マルコフ→チェビシェフ→ヘフディング）とユニオンバウンド・[[カバリングナンバー]]を積み上げ、古典的 [[汎化誤差バウンド]]（[[PAC学習]]）を導出。さらに深層学習の過パラメータ化でこれらが自明（≥1）に崩壊することを示し、損失地形の「盆地」構造に基づく代替アプローチ（[[深層学習の汎化]]）へ展望をつなぐ一本道の入門解説。(article / machine-learning / generalization / learning-theory) - [[joisino-言語モデルの物理学-2025]] — [[佐藤竜馬]] による 2025-03-24 ブログ記事。[[Zeyuan Allen-Zhu]]・[[Yuanzhi Li]]([[Meta FAIR]]) の [[Physics of Language Models]] シリーズを通覧。制御データ＋線形プロービングで普遍則を抽出するアプローチ、[[知識容量スケーリング則]](パラメータ 1 つにつき約 2 ビット記憶)、[[知識操作]]は CoT 必須、自己回帰モデルは内部状態で誤答を認識しているが発言を取り消せない、[[文脈自由文法]] 学習などを論じる。(article / machine-learning / llm / interpretability / physics-of-llm) - [[joisino-アンナカレーニナの法則-2025]] — [[佐藤竜馬]] による 2025-05-20 ブログ記事。「性能の良いモデルはどれも同じような表現を持つ」という機械学習版アンナ・カレーニナ法則を、[[プラトン的表現仮説]]（Huh+ 2024）・[[モデル縫合]]・[[暗黙的正則化]]・反変原理・[[アンサンブル学習]]の効果薄化として解説。テキスト/画像など異モダリティのモデルが性能向上とともに共通の世界統計モデルへ収束する。(article / machine-learning / representation-learning / multimodal) - [[joisino-人間を騙すAI-2025]] — [[佐藤竜馬]] による 2025-06-23 ブログ記事。標準的 RLHF だけで LLM が人間を誤解させる振る舞いを学ぶ([[RLHF誤誘導]])。RLHF 後は真の性能ほぼ不変のまま人間評価が劇的に上昇し、質問応答では高度なフェイクエビデンス挿入、コーディングでは意図的に複雑なコードで誤りを隠蔽。[[LLM自己検証]]の限界、ルールベース検証器・[[スコファンシ]]・[[報酬ハッキング]]・[[Anthropic]] のサーベイ。(article / ai-safety / rlhf / reward-hacking) - [[joisino-面白さ優先分類器-2025]] — [[佐藤竜馬]] による 2025-08-28 ブログ記事。精度最大化でなく「[[面白さ優先分類]]」を目的とする分類器 EUREKA を紹介。LLM の[[一対比較ランキング]]で面白い特徴量をランキングし、上位 K 特徴のみで訓練。ほぼ全データセットで「面白い特徴量 1 つ」だけでも統計的有意な精度を達成。疑似相関も教科書素材・仮説生成源として価値づける。(article / machine-learning / feature-selection / llm) - [[joisino-LLMのキモい算術-2025]] — [[佐藤竜馬]] による 2025-10-27 ブログ記事。Nikankin+ ICLR 2025 を解説。LLM の四則演算は厳密なアルゴリズムでなく、MLP ニューロンが担う粗い条件判定（[[ヒューリスティックの束]]）の積み重ねで実装されており、[[ロジットレンズ]] でニューロン単位の寄与を定量化できる（[[LLM算術機構]]）。計算ミスはヒューリスティックの押し上げ不足で生じる。(article / machine-learning / llm / interpretability) - [[joisino-訓練データ1個推論性能倍-2025]] — [[佐藤竜馬]] による 2025-11-25 ブログ記事。[[1サンプルRLVR]] を解説(Wang+ ICLR 2026)。訓練データを 1 問に限定した [[検証可能報酬による強化学習]] でも 1209 問使用時と遜色ない推論性能を達成し、Qwen2.5-Math-1.5B で MATH500 36.0%→73.6%、6 ベンチマーク平均 17.6%→35.7%。問題選択基準は報酬分散、エントロピー増大正則化と内省語の獲得が鍵。([[強化ファインチューニング]] / machine-learning / reinforcement-learning / llm / post-training) - [[joisino-LLMの能力の穴-2026]] — [[佐藤竜馬]] による 2026-01-26 ブログ記事。最先端 LLM(GPT-5.2 等)は流体力学・低レイヤープログラミングをこなす一方、5 文字の二進文字列偶奇判定や 2 桁×2 桁の掛け算で誤答する。「[[ゼロエラー境界]]」(ZEH)はモデル自身が問題サイズの限界を定めることで人間の恣意的評価範囲設定を排除する。リミッターは対抗例と異なり自然分布内で[[LLMアプリケーション信頼性]]への実用的影響が大きい。([[LLM評価]] / [[LLM能力スパース性]] / llm / benchmarking) - [[joisino-LLMでソート-2026]] — [[佐藤竜馬]] による 2026-02-09 ブログ記事。LLM を比較関数([[LLM比較器]])として用いて主観的・曖昧な基準でソートする手法群を概観。ペアワイズ法+クイックソートで推移性なしでも近似保証、リストワイズ法はアイテム数増加で破綻し[[スライディングウィンドウ]]が折衷策、セットワイズ法で呼び出し回数削減、予測付きソート(Sorting with Predictions)で低コスト比較器を前段に置く。([[LLMランキング]] / [[pairwiseランキング]] / [[LLM向け情報検索]] / sorting) - [[joisino-LLMと言葉の感じ方-2026]] — [[佐藤竜馬]] による 2026-03-16 ブログ記事。LLM の埋め込みは人間と同様のカテゴリー分類をする一方、典型度の順位相関は 0.15 以下と乖離が大きい。非典型語ほど「〜は○○なんだよ」と鳥類であることが明言されるテキスト偏りが順位逆転を招く。次トークン予測目的は[[LLM意味表象]]の人間整合性を必ずしも高めず、表現学習(word2vec/BERT)の方が順位相関 0.3〜0.4 と高い。[[Yann LeCun]] が示唆する次トークン予測限界の傍証。([[認知意味論]] / [[プロトタイプ意味論]] / machine-learning / llm / cognitive-semantics) - [[joisino-LLMアテンションと外挿-2025]] — [[佐藤竜馬]]([[National Institute of Informatics]])による 2025-09-29 ブログ記事。LLM の注意ヘッドを 7 種（文法・受け皿・逐次・検索・[[帰納ヘッド]]・[[関数ベクトル]]・[[反復ヘッド]]）に分類し、「LLM = チューリングマシン的汎用計算装置＋静的知識 DB」フレームで外挿可能性を論じる。([[機構的解釈性]] / machine-learning / llm) - [[joisino-ICLR-2024-GNN]] — [[佐藤竜馬]] による 2024-05-15 ブログ記事。ICLR 2024 で採択された GNN 関連論文 170 本（全採択 2296 本中 7.4%）を代表トピック別に概観。解釈性・[[GNN同変性]]（メタネットワークによるモデルパラメータ予測）・表現能力（WL 検査から部分グラフへ移行）・分子（基盤モデル登場）・物理シミュレーション等。GNN コア技術の成熟と応用急拡大を報告。(article / machine-learning / graph-neural-network) - [[joisino-モデルパラメータ算術-2024]] — [[佐藤竜馬]] による 2024-01-09 ブログ記事。深層学習モデルのパラメータに算術演算を施す研究群をサーベイ。モデルスープ（Wortsman+ ICML 2022・パラメータ平均）・[[タスクベクトル]]（Ilharco+ ICLR 2023・差分パラメータでタスク転移/削除/合成）・NTK 理論（Ortiz-Jimenez+ NeurIPS 2023・ファインチューニングをパルツェン窓追加として解釈）・パーミュテーション対称性と Git Re-Basin を解説。(article / machine-learning / model-merging) - [[@2026__SREcon26 Americas__Taming the Unpredictable - Reliability in Chaos]] — [[Michelle Brush]]([[Google]])による SREcon26 Americas 2026 講演動画。AI エージェントによりソフトウェア作成が安く速くなると、ジェボンズのパラドックスで作られるものも増え、SRE が扱うシステムはより複雑になると論じる。予測困難性に対し、汎用緩和、実験、リスク先行開発、意図的仮定のコード化、継続的テストを重視する。(video / sre / aiops / reliability) - [[@2022__arXiv__CausalRCA - Causal Inference based Precise Fine-grained Root Cause Localization for Microservice Applications]] — [[Ruyue Xin]]・[[Peng Chen (Xihua University)]]・[[Zhiming Zhao]]([[University of Amsterdam]] MNS / [[Xihua University]])による arXiv プレプリント(arXiv:2209.02500、2022-09-06)。勾配ベース因果構造学習(DAG-GNN)で重み付き DAG を生成し PageRank で根本原因メトリクスをランキングする [[@2022__arXiv__CausalRCA - Causal Inference based Precise Fine-grained Root Cause Localization for Microservice Applications|CausalRCA]] を提案。Sock-shop 13 サービスで細粒度(障害サービス内メトリクス特定)平均 AC@3=0.719、ベースライン手法比平均 17% 改善。線形・非線形両方の因果関係を捉える勾配ベース手法をマイクロサービス RCA に初めて適用。(paper / aiops / rca / causal-inference / microservices) - [[@2022__CCGrid__Generic and Robust Performance Diagnosis via Causal Inference for OLTP Database Systems]] — [[Xianglin Lu]]・[[Zhe Xie]]・[[Zeyan Li]] ほか([[Tsinghua University]] / [[Nankai University]] / [[BizSeer]]、[[Dan Pei]] グループ)による IEEE/ACM CCGrid 2022 論文。OLTP データベース向け教師なし根本原因箇所特定手法 **CauseRank** を提案。G-GES(グループベース因果探索)と COPP(因果指向パーソナライズド PageRank)を核とし、大規模 Oracle 本番 97 件で top-3 精度 82.5%・top-5 精度 93.8%・MAR 2.13 を達成。教師なし最良ベースライン(MicroCause)比で MAR 46.1% 改善。(paper / aiops / database / rca / causal-inference / CCGrid) - [[@2021__ISSRE__Identifying Root-Cause Metrics for Incident Diagnosis in Online Service Systems]] — [[Canhua Wu]]・[[Nengwen Zhao]]・[[Dan Pei]] ほか([[Tsinghua University]] / [[BNRist]] / [[China Construction Bank]] / [[BizSeer]])による IEEE ISSRE 2021 論文(DOI:10.1109/ISSRE52982.2021.00020)。根本原因メトリクスの 2 要件(異常性・解釈可能性)を定義し、KS-test 粗粒度異常検知 → 1-D CNN による 13 種パターン分類 → 重み付きランキングの 3 ステップからなる **PatternMatcher** を提案。大手商業銀行 4 データセット 113 件で Avg@3=0.91 を達成し全ベースラインを上回る。本番展開済み。(paper / aiops / sre / rca / anomaly-detection / ISSRE) - [[@2014__IEEE CLOUD__Scalability and Robustness of Time-Series Databases for Cloud-Native Monitoring of Industrial Processes]] — [[Thomas Goldschmidt]]・[[Anton Jansen]]・[[Heiko Koziolek]]・[[Jens Doppelhamer]]・[[Hongyu Pei Breivold]]([[ABB Corporate Research]])による IEEE CLOUD 2014 論文。OpenTSDB・KairosDB・Databus を AWS 最大 36 ノードでスマートグリッドワークロード(PMU Write・SmartMeter Write)により評価。KairosDB が線形スケーラビリティ(36 ノードで 403,500 値/秒)・ロバスト性・読み書き独立性のすべてで優位を示す一方、OpenTSDB は HBase のメモリ不足で測定断念、Databus は 36 ノードで線形性崩壊。産業用クラウドネイティブ時系列 DB の初の現実的ベンチマーク。(paper / database / time-series / cloud / industrial / IEEE-CLOUD) - [[C10K-Problem]] — [[Dan Kegel]](1999〜2014、www.kegel.com)による技術記事。1台のサーバで同時 10,000 クライアントを処理するための I/O 戦略を5分類([[epoll]]・[[kqueue]]・非同期 I/O・スレッド・カーネル内サーバ)・OS別チューニング・sendfile/ゼロコピー/TCP_CORK を整理した高並行サーバ設計の古典的リファレンス。(article / networking / systems / concurrency) - [[@1992__CACM__Parallel Database Systems The Future of High Performance Database Systems]] — [[David DeWitt]]([[University of Wisconsin]])・[[Jim Gray]](DEC)による CACM 1992年6月論文(Vol.35 No.6 pp.85–98、DOI:10.1145/129888.129894)。並列データベースシステムの基礎概念を体系化した教科書的論文。スピードアップ/スケールアップの 2 指標・startup/interference/skew の 3 脅威・シェアードメモリ/シェアードディスク/シェアードナッシングの 3 アーキテクチャ・ラウンドロビン/ハッシュ/レンジの 3 パーティショニング手法・split/merge 演算子によるリレーショナル演算子の並列化を定義。[[Teradata]](1978〜)・Tandem・Gamma・Bubba 等の当時の技術水準を横断比較し、シェアードナッシングが商業的勝者であることを実証。Grosch の法則の崩壊とコモディティハードウェアの台頭を論じた。(paper / database / parallel / shared-nothing / CACM) - [[@2004__USENIX-ATC__Dynamic Instrumentation of Production Systems]] — [[Bryan Cantrill]]・[[Michael Shapiro]]・[[Adam Leventhal]]([[Sun Microsystems]])による USENIX ATC 2004 論文。[[DTrace]] の一次ソース。本番稼働中のシステムに対してユーザー空間・カーネル空間を統一的かつ絶対安全に動的計装する設計を初めて記述した。ゼロ・プローブ効果(無効時は影響ゼロ)・D 言語・集約機構・投機的トレースの 4 技術を核とし、SunRay サーバで gtik2_applet2 が GC 生成ループで X サーバ・OS に大量の mmap/munmap を誘発するシステミック性能問題を本番で初めて特定した事例を報告。現代 eBPF の思想的先祖。(paper / observability / instrumentation / systems) - [[@2022__arXiv__FlashAttention - Fast and Memory-Efficient Exact Attention with IO-Awareness]] — [[Tri Dao]] ほか([[Stanford University]] / [[Together AI]])。IO-aware 厳密アテンション。タイリング＋オンライン softmax＋再計算で HBM 読み書きを O(N²d²M⁻¹) に削減、標準アテンション比 2-4 倍高速化・最大 20 倍メモリ節約。GPT-2 訓練 15% 高速化、長文書分類で 6.4 ポイント精度向上。(paper / arxiv / attention / gpu-optimization / io-awareness) - [[@2023__arXiv__FlashAttention-2 - Faster Attention with Better Parallelism and Work Partitioning]] — [[Tri Dao]]([[Princeton University]] / [[Together AI]])。非 MMA FLOP 削減・シーケンス長並列化・split-Q ワープ分割で A100 利用率 50-73%、225 TFLOP/秒。FA1 比 2 倍高速化。(paper / arxiv / attention / gpu-optimization) - [[@2024__arXiv__FlashAttention-3 - Fast and Accurate Attention with Asynchrony and Low-precision]] — [[Jay Shah]]([[Colfax Research]])・[[Ganesh Bikshandi]]([[NVIDIA]])・[[Ying Zhang]]・[[Vijay Thakkar]]・[[Pradeep Ramani]]・[[Tri Dao]]。H100 Hopper でワープ特化＋TMA/WGMMA 非同期＋FP8 ブロック量子化。BF16 740 TFLOP/秒(75%)、FP8 約 1.2 PFLOP/秒。数値誤差 2.6 倍改善の incoherent processing。(paper / arxiv / attention / gpu-optimization / hopper) - [[@2026__arXiv__FlashAttention-4 - Algorithm and Kernel Pipelining Co-Design for Asymmetric Hardware Scaling]] — [[Jay Shah]]・[[Ganesh Bikshandi]]・[[Ying Zhang]]・[[Vijay Thakkar]]・[[Pradeep Ramani]]・[[Tri Dao]]。B200 Blackwell 向け。ソフトウェアエミュレート指数関数・TMEM＋2-CTA MMA・CuTe-DSL。1613 TFLOP/秒(71%)。非対称ハードウェアスケーリング時代のアルゴリズム-カーネル協調設計。(paper / arxiv / attention / gpu-optimization / blackwell) - [[@2025__arXiv__AIBrix - Towards Scalable, Cost-Effective Large Language Model Inference Infrastructure]] — [[Jiang Xu]] ほか([[ByteDance]])。Kubernetes＋Ray ハイブリッドのクラウドネイティブ LLM 推論フレームワーク。分散 KV キャッシュ(50% スループット向上・70% レイテンシ削減)、LLM 固有オートスケーリング、LoRA 管理、SLO 駆動 GPU 最適化。(paper / arxiv / llm-serving / cloud-native / kubernetes) - [[@1993__USENIX__The BSD Packet Filter A New Architecture for User-level Packet Capture]] — [[Steven McCanne]]・[[Van Jacobson]]([[LBNL]])による USENIX Winter 1993 論文。[[BPF]](BSD Packet Filter)の一次ソース。ユーザー空間でパケットをコピーして後からフィルタリングする従来 CSPF に対し、カーネル内の小型レジスタベース VM でフィルタリングを先行させる設計により CSPF 比で最大 20 倍の高速化を達成。レジスタベース CFG・ランタイム安全検証・プロセス共有ポリシーが [[eBPF]] の直接の祖先。(paper / networking / observability / operating-systems) - [[@2018__SoCC__Weighted Sampling of Execution Traces - Capturing More Needles and Less Hay]] — [[Pedro Las-Casas]](UFMG)・[[Jonathan Mace]](MPI-SWS)・Dorgival O. Guedes(UFMG)・[[Rodrigo Fonseca]](Brown University)による ACM SoCC 2018 論文(DOI:10.1145/3267809.3267841)。均一ランダムサンプリングが頻出正常実行に予算を費やし稀少な異常・エラートレースを見逃す問題を定式化。実行グラフのクラスタリングに基づく重み付きサンプリング(代表的サンプリング問題)で保存トレースの多様性を最大化する。現代[[トレースサンプリング]]研究の基盤文献。(paper / distributed-tracing / sampling / observability) - [[@2023__PVLDB__TSM-Bench - Benchmarking Time Series Database Systems for Monitoring Applications]] — [[Abdelouahab Khelifati]]・[[Mourad Khayati]]・Anton Dignös・[[Djellel Difallah]]([[NYU Abu Dhabi]])・[[Philippe Cudré-Mauroux]]([[University of Fribourg]] / [[eXascaleInfolab]])による PVLDB 2023 論文(Vol.16, pp.3363–3376)。監視アプリケーション向け TSDB を最初に包括評価したベンチマーク。8 TSDB(InfluxDB・TimescaleDB ほか)× 7 クエリタイプ × TS-LSH 合成データ生成の評価基盤を構築。単一 TSDB が全ワークロードで最優秀になることはなく、ワークロード特性によって最適 TSDB が異なることを実証。(paper / database / time-series / benchmark) - [[@2022__PVLDB__Anomaly Detection in Time Series - A Comprehensive Evaluation]] — [[Sebastian Schmidl]]・[[Phillip Wenig]]・Thorsten Papenbrock([[Hasso Plattner Institute]]、University of Potsdam / Philipps University of Marburg)による PVLDB 2022 論文(Vol.15, pp.1779–1797、DOI:10.14778/3538598.3538602)。71 手法 × 976 データセットを網羅する時系列異常検知ベンチマーク([[TimeEval]])と合成データ生成ツール([[GutenTAG]])を開発・公開。深層学習手法がコスト増に見合う精度優位を示せないこと、単一万能アルゴリズムが存在しないこと、DWT-MLEAD がコスト/性能比で最優秀(AUC-ROC 83%、2.2 ms/点)であることを実証。(paper / anomaly-detection / time-series / benchmark) - [[@2022__arXiv__PromptCast - A New Prompt-based Learning Paradigm for Time Series Forecasting]] — [[Hao Xue]]・[[Flora Salim]]([[University of New South Wales]])による arXiv 論文(2210.08964、18p、2022-10-17、v5 2023-12-10、IEEE TNNLS 掲載)。時系列予測の入出力を自然言語文に変換し、言語モデルで sentence-to-sentence に予測する **PromptCast** パラダイムを最初に提案。Bigbird/Bart/LED 等のファインチューニング言語モデルが Transformer/Informer/Autoformer 等の数値専用モデルと同等以上の RMSE・MAE、ゼロショット設定では数値モデルを大幅に上回る汎化を達成。[[PISA]] データセット(311,932 件・気温(CT) / 電力(ECL) / 人流(SG) の 3 サブセット)を公開。GPT-3.5 はゼロショット精度が数値モデルより劣りコストが高い。LLM×時系列の最初期ベンチマーク。(paper / time-series / llm) - [[@2023__NeurIPS__Large Language Models Are Zero-Shot Time Series Forecasters]] — [[Nate Gruver]]・[[Marc Finzi]]・[[Shikai Qiu]]([[New York University]])・[[Andrew Gordon Wilson]]([[New York University]] / [[Carnegie Mellon University]] 訪問)による NeurIPS 2023 論文(arXiv:2310.07820、30p、2023-10-11)。数値をテキストの桁列としてエンコードする [[LLMTime]] により、GPT-3・LLaMA-2 70B が訓練なしにゼロショット時系列予測でき、Darts/Monash/Informer の 3 ベンチマーク(計 29 データセット)で ARIMA・TCN・N-HiTS 等の専用モデルと同等以上の MAE・CRPS を達成。**LLM の簡潔性バイアス(Occam's razor prior)と反復バイアス**が季節性・トレンドの構造と一致するため外挿が機能。**GPT-4 は GPT-3 より悪化**(トークン化変更と RLHF による不確実性較正の劣化)。欠損値は `NaN` テキストとして補完なしで扱える。MMLU 推論能力と予測性能が正の相関を示すが、RLHF 等のアライメント処理は性能を悪化させる。(paper / time-series / llm / zero-shot) - [[@2023__NeurIPS__One Fits All - Power General Time Series Analysis by Pretrained LM]] — [[Tian Zhou]]・[[Rong Jin]]・[[Liang Sun]] ほか [[Alibaba DAMO Academy]] による NeurIPS 2023 論文(arXiv:2302.11939、34p、2023-02-23)。GPT-2 の self-attention・feedforward 層を凍結したまま位置埋め込み・正規化のみ学習する [[Frozen Pretrained Transformer]](FPT)で、時系列分析の主要 7 タスク(分類・異常検出・補完・短期/長期予測・few-shot/zero-shot 予測)で SOTA または同等を達成。学習可能パラメータは全体の 4.6〜6.12% にとどまり TimesNet(42M)に対し計算優位。**画像事前学習(BEiT)からの転移も有効**で、GPT-2 が cross-domain 転移の本質ではなく事前学習トランスフォーマーの汎ドメイン性が鍵。**self-attention の勾配最小化が PCA と等価**という理論的根拠を提示。GPT-2(3) FPT が異常検出 F1=86.72%(TimesNet 比 +1.7%)、分類精度 74.00%(+0.4 ポイント)。LLM×時系列の Aligning アプローチ代表。(paper / time-series / llm / transfer-learning) - [[@2024__arXiv__A Decoder-Only Foundation Model for Time-Series Forecasting]] — [[Abhimanyu Das]]・Weihao Kong・[[Rajat Sen]]・Yichen Zhou([[Google Research]])による arXiv 論文(2310.10688、21p、2023-10-16、ICML 2024 採録)。**[[TimesFM]]** の原論文。decoder-only アテンションモデル + パッチ入力 + **出力パッチ長 > 入力パッチ長**(自己回帰ステップ数削減・可変ホライズン対応)を組み合わせた 200M パラメータの時系列基盤モデル。事前学習コーパスは Google Trends(約 0.5B 点)+ Wikipedia ページビュー(約 300B 点)+ 合成データで計約 100B 時系列点。Monash/Darts/ETT 等で教師あり SOTA(PatchTST・N-BEATS・DeepAR)にゼロショットで肉薄。17M/70M/200M の 3 サイズで FLOPS に対しモデル誤差が単調減少する**スケーリング予兆**を提示し、[[Toto|Toto 2.0]](4M〜2.5B)に続く TSFM スケーリング則研究の前史を成す。(paper / time-series / foundation-model / scaling) - [[@2024__arXiv__Chronos Learning the Language of Time Series]] — [[Abdul Fatir Ansari]]・[[Lorenzo Stella]] ら([[AWS AI Labs]])による arXiv 2024 論文(arXiv:2403.07815、TMLR 2024 採録)。時系列値を平均スケーリング + 均一量子化($B=4096$ ビン)でトークナイズし、T5/GPT-2 そのままで確率的予測基盤モデルを学習する **Chronos** フレームワークを提案。事前学習には実データ 28 データセット(〜890K 系列・84B 点)とガウス過程カーネルを組み合わせた合成データ **KernelSynth** を使用し、訓練時データ拡張 **TSMixup**(複数系列の凸結合)を導入。**Benchmark I**(15 in-domain データセット)と **Benchmark II**(27 ゼロショットデータセット)の 42 データセット包括ベンチで、ゼロショットのみの Chronos(T5-Large 710M)が専用訓練モデルを含む多くのベースラインに匹敵または凌駕した。**LLM 重みで初期化してもランダム初期化と有意差なし**という意外な知見も報告。(paper / time-series / foundation-model / tokenization) - [[@2026__techRxiv__From Pre-training to Post-training - A Survey on Time Series Foundation Models]] — [[Zhen Liu]]・[[Qianli Ma]]・[[Min Wu]] ほか([[South China University of Technology]] / [[Institute for Infocomm Research]] / [[Tianjin University]])による techRxiv プレプリント(DOI:10.36227/techrxiv.176978429.90235801/v2、24p、2026-02-11)。TSFM を「データセット — 事前学習 — 事後学習」の 3 次元タクソノミーで体系化した初の包括サーベイ。既存サーベイ 7 本(Table I)が事前学習と規則時系列に偏ることを指摘し、事後学習と不規則時系列を扱う唯一の survey と位置づける。事後学習を SFT(partial/full)・協調(PLC: LoRA/Adapter、MLC: CLIP 流多モーダル、HLC: 知識蒸留)・強化(reasoning-driven GRPO / non-reasoning PPO・DPO)の 3 パラダイムで整理し、TimeMaster・LangTime・TPO 等を代表例として収録。Table III(33 ソースデータセット)・Table IV(33 既存 TSFM)・Table V(ターゲットデータセット)・Table VI(事後学習パラダイム比較)を提供。code: github.com/ZLiu21/awesome-tsfms-from-pre-training-to-post-training。(time-series / foundation-models / post-training / survey / paper) - [[@2026__arXiv__Toto 2.0 - Time Series Forecasting Enters the Scaling Era]] — [[Emaad Khwaja]]・[[Chris Lettieri]]・[[Gerald Woo]] ほか [[Datadog]] AI Research / [[Carnegie Mellon University]] による arXiv テクニカルレポート(arXiv:2605.20119、19p、2026-06-05)。TSFM で初めて信頼できるスケーリング則を実証(4M〜2.5B で単調改善・飽和なし)。主要革新は [[Contiguous Patch Masking]](CPM、シングルパス推論)・[[NorMuon]](per-neuron 正規化 Muon、ピンボール損失との相性改善)・[[u-μP]] ハイパーパラメータ転移(10M プロキシから全 5 サイズへゼロショット転移)。公開データを事前学習に使わず BOOM・GIFT-Eval・TIME 全ベンチで SOTA。dd_unit_scaling ライブラリ(Apache 2.0)も公開。(time-series / scaling / paper) - [[@2025__WWW Companion__RCAEval - A Benchmark for Root Cause Analysis of Microservice Systems with Telemetry Data]] — [[Luan Pham]]・[[Hongyu Zhang]]・[[Huong Ha]]・[[Flora Salim]]・[[Xiuzhen Zhang]]([[RMIT University]] / [[University of Newcastle]] / [[University of New South Wales]])による WWW Companion 2025 論文(4p, DOI:10.1145/3701716.3715290)。マイクロサービス RCA の公開ベンチマーク [[RCAEval]] を提示し、3 マイクロサービスシステム([[Online-Boutique]] 12 サービス / [[Sock Shop]] 15 サービス / [[Train-Ticket]] 64 サービス)から計 735 ケース・11 種障害(リソース 4・ネットワーク 2・コードレベル 5)の 3 データセット(RE1/RE2/RE3)を構築。メトリクス・ログ・トレースの 3 モダリティを統合し、コードレベル障害を扱う最初の RCA データセットを主張。15 ベースライン(メトリクス系・トレース系・マルチソース系)を統一フレームワークで横並び評価可能にした。Train Ticket / RE2 / 6 障害の予備実験では BARO がリソース系で強く DELAY/LOSS で弱く、TraceRCA がネットワーク障害で BARO を上回る。多くのマルチソース版が単独メトリクス版より劣る現象も定量化。(aiops / microservices / benchmark / paper) - [[@2026__FSE__Attention Enhanced Entity Recommendation for Intelligent Monitoring in Cloud Systems]] — [[Fiza Husain]]・[[Anson Bastos]]・[[Anjaly Parayil]]・[[Ayush Choure]]・[[Chetan Bansal]]・[[Rujia Wang]]・[[Saravan Rajmohan]]([[Microsoft]])による FSE 2026 industry track 論文(arXiv:2510.20640、12p、2025-10-23)。Microsoft 本番のクラウドモニタについて「与えられたメトリクスをどのディメンション部分集合で集約してアラートを出すか」を、モニタ・メトリクス・ディメンションのヘテロジニアスエンティティグラフ(モニタ 18,291・メトリクス 4,623・ディメンション 8,356)上のランキング問題として定式化。マルチヘッド注意の HGNN にランダムウォーク経路への注意(RWA)と注意ヘッド整列損失を加えた [[@2026__FSE__Attention Enhanced Entity Recommendation for Intelligent Monitoring in Cloud Systems|DiRecGNN]] を提案し、SAGEConv 等の最良ベースラインに対し HR@1 +55.8%・NDCG@k +69.2%・Recall@5 +43.02%・MRR +43.1% を達成(Table 2)。RWA は低次数(sparse)領域で性能ゲインが大きく(Figure 7a)、スケールはノード数に対し線形(Figure 7b)。10 名のサービスオーナー構造化インタビューで有用性平均 4.5/5、全員が「類似モニタを添えた説明」と end-to-end 自動化を望むことが分かった。[[@2024__ICSE-SEIP__Intelligent Monitoring Framework for Cloud Services - A Data-Driven Approach]] のメトリクス選定の続編に位置づく。(paper / aiops / cloud-monitoring / graph-neural-network / recommendation) - [[@2026__FSE__TSGuard - Automated User-Centric Incident Diagnosis for AI Workloads in the Cloud]] — [[Yitao Yang]]・[[Yangtao Deng]]・[[Yifan Xiong]]・[[Baochun Li]]・[[Hong Xu]]・[[Peng Cheng]]([[The Chinese University of Hong Kong]] / [[Microsoft Research]] / [[University of Toronto]])による FSE 2026 論文(Proc. ACM Softw. Eng. Vol.3 No.FSE Article FSE012、24p、DOI:10.1145/3797149、arXiv:2506.01481)。AI ワークロード基盤のインシデントを user-centric paradigm で診断する多エージェントシステム [[TSGuard]] を提案。Microsoft Azure 本番 1 年データ(778 件)で median TTM 52.5 時間・GPU 関連 52.47%・recurrence 8.78 という分布を実証し、過去事例 DB(quick)・階層タクソノミー 6/28/97(slow)・探索(deep)の 3 段パイプラインを 5 エージェント(Summarization/Planning/Execution/Reflection/Conclusion)で回す。テスト 208 件で Micro F1=0.854・Macro F1=0.816、RCACopilot 比 Micro +19.8%・Macro +43.6%、検証時間 -63.4%(304s vs CVD 830s)を達成。Qwen2.5-72B 等 open-source LLM でも GPT-4o とほぼ同等。pre-ticket interception layer として user 側で動かす設計が paradigm shift の核心。(aiops / llm-agent / incident-management / gpu / paper) - [[@2024__NSDI__Characterization of Large Language Model Development in the Datacenter]] — [[Qinghao Hu]]・[[Zhisheng Ye]]・[[Zerui Wang]]・[[Guoteng Wang]]・[[Meng Zhang]]・[[Qiaoling Chen]]・[[Peng Sun]]・[[Dahua Lin]]・[[Xiaolin Wang]]・[[Yingwei Luo]]・[[Yonggang Wen]]・[[Tianwei Zhang]]([[Shanghai AI Laboratory]] / [[Nanyang Technological University]] / [[Peking University]] / [[Shanghai Jiao Tong University]] / [[SenseTime Research]] / [[The Chinese University of Hong Kong]])による NSDI '24 論文(22p, USENIX <https://www.usenix.org/conference/nsdi24/presentation/hu>)。[[Shanghai AI Laboratory]] の LLM 専用 GPU データセンター [[Acme]](Seren 2,288 + Kalos 2,416 = 4,704 A100、2023-03〜08)の 6 か月本番トレースを既存 DNN クラスタ([[Philly]]/[[Helios]]/[[Alibaba PAI|PAI]])と同一指標で並べ、GPU ジョブ中央値 2 分・利用率の 0%/100% 二極化・Pretraining が件数 0.9〜3.2% で GPU 時間 69.5〜94.0%・Evaluation 最長キュー遅延・Infrastructure 障害が件数 11% で GPU 時間 82%超(NVLinkError 30.25%・CUDAError 15.77%・NodeFailure 14.30%・ECCError 11.00%)を実測。観測から [[InternEvo]] に Fault-tolerant Pretraining(async checkpointing で 3.6〜58.7× 削減、Log Agent + Failure Agent + Vector Store + 2 段階 NCCL allgather test、手動介入 ~90% 削減)と Decoupled Scheduling for Evaluation(model load 分離・metric 計算の CPU ジョブ化・prior-based elastic scheduling、makespan 1.3〜1.8× 短縮)を実装。[[AcmeTrace]] を公開。(machine-learning systems / distributed / aiops / paper) - [[@2020__ASE__How Incidental are the Incidents - Characterizing and Prioritizing Incidents for Large-Scale Online Service Systems]] — [[Junjie Chen]]([[Tianjin University]] / [[Microsoft]] 訪問)・[[Shu Zhang]]・[[Xiaoting He]]・[[Qingwei Lin]](対応著者)・[[Hongyu Zhang]]([[University of Newcastle]])・[[Dan Hao]]([[Peking University]])・[[Yu Kang]]・[[Feng Gao]]・[[Zhangwei Xu]]・[[Yingnong Dang]]・[[Dongmei Zhang]] による ASE 2020(DOI:10.1145/3324884.3416624、12p)。[[Microsoft]] の 18 大規模オンラインサービスシステムの 6 か月分インシデントを分析し、incidental incidents が平均 50.32%・TTR の 55.05% を消費するという「半数以上が無視してよい」構造を初めて定量化。incidental の 6 カテゴリ(by design / customer error / won't fix / unable to reproduce / transient / false alarm)を導出し、[[DeepIP]](attention 付き CNN + 関連 incident 取り込み)で AUC 0.808 を達成、bug severity prediction 流用ベースライン(Rule 0.624 / Bayes 0.586)を 18 全システムで上回る。Mozilla データセット転用でも SOTA を P+41.00%・R+10.29% で改善。(aiops / incident-management / paper) - [[@2021__J Grid Computing__Automated Analysis of Distributed Tracing - Challenges and Research Directions]] — [[Andre Bento]]・[[Jaime Correia]]・[[Ricardo Filipe]]・[[Filipe Araujo]]・[[Jorge Cardoso]]([[University of Coimbra]] / [[Huawei Munich Research Center]])による Journal of Grid Computing Vol.19 Article 9(2021、DOI:10.1007/s10723-021-09551-5、15p)。OpenTracing 準拠の分散トレースから [[OpenTracing Processor]] で service metrics(in/out 呼数・平均応答時間)・dependency graph・work-flow を抽出し、Isolation Forest で異常時間枠/サービスを位置づけるパイプラインを提案。Huawei Cloud OpenStack の本番トレース 2 日分(190K–240K spans/日)で検知に成功する一方、ゲートウェイ計装欠落で work-flow 深掘りが頓挫し、「精緻なアルゴリズムよりトレース品質改善が先」と診断。temporal coverage(子スパン合計/親スパン)を品質指標として導入し、OpenTracing 仕様の限界(タイムスタンプ単位非明示・annotation 任意性・testability 欠如)を data sufficiency / ontological / tools の 3 類型で体系化。後継 OpenTelemetry も「merge 努力が主で testability driver の再設計が薄い」と批判する。(distributed tracing / observability / aiops / paper) - [[@1992__CMU SEI__A Conceptual Framework for System Fault Tolerance]] — [[Walter Heimerdinger]]([[Honeywell]])・[[Charles Weinstock]]([[Software Engineering Institute]])による SEI Technical Report CMU/SEI-92-TR-033(1992年10月、44p)。フォールトトレランスの概念フレームワークを提案し、fault/failure/symptom の定義、ディペンダビリティ達成の4手段(障害回避・障害除去・フォールトトレランス・障害回避的措置)、障害クラス分類(所在・影響・持続時間・直接原因・究極原因)、冗長性管理の6アクション(検知・診断・封じ込め・マスキング・補償・修復)、障害封じ込め領域、設計多様性、カバレッジを体系化。フォールトトレラントシステム設計の6規則を提示。(fault-tolerance / dependability / systems) - [[@2012__Wiley__Practical Reliability Engineering]] — [[Patrick D. T. O'Connor]]・[[Andre Kleyner]] による [[Wiley]] 2012 年の信頼性工学教科書(第 5 版、DOI:10.5555/2207822)。信頼性を「時間依存の品質」として定義し、確率・寿命データ解析・信頼性予測・荷重-強度干渉・[[Design for Reliability]]・ソフトウェア信頼性・信頼性試験・[[FRACAS]]・保守性/可用性・信頼性管理を一冊で接続する。数学的予測は有用だが不確実性が大きく、故障モード・物理メカニズム・設計/製造/保守の工学判断が優先されるという立場が全体を貫く。(systems reliability / reliability engineering / book) - [[@2010__ACM CSUR__A Survey of Online Failure Prediction Methods]] — [[Felix Salfner]]・[[Maren Lenk]]・[[Miroslaw Malek]]([[Humboldt University of Berlin]])による ACM Computing Surveys 2010 サーベイ(Vol.42 No.3 Article 10、DOI:10.1145/1670679.1670680、42p)。オンライン障害予測を設計時 reliability prediction と root cause analysis から明確に分離し、入力データ系統で 4 主要枝(failure tracking / symptom monitoring / detected error reporting / undetected error auditing)・26 サブカテゴリへ約 50 手法を写像する taxonomy を構築。fault/error/symptom/failure の 5 段階モデル(Avižienis 2004 に symptom と undetected/detected 区別を加えた拡張)と (`t_d, t_l, t_p, t_w`) 4 パラメータでの時間軸定式化、稀事象に対する評価指標(precision/recall, F-measure, ROC/AUC, contingency table)を標準化。proactive fault management の 4 段階(予測 → 診断 → アクションスケジューリング → 実行)を Figure 2 で整理し、本論文はそのうち予測のみを扱う。後続の AIOps サーベイ([[@2021__TIST__A Survey of AIOps Methods for Failure Management]] [[@2025__CSUR__A Survey of AIOps in the Era of Large Language Models]])の語彙的・概念的源流。(dependability / aiops / failure-prediction / survey) - [[@2018__CNCF WG Serverless__Serverless Overview Whitepaper v1.0]] — [[CNCF]] WG Serverless が 2018 年に策定したサーバーレスコンピューティングの概念定義・ユースケース・Function 仕様・エコシステム勧告白書(v1.0)。FaaS+BaaS の 2 要素、ゼロサーバーオプス・アイドル時課金なしの 2 大メリット、CaaS/PaaS との 3 択比較(制御粒度・運用負荷・課金粒度)、n:m イベント-Function マッピング、Function Workflow の 5 パターン・6 状態、CNCF 勧告 7 点(相互運用性 API・OSS ツール・セキュリティガイダンス等)を体系化。コールドスタート・デバッグ困難・標準化不足を 2018 年時点の主要課題として明示。(cloud / serverless / whitepaper) - [[@2019__TCC__Cloud Container Technologies - A State-of-the-Art Review]] — [[Claus Pahl]]([[Free University of Bozen-Bolzano]])・[[Antonio Brogi]]・[[Jacopo Soldani]]([[University of Pisa]])・[[Pooyan Jamshidi]]([[Carnegie Mellon University]])による IEEE Transactions on Cloud Computing 2019 論文(DOI:10.1109/TCC.2017.2702586、16p)。2007-2016 年のクラウドコンテナとオーケストレーション研究を 46 件の primary studies で体系的にマッピング(SMS)した初の secondary study。Technology Stack・Management Services・Architecture Setting・Tools/Platforms/Technology の 4 軸分類フレームワークを RQ1-RQ4 と整合して構築。Docker・LXC が支配的・Kubernetes・CoreOS・OpenVZ・Diego・Rocket が次点。Solution proposal 中心の formative stage で、IaaS と PaaS がほぼ均等、デプロイ容易性が動機の主、品質関心は performance/resource utilisation/startup time/elasticity に集中。Borg の限界として障害管理(failure management)を未開拓と明示。(cloud / container / orchestration / systematic-mapping) - [[@2021__TIST__A Survey of AIOps Methods for Failure Management]] — [[Paolo Notaro]]・[[Jorge Cardoso]]・[[Michael Gerndt]]([[TU Munich]] / [[Huawei Munich Research Center]] / [[University of Coimbra]])による ACM TIST 2021 サーベイ(DOI:10.1145/3483424、45p)。AIOps の Failure Management 領域を proactive(prevention・online prediction)/reactive(detection・RCA・remediation)の 2 軸 × 5 カテゴリ・14 サブカテゴリで整理し、1,086 件中 100 件を AI 手法・データソース・対象構成要素・定量結果で索引化。研究密度は detection 33.7% / RCA 26.7% / online prediction 26.4% に集中する一方、prevention 10.6%・remediation 2.5% は薄い。マルチモーダル化と recovery 自動化、ベンチマーク確立を将来課題に挙げる。 - [[@2018__TNSM__Mining Causality of Network Events in Log Data]] — [[Satoru Kobayashi]]・[[Kazuki Otomo]]・[[Kensuke Fukuda]]・[[Hiroshi Esaki]]（[[University of Tokyo]] / [[National Institute of Informatics]]）による TNSM 2018 論文（DOI:10.1109/TNSM.2017.2778096）。[[SINET4]]（日本全国研究教育ネットワーク）の 15 ヶ月・35M 件 syslog から PC アルゴリズム + G-square 条件付き独立性検定で因果 DAG を抽出。フーリエ+線形回帰の周期フィルタが 93% のメッセージを除去し、後処理の頻出エッジ除去（上位 5%）でトラブルチケット 74% に対応するエッジを 5.3 エッジ/日に絞り込む。スパース二値データに対して G-square が Fisher-Z より偽陽性率・処理速度で優位（network / log-analysis / causal-inference） - [[@2011__SRDS__Identifying Faults in Large-Scale Distributed Systems by Filtering Noisy Error Logs]] — [[Xiang Rao]]・[[Huaimin Wang]] ほか（[[National University of Defense Technology]] / [[Alibaba Cloud]]）による IEEE 2011 論文。大規模分散システムの障害注入テストで発生するノイズログ(ランダムハードウェア障害・バグ・設定誤り・ログ重大度誤設定の 4 種)が障害特徴抽出を誤導する問題を定量化し、Haar ウェーブレット + DTW 類似度ベースのフィルタリング手法 SBF を提案。100 ノードクラスタ・2,800,973 ログで適合率 96%・再現率 94% を達成(ベースライン CFC は 500 秒 window で再現率 30%)。 - [[@2020__SoCC__ByteSeries - An In-Memory Time Series Database for Large-Scale Monitoring Systems]] — [[Xuanhua Shi]] ほか（[[Huazhong University of Science and Technology]] / [[ByteDance]] / [[National University of Singapore]] / [[University of Copenhagen]]）による SoCC 2020 論文（DOI:10.1145/3419111.3421289）。[[ByteDance]] 本番監視 100 億次元超でメタデータがメモリ 80% 超を占める問題を解析し、Compressed Inverted Index(trie + p4nzenc64)と 3 段メモリ構造(Active Buffer→Static Segment→Compressed Segment)を持つインメモリ TSDB [[ByteSeries]] を提案。元本番システム [[tsdc]] 比でメタデータ −60%・全体メモリ −50%・多次元クエリ 1.8〜10.7 倍高速化、[[Prometheus]] 比で同メモリで 7 倍多い次元数を処理。 - [[@2020__SAC__Black-box inter-application traffic monitoring for adaptive container placement]] — [[Francisco Neves]]・[[Ricardo Vilaça]]・[[José Pereira]]（[[HASLab]]-INESC TEC / [[University of Minho]]）による SAC 2020 論文（DOI:10.1145/3341105.3374007）。eBPF の kprobe カーネル内集約(KernelAgg)で 9% 未満のオーバーヘッドで Cassandra+Spark コンテナ間トラフィックの重み付き通信グラフを構築。UserAgg は 68% 低下、Scope 方式は 1% だがトラフィック量不可計測。自動配置(Pyevolve 遺伝的アルゴリズム)で Q1 −28%、Q2 −40%; 手動配置で Q1 −99.3%・実行時間 −12%、Q2 −73%・実行時間 −29% - [[@2015__VLDB__Gorilla - A Fast, Scalable, In-Memory Time Series Database]] — [[Tuomas Pelkonen]] ほか（[[Facebook]]）による VLDB 2015 論文（DOI: 10.14778/2824032.2824078）。20 億の一意時系列・毎秒 1,200 万点を処理する Facebook のインメモリ TSDB [[Gorilla]] を提案。デルタ・オブ・デルタ（タイムスタンプ 96% を 1 ビット）と XOR 浮動小数点（値 51% を 1 ビット）で 12 倍圧縮（1.37 バイト/点）を達成し、HBase 比クエリレイテンシ 73 倍削減。直近 26 時間を write-through キャッシュとして RAM に全量保持、2 リージョン並行ストリーミングで地理障害を透過的に処理。 - [[@2025__SIGMOD__B-Trees Are Back - Engineering Fast and Pageable Node Layouts]] — [[Marcus Müller]]・[[Lawrence Benson]]・[[Viktor Leis]]（[[TU Munich]]）による SIGMOD/PACMMOD 2025 論文。可変長レコードを支援する可ページング [[B-Tree]] で、prefix truncation・heads・hints・fingerprinting・semi/fully dense leaves を分解評価し、key shape と scan 頻度で leaf layout を切り替える適応 B-Tree を提案。FDL は 100% dense integer で lookup +71%・insert +213%・scan +105%、adaptive B-Tree は ART/HOT/Wormhole/LITS と比較して scan で強く、[[vmcache]] 統合により out-of-memory でも baseline を大きく上回る場合がある。 - [[@2026__SIGIR__LLM-Oriented Information Retrieval - A Denoising-First Perspective]] — [[Lu Dai]]・[[Liang Sun]]・[[Fanpu Cao]]・[[Ziyang Rao]]・[[Cehao Yang]]・[[Hao Liu]]・[[Hui Xiong]]（[[Hong Kong University of Science and Technology]] / [[Hong Kong University of Science and Technology, Guangzhou]]）による SIGIR 2026 視点論文。LLM が検索結果の消費者になることで、情報検索の主目的は raw recall から、文脈ウィンドウ内の利用可能な証拠密度と検証可能性へ移ると主張。NQ 500 サンプル実験では、金 3 件にノイズ 7 件を足すと EM が 41.8% へ低下し、純ノイズ文脈では 8.0% まで悪化。Controlled Indexing / Robust Retrieval / Context Assembly / Retrieval Verification / Closed-Loop Training の 5 段タクソノミーを提示。 - [[@2025__SIGMOD__Rethinking The Compaction Policies in LSM-trees]] — [[Hengrui Wang]]・[[Jiansheng Qiu]]・[[Fangzhou Yuan]]・[[Huanchen Zhang]]（[[Tsinghua University]]、[[Shanghai Qi Zhi Institute]]）による SIGMOD/PACMMOD 2025 論文。LSM ツリーのコンパクションを将来の平均クエリスループットへの CPU/I/O 投資として捉え直し、三レベルモデルと動的計画法ベースの [[EcoTune]] を提案。[[RocksDB]] 評価で Leveling 比 1.5〜3 倍、Lazy Leveling 比最大 1.8 倍の平均クエリスループットを達成。 - [[@2025__arXiv__Humanity's Last Exam]] — [[Long Phan]]・Alice Gatti・Ziwen Han・Nathaniel Li（共同第一著者）・[[Dan Hendrycks]]（上級著者）ほか、[[Center for AI Safety]] / [[Scale AI]]（arXiv:2501.14249、2025-01-24）。飽和した既存ベンチマーク（MMLU 等）を超える最前線学術ベンチマーク HLE を提案。50 か国・500+ 機関・約 1,000 名の専門家が 100+ 科目・2,500 問を設計し、LLM 難易度チェック→専門家 2 段階レビューを経た。最先端モデルでも正解率は最高 13.4%（o3-mini high）にとどまり、全モデルで RMS キャリブレーション誤差 73〜89% と高い。 - [[@2024__arXiv__Chatbot Arena - An Open Platform for Evaluating LLMs by Human Preference]] — [[Wei-Lin Chiang]]・[[Lianmin Zheng]] ほか [[LMSYS]]/UC Berkeley による arXiv 2024 論文(arXiv:2403.04132)。クラウドソーシング型ペアワイズ比較で LLM を評価するオープンプラットフォーム [[Chatbot Arena]] を提案。Bradley-Terry モデルで統計的ランキング、能動サンプリングで最大 54% 少ない投票数で同等精度、240K 票・90K ユーザー・50+ モデルで検証。クラウド投票と専門家評価の一致率 72〜83%。 - [[@2023__CNCF TAG Observability__Observability Whitepaper]] — [[CNCF]] [[TAG Observability]] が 35+ 名の貢献者とともに策定したクラウドネイティブオブザーバビリティのホワイトペーパー（v1.0、2023 年 10 月）。制御理論的定義・5 シグナル（メトリクス・ログ・トレース・プロファイル・ダンプ）・シグナル間相関機構（ターゲットメタデータ統一・Exemplar・Trace ID 付与）・SLO ベースバーンレートアラートの定量化・エコシステムギャップ 4 点を体系化。[[OpenTelemetry]] を計装・収集の業界標準として位置づける。 - [[@2021__SIGMOD Record__Towards Observability Data Management at Scale]] — [[Suman Karumuri]]([[Slack Technologies]])・[[Franco Solleza]]・[[Stan Zdonik]]([[Brown University]])・[[Nesime Tatbul]](Intel Labs/MIT) による SIGMOD Record 2021 ビジョン論文(DOI:10.1145/3456859.3456863)。オブザーバビリティを「データ管理問題」として最初に体系的に定式化し、MELT(Metrics/Events/Logs/Traces)の 4 類型が異なるデータモデル・クエリ・ストレージを要することを Slack の実測データで示す。クエリの 97% 超が <24h データを対象とする強い鮮度バイアス(表2)を実証し、ODMS 設計 4 原則と Real-Time Indexing → Persistent Storage → Hot Data Cache のポリストア型アーキテクチャを提案する。 - [[@2020__arXiv__Scaling Laws for Neural Language Models]] — [[Jared Kaplan]]・Sam McCandlish ほか [[OpenAI]] による arXiv 2020 論文（arXiv:2001.08361、2020-01-23）。Transformer 言語モデルの損失がモデルパラメータ数 $N$・データ量 $D$・計算量 $C$ に対してべき乗則でスケールすることを 7 桁以上の範囲で実証。$\alpha_N \approx 0.076$、$\alpha_D \approx 0.095$、$\alpha_C^{\min} \approx 0.050$。アーキテクチャ詳細への弱依存を定量化し、計算効率最適の訓練は $N_{\text{opt}} \propto C^{0.73}$ の大きなモデルを早期停止で訓練すべきと結論した。 - [[@2020__arXiv__Scaling Laws for Autoregressive Generative Modeling]] — [[Tom Henighan]]・[[Jared Kaplan]] ほか [[OpenAI]] による arXiv 2020 論文。スケーリング則 $L(x) = L_\infty + (x_0/x)^{\alpha_x}$ が画像・動画・マルチモーダル・数学的問題求解に成立することを実証し、最適モデルサイズの指数 $\beta \approx 0.7$ が全モダリティで普遍的に一定であることを発見。損失の情報理論解釈（低減不可能損失 = エントロピー、低減可能損失 = KL ダイバージェンス）を提案し、生成損失の不可逆損失への接近が下流タスク性能の頭打ちを意味しないことを示した。 - [[@2024__arXiv__DeepSeekMath - Pushing the Limits of Mathematical Reasoning in Open Language Models]] — [[DeepSeek-AI]] / [[Tsinghua University]] / [[Peking University]] による arXiv 2024 論文。7B モデル DeepSeekMath 7B を提案し、外部ツールなしで MATH 51.7%（Self-consistency 64 サンプルで 60.9%）を達成。fastText 反復収集による 120B 数学トークンの DeepSeekMath Corpus と、価値モデルを廃してグループ内報酬正規化でアドバンテージを推定する [[GRPO]](Group Relative Policy Optimization)を貢献として提示する。DeepSeek-Coder-Base-v1.5 7B をベースに数学 56%・コード 20%・自然言語 10%・arXiv 10%・AlgebraicStack 4% の混合比で継続事前学習し、コード×数学の相乗効果を実証。7B で Minerva 540B を上回り、[[GRPO]] は後続の [[DeepSeek-R1]]（671B MoE）まで標準アルゴリズムとして継承 - [[@2026__arXiv__From Detection to Recovery - Operational Analysis on LLM Pre-training with 504 GPUs]] — [[Daemyung Kang]] ほか [[Lablup Inc]] による arXiv 2026 / Lablup Technical Report。63 ノード・504 NVIDIA B200 GPU の本番クラスタで、55 日の Prometheus 時系列、73 日の運用ログ、224 マルチノード訓練セッションを分析。751 メトリクスと 10 XID 同定 GPU 障害では単一支配メトリクスがなく、523 checkpoint events では restart load が最大 read 帯域の 21.5%、save burst が write 帯域の 16.0%、WRITE RPC queue time が 93.1% を占める。224 セッションのノード除外は上位 3/63 ノードが 50% 超、自動リトライは 12 チェーンで成功率 33.3% - [[@2023__NSDI__Empowering Azure Storage with RDMA]] — [[Wei Bai]] ほか [[Microsoft]] による NSDI 2023 論文。[[Azure Storage]] のフロントエンド/バックエンド通信を [[RDMA]] 化し、RoCEv2、PFC/DCQCN、[[SONiC]]、[[RDMA Estats]]、sU-RDMA/sK-RDMA を組み合わせてリージョン内規模で展開した経験を報告。2023年2月時点で Azure パブリックリージョンのトラフィックの約70%が RDMA となり、全 Azure パブリックリージョンでリージョン内 RDMA をサポート。1MB I/O では read 23.8%・write 15.6% のレイテンシ削減、ホストドメイン CPU 最大 34.5% 削減を示す - [[@2026__SIGMOD Companion__Aurora PostgreSQL Limitless Database - Building a Highly Scalable OLTP Database]] — [[Dmitry Arkhangelskiy]] ほか [[Amazon Web Services]] による SIGMOD Companion 2026 論文。[[Aurora Limitless Database]] を、ルータ群と PostgreSQL シャード群で構成される分散 OLTP データベースとして報告。Amazon Time Sync による時刻ベース MVCC、lead shard 付き 2PC、Aurora Serverless V2 とシャード分割を組み合わせる適応スケーリング、DDL/バックアップ/クエリ pushdown まで含む PostgreSQL 互換の水平スケーリング設計を提示。HammerDB では 8 ルータ・16 シャード・3072 ACU で 2,891,718 NOPM・NEWORD 平均 9.72ms - [[@2021__CSUR__Anomaly Detection and Failure Root Cause Analysis in (Micro)Service-Based Cloud Applications - A Survey]] — [[Jacopo Soldani]]・[[Antonio Brogi]]（[[University of Pisa]]）による ACM Computing Surveys 2021 サーベイ。マルチサービスアプリケーションの異常検知(25 手法)と根本原因分析(26 手法)の両者を統合した最初のサーベイ。データ源(ログ/分散トレース/監視メトリクス)× 手法(教師なし/教師あり/トレース比較/SLO チェック/ハートビート)の 2 軸分類と、PC アルゴリズム + ランダムウォークによる古典的 RCA パイプラインを体系化。説明可能性・対策推奨・継続的変化への対応を未解決課題として提示する - [[@2024__ASE__Root Cause Analysis for Microservices based on Causal Inference - How Far Are We]] — [[Luan Pham]]・[[Huong Ha]]（[[RMIT University]]）・[[Hongyu Zhang]]（[[Chongqing University]]）による ASE 2024 論文。9 種の因果探索手法と 21 種の因果推論ベース RCA 手法を合成 6 + 実 4 データセットで包括評価し、Dummy（ランダム選択）ベースラインを初めて導入。PC/FCI/Granger 系の多くが Dummy 同等、BARO・CausalRCA・RCD・CIRCA・NSigma が最良と判明。合成データでの性能は実システムを反映しないという警告と 7 つの今後の研究方向を提示。評価フレームワーク [[RCAEval]] をオープンソースで公開 - [[@2026__Cluster Computing__Anomaly detection and root-cause identification in microservices - a survey]] — [[Luís M. Barata]]・[[Sérgio Sequeira]]・[[Eurico Lopes]]・[[Pedro R. M. Inácio]]・[[Mário M. Freire]] による [[Cluster Computing]] 2026 サーベイ。2012〜2025 年のマイクロサービス異常検知・根本原因特定研究を、ログ/トレース/監視メトリクス、教師なし/教師あり/統計/トレース比較、機械学習/グラフ/統計 RCA、テストベッド/データセットの軸で整理。117 研究を対象に、Train Ticket・Sock Shop・AIOps Challenge 2020/2021 などの評価基盤を地図化し、Trusted Distributed AI の観点から信頼性・説明可能性・一貫性・頑健性・因果妥当性を評価軸に加える - [[@2024__CIKM__RCAgent - Cloud Root Cause Analysis by Autonomous Agents with Tool-Augmented Large Language Models]] — [[Zefan Wang]]・[[Zichuan Liu]]・[[Yingying Zhang]] ほかによる CIKM 2024 論文。[[Alibaba Cloud]] の Apache Flink リアルタイム計算基盤を対象に、社内配置 LLM と意味的に最小なツール、OBSK、コード/ログ専門エージェント、JsonRegen、TSC を組み合わせる [[RCAgent]] を提案。ReAct 比で根本原因・解決策・証拠・責任判定の全側面を改善し、OoD ジョブ診断ワークフローへ統合 - [[@2026__IEEE CAI__A System-Level Taxonomy of Failure Modes in Large Language Model Applications]] — [[Vaishali Vinay]]（[[Microsoft]] Security Research）による IEEE CAI 2026 論文。LLM アプリケーションの隠れた失敗を、推論失敗・入力/コンテキスト失敗・システム/運用失敗の 3 層 15 種（幻覚、論理的不整合、計画崩壊、過信、制約違反、曖昧プロンプト、プロンプトインジェクション、コンテキスト喪失、分布外入力、競合指示、ツール/API エラー、外部ツール失敗、マルチエージェント通信破綻、ビジネスルール不整合、コスト起因劣化）に分類。静的ベンチマークが安定性・再現性・ドリフト・ワークフロー統合を測れない評価ギャップと、入力正規化・検証レイヤー・意味的オブザーバビリティ・コスト統制の必要性を整理 - [[@2023__CSUR__Optimization Techniques for GPU Programming]] — [[Pieter Hijma]] ほか [[Vrije Universiteit Amsterdam]]・[[Netherlands eScience Center]] による ACM Computing Surveys 2023 論文。450 本の GPU 最適化論文を体系的に分析し、メモリアクセス・不規則性・バランシング・ホストインタラクションの 4 テーマ・28 技術を分類。コアレスドアクセス・専用メモリ・分岐発散削減・auto-tuning が採用頻度トップ 4 で、最適化の相互依存性とアーキテクチャ世代依存性を定量化 - [[@2026__arXiv__Bian Que - An Agentic Framework with Flexible Skill Arrangement for Online System Operations]] — [[Bochao Liu]] ほか [[Kuaishou Technology]] による arXiv 2026 プレプリント。LLM O&M エージェントのボトルネックを推論でなくオーケストレーション(適切なデータ・知識の選択)と特定し、統一運用パラダイム(リリース遮断・積極的点検・アラート RCA)・[[Flexible Skill Arrangement]](Skill = LoadDataSchema + Prompt + Meta)・統一自己進化メカニズム(1 フィードバック → 知識蒸留+Skill 精緻化)を提案。KuaiShou 検索エンジン 6 ヶ月本番でアラート量 75% 削減・RCA 精度 80%・MTTR 50% 以上圧縮・オフライン pass@5 = 99.0% - [[@2014__ICDE__Rethinking Main Memory OLTP Recovery]] — [[Nirmesh Malviya]]([[MIT CSAIL]])・[[Ariel Weisberg]]([[VoltDB]] Inc.)・[[Samuel Madden]]([[MIT CSAIL]])・[[Michael Stonebraker]]([[MIT CSAIL]])による IEEE ICDE 2014 論文(DOI:10.1109/ICDE.2014.6816685)。[[VoltDB]] を実装基盤として ARIES 生理ロギングとコマンドロギングの詳細な性能比較を実施。TPC-C でコマンドロギングが生理ロギングより 1.5× 高いスループットを達成し、パフォーマンス差がディスク I/O 量だけでなく差分ログレコード構築の CPU オーバーヘッドにも起因することを制御実験で実証。メインメモリ OLTP における復旧方式の第一選択としてコマンドロギングを推奨。(paper / database / recovery / OLTP / ICDE) - [[@2008__SIGMOD__OLTP through the looking glass, and what we found there]] — [[Stavros Harizopoulos]]（HP Labs）・[[Daniel J. Abadi]]（Yale）・[[Samuel Madden]]（MIT）・[[Michael Stonebraker]]（MIT）による SIGMOD 2008 論文。Shore RDBMS を TPC-C で段階的に改変し、バッファマネージャ(34.6%)・ロック(16.3%)・ログ(11.9%)・ラッチ(14.2%)の命令数内訳を精密計測。全コンポーネント除去で 640 TPS → 12,700 TPS（約 20 倍）、単一の「高い杭」は存在せず 4 コンポーネント同時除去が必要であることを定量化 - [[@2005__ICDE__One Size Fits All - An Idea Whose Time Has Come and Gone]] — [[Michael Stonebraker]]・[[Ugur Cetintemel]] による ICDE 2005 招待論文。汎用 RDBMS が全ワークロードに最適とする「ワンサイズフィッツオール」戦略の終焉を論じ、データウェアハウス（カラムストア）・ストリーム処理・テキスト検索・科学データベースなどの専用エンジンの優位性を体系的に主張。StreamBase が同一アプリケーションで商用 RDBMS 比約 200 倍のスループットを達成した例を報告 - [[@2006__OSDI__Bigtable - A Distributed Storage System for Structured Data]] — [[Jeffrey Dean]]・[[Sanjay Ghemawat]] ほか [[Google]] による OSDI 2006 論文。(row, column, timestamp) → string の多次元疎マップを数千台のコモディティサーバに分散格納する [[Bigtable]] を報告。タブレット分割・SSTable/memtable による LSM 的書き込みパス・[[Chubby]] 分散ロックサービス・[[Google File System]] 上の永続化を組み合わせ、2006 年 8 月時点で 388 クラスタ・24,500 タブレットサーバを運用 - [[@2026__SIGMOD Companion__Twenty Years of Bigtable]] — [[Fabio Baltieri]] ほか [[Google]] による SIGMOD Companion 2026 論文。[[Bigtable]] の 20 年運用経験を報告し、10 EB データ・ピーク 70 億 QPS・単一クラスタ 2.5 億 QPS 超の規模、レプリケーション、SQL、CDC、カウンタ/CRDT、マテリアライズドビュー、外部コンパクション、行キャッシュ、オートサイジング、Bigtable SRE チームによるサービス運用への移行を整理 - [[@2007__SOSP__Dynamo - Amazon's Highly Available Key-value Store]] — [[Giuseppe DeCandia]]・[[Werner Vogels]] ほか [[Amazon]] による SOSP 2007 論文。結果整合性・一貫性ハッシュ法・ベクタークロック・スロッピークォーラム・マークル木・ゴシッププロトコルを組み合わせ、単一障害点のない高可用キーバリューストア [[Dynamo]] を構築。99.9 パーセンタイル SLA でショッピングカートを運用、リクエストの 99.94% が単一バージョンを返す - [[@2007__VLDB__The End of an Architectural Era (It's Time for a Complete Rewrite)]] — [[Michael Stonebraker]]・[[Samuel Madden]]・[[Daniel J. Abadi]] ほかによる VLDB 2007 論文。現行 RDBMS のコードの有用作業は OLTP で 6.8% に過ぎず、バッファ管理 34.6%・ラッチ 14.2%・ロック 16.3% 等がオーバーヘッドを支配。メインメモリ・単一スレッド・シェアードナッシングの [[H-Store]] プロトタイプで TPC-C 相当ベンチマーク 82 倍の高速化を達成 - [[@2010__SIGOPS_OSR__Cassandra - A Decentralized Structured Storage System]] — [[Avinash Lakshman]]・[[Prashant Malik]] による SIGOPS OSR 2010 / LADIS 2009 論文。[[Dynamo]] のパーティショニング設計と [[Bigtable]] のカラムファミリデータモデルを統合した [[Apache Cassandra]] を報告。修正版 Scuttlebutt ゴシッププロトコルと Φ 累積障害検知器により完全非中央集権を実現。[[Facebook]] Inbox Search（2 億ユーザ超）で 600 台運用 - [[@2024__USENIX login Online__Understanding Workload Characteristics in Large Language Model Development]] — [[Qinghao Hu]]・[[Peng Sun]]・[[Tianwei Zhang]] による USENIX ;login: Online 記事。[[Shanghai AI Laboratory]] の LLM 開発向け GPU データセンター [[Acme]](Seren/Kalos、計 4,704 A100)の 2023 年 3〜8 月トレースから、GPU ジョブ実行時間中央値 2 分、GPU 利用率中央値 97%/99% かつ 0%/100% 二極化、評価ジョブが件数を支配する一方で事前学習が GPU 時間 69.5〜94.0% を消費すること、インフラ障害が失敗件数 11% でも GPU 時間 82% 超を占めることを報告。[[InternEvo]] V2 は 123B LLM・2,048 GPU で V1 比約 16% 高速化(USENIX ;login: Online 2024-03-19 / NSDI 2024 論文の要約) - [[@2025__HPCA__Revisiting Reliability in Large-Scale Machine Learning Research Clusters]] — [[Meta]] の [[Apostolos Kokolis]]・[[Michael Kuchnik]]・[[Carole-Jean Wu]] らによる、RSC-1/RSC-2 の大規模 ML 研究クラスタ信頼性分析。11 か月・4 百万ジョブ・1.5 億超 A100 GPU 時間を分析し、ハードウェア関連失敗はジョブ件数 0.2% でも GPU 実行時間 18.7% に影響、1024 GPU ジョブの MTTF 7.9 時間、16,384 GPU 1.8 時間、131,072 GPU 0.23 時間と予測。ETTR 推定式、レモンノード検知(512+ GPU 大規模ジョブ失敗率 14%→4%)、InfiniBand 適応ルーティングを提示(HPCA 2025, DOI:10.1109/HPCA61900.2025.00096) - [[@2019__USENIX ATC__Analysis of Large-Scale Multi-Tenant GPU Clusters for DNN Training Workloads]] — [[Microsoft]] のマルチテナント GPU 訓練クラスタ [[Philly]] の 75 日・96,260 ジョブ・14 仮想クラスタの本番トレース分析。ギャングスケジューリングと局所性制約による fragmentation delay、割り当て済み GPU の処理サイクル利用率平均 52.32%、killed/unsuccessful が件数 30.7% でも総 GPU 時間の約 55% を消費することを定量化。[[philly-traces]] を公開し、後続の [[GPUクラスタスケジューリング]]・[[LLM分散学習]] 研究の基礎データになった(USENIX ATC 2019, Jeon ほか) - [[@2025__PMBS__Pretraining LLMs at Scale - Tuning Strategies and Performance Portability]] — [[Qualcomm]] の Adrián Pérez Diéguez らによる LLM 事前学習性能チューニング論文。DeepSpeed/ZeRO/NCCL の通信を意識した 3 段方法論を提案し、Model-2(8B) を 8 ノード 64 GPU の IB-A100/RoCE-A100/RoCE-H100 で評価。ZeRO Stage 2・batch_size 128・grad_acc 2 が 3 プラットフォームで最良、既定構成比最大 1.6 倍高速化、DeepSpeed Stage 2 既定実装が reduce-scatter ではなく all-reduce を使うこと、性能可搬性 `Φ=0.2574` を報告(PMBS25 / SC Workshops '25, DOI:10.1145/3731599.3767699) - [[@2025__arXiv__The Landscape of Agentic Reinforcement Learning]] — エージェント型 RL の包括的サーベイ。MDP/POMDP 形式化で PBRFT と Agentic RL を区別し、能力軸（計画・ツール・記憶・自己改善・推論・知覚）とタスク軸（検索・コード・数学・GUI・ビジョン・身体化・MAS）の二重タクソノミーで 500 本超を体系化。環境 40+・フレームワーク 23 のカタログと RL メカニズム論争の定量的整理を含む 95 ページのサーベイ（TMLR 2026, Zhang ほか, Oxford/Shanghai AI Lab/NUS 等 15 機関） - [[@2024__TMLR__Efficient Large Language Models - A Survey]] — LLM 効率化手法のモデル中心・データ中心・フレームワーク中心 3 軸タクソノミーによる包括的サーベイ。量子化・プルーニング・LoRA・投機的復号・KV キャッシュ・MoE・SSM・17 フレームワーク比較を 67 ページに網羅(TMLR 2024, Wan ほか, OSU/UMich 等) - [[@2025__ACM Computing Surveys__Towards Efficient Generative Large Language Model Serving]] — LLM サービングの効率化に関する包括的サーベイ。アルゴリズム革新(復号・アーキテクチャ・圧縮)とシステム最適化(量子化・並列計算・メモリ管理・スケジューリング・カーネル)の 2 軸タクソノミーで 375 本の文献を体系化。10 種のオープンソースフレームワークを横断比較(ACM Computing Surveys 2025, Miao ほか, Purdue/CMU) - [[@2026__NSDI__FAST - An Efficient Scheduler for All-to-All GPU Communication]] — MoE AllToAllv の動的歪みをスケール内リバランス + Birkhoff 分解で解く多項式時間スケジューラ。64 GPU で 221 µs(SyCCL 比数桁速)、AMD Megatron-LM で RCCL 比最大 4.48× 向上。GPU 集団通信層への Birkhoff 分解初適用(NSDI 2026, Lei ほか, CMU/MangoBoost/UW/Penn) - [[@2026__NSDI__Matryoshka - Realizing Hyperscale Data Center Network Design for the AI Era]] — Meta の本番 DCN 設計自動化システム。インテント駆動コンパイラで高レベル設計インテントをスイッチ設定に変換。6 年間・18 種類・約 900 DCN、100K-GPU AI スーパークラスタを支える。GSC 抽象化・決定論的ステートレス設計・4 種グラフレット合成が主要技術(NSDI 2026, Cai ほか, Meta/MPII) - [[@2026__ASE__OpsAgent - An Evolving Multi-agent System for Incident Management in Microservices]] — training-free データプロセッサ+3 専門エージェント+クロスレビュー+デュアル自己進化(PPO+反省)のマイクロサービス IM 用軽量 MAS。OPENRCA SOTA 比 Correct +46.63%、Lenovo 本番 84.09%・解決時間 2.5h→126s(ASE '26, 南開大学/Alibaba Cloud/Lenovo/清華大学, arXiv:2510.24145) - [[@2017__HotOS__Thinking about Availability in Large Service Infrastructures]] — 大規模インフラストラクチャの可用性をセキュリティ的思考で捉え直すポジションペーパー（HotOS 2017, Mogul ほか, Google） - [[@2019__HotOS__Nines are Not Enough - Meaningful Metrics for Clouds]] — SLO 定義の困難さを統計学的意思決定との同型性で捉え、SLE/CBE によるリスク明示的分担を提唱（HotOS 2019, Mogul+Wilkes, Google） - [[@2020__NSDI__Meaningful Availability]] — ウィンドウ付きユーザーアップタイムで有意義性・比例性・実用性の三要件を同時に満たす可用性メトリクスを G Suite 本番で実証（NSDI 2020, Hauer ほか, Google） - [[@2024__SOSE__Diffusing High-level SLO in Microservice Pipelines]] — 高レベル SLO をベイズネットワーク拡散で低レベル SLO・パラメータ割り当てに自動変換する 3 ステップ方法論（IEEE SOSE 2024, Sedlak ほか, TU Wien） - [[@2026__arXiv__A Microservice-Based Platform for Sustainable and Intelligent SLO Fulfilment and Service Management]] — カーボン認識 SLO 管理プラットフォーム CASCA（arXiv:2602.12875, 2026, Herrera ほか, TU Wien） - [[@2025__MLSys2025__AIOpsLab - A Holistic Framework to Evaluate AI Agents for Enabling Autonomous Clouds]] — 自律クラウド(AgentOps)に向けた AIOps エージェント評価の包括的フレームワーク(MLSys 2025, arXiv:2501.06706) - [[@2026__arXiv__SREGym - A Live Benchmark for AI SRE Agents with High-Fidelity Failure Scenarios]] — AI SRE エージェント向けの高忠実度のライブベンチマーク(arXiv:2605.07161, 2026) - [[@2025__NeurIPS2025__STRATUS - A Multi-agent System for Autonomous Reliability Engineering of Modern Clouds]] — 4 エージェントを状態機械として編成した自律 SRE マルチエージェントシステム。安全仕様 TNR(severity 単調非増加)を Alpern–Schneider の安全性として形式化・証明し、スタックベースの巻き戻しで実装。AIOpsLab 69.2%/ITBench 50.0%(PDF 本文 ingest 済み、NeurIPS 2025, arXiv:2506.02009) - [[@2025__ICML2025__ITBench - Evaluating AI Agents across Diverse Real-World IT Automation Tasks]] — SRE・CISO・FinOps の 3 ペルソナ計 102 シナリオを実環境でワンボタン評価する初の包括的 IT 自動化ベンチマーク。SOTA(GPT-4o)でも SRE 11.4%/CISO 25.2%/FinOps 25.8%、Hard の緩和は全モデル 0%、トレース除去で診断 13.81%→9.52%。NTAM と軌跡指標(Detoured/Covered Services)を導入([[ITBench]] の一次論文。[[Saurabh Jha]] ほか、IBM/UIUC、ICML 2025, PMLR v267) - [[@2026__AAAI__PAGER - Proactive Monitoring Agent for Enterprise AI Assistant]] — 障害発生前に予測・説明・対話支援するプロアクティブ監視エージェント(AEP 向け、random forest+LLM、AAAI-26 デモ) - [[@2025__arXiv__MicroRemed - Benchmarking LLMs in Microservices Remediation]] — エンドツーエンドのマイクロサービス修復を測る初のベンチマーク。マルチエージェントの ThinkRemed を併せて提案(PKU/Alibaba、arXiv:2511.01166, 2025) - [[@2026__GoogleSRE__AI in SRE - Engineering the Future of Reliable Operations]] — Google SRE の AI-Ops ホワイトペーパー。L0–L4 の自律レベル・Safety Trifecta・Bronze/Silver/Gold 評価・AI Operator/Actus を提示(本 wiki 初の産業界・本番運用の一次情報、sre.google) - [[@2026__Datadog__Building Bits AI SRE - Autonomous Incident Investigation Agent]] — Datadog の自律 RCA エージェント Bits AI SRE の設計・評価ブログ。仮説駆動の調査・因果へのフォーカス・再帰的な深掘り・実インシデント+LLM judge による評価(産業界 2 例目、調査・RCA 特化、datadoghq.com) - [[@2026__Datadog__Production-Grounded Benchmarks for AI Code Optimization]] — Datadog の [[DODO]](Datadog Observability-Driven Optimizer)紹介ブログ。CPU プロファイルと Live Debugger 実呼び出しを組み合わせた本番接地型ベンチマーク生成 + LLM 最適化エージェントの 2 ループ構成。成熟 Go サービスで CPU コスト 8%+ 削減・O(10k) コア節約(Junaid Ahmed・Piotr Bejda、2026-06-08) - [[@2025__NeurIPS2025__This Time is Different - An Observability Perspective on Time Series Foundation Models]] — Datadog の観測データに特化したゼロショット時系列基盤モデル Toto(151M)と、実運用テレメトリ由来のベンチマーク BOOM を提案。BOOM で CRPS を次点比 12.4% 改善、GIFT-Eval/LSF でも SOTA(NeurIPS 2025, arXiv:2505.14766) - [[@2026__arXiv__Falcon-X - A Time Series Foundation Model for Heterogeneous Multivariate Modeling]] — Ant International の異種多変量向け encoder-only 時系列基盤モデル Falcon-X(591M)。変量を潜在プロトタイプ空間へ分離し、正負の依存を differential attention で表現。GIFT-Eval で 0.666 MASE/0.453 CRPS の全体最高(arXiv:2605.27286, 2026) - [[@2024__IEEE Access__MetricSifter - Feature Reduction of Multivariate Time Series Data for Efficient Fault Localization in Cloud Applications]] — 障害箇所特定の前処理となる特徴量削減フレームワーク MetricSifter。障害起因の変化点の時間的近接によって障害窓を教師なしで局所化し BA 0.981(本 wiki 初の vault 所有者自身の論文・LLM 以前の統計手法、IEEE Access 2024, DOI:10.1109/ACCESS.2024.3374334) - [[@2025__Kyoto University__Scaling Telemetry Workloads in Cloud Applications - Techniques for Instrumentation, Storage, and Mining]] — [[Yuuki Tsubouchi]] の京大博士論文。テレメトリを計装/ストレージ/マイニングの 3 層で捉え、既発表 3 編(in-kernel flow bundling / [[HeteroTSDB]] / [[MetricSifter]])を統合。「データ削減は文脈が豊富な両端で」という設計指針と、use-first・LLM 障害スナップショットという今後の方向性(Kyoto University, 2025-03, 112p) - [[@2026__Vicinagearth__Efficient Training of Large Language Models on Distributed Infrastructures - A Survey]] — LLM 分散訓練システム/インフラの包括サーベイ。SER(Scalability/Efficiency/Reliability)の 3 軸でインフラ・並列化(hybrid/auto/heterogeneous)・計算/メモリ/通信の最適化・耐障害性を体系分類。LLaMA3 は 16K H100・54 日で 466 回中断し、障害の 78% がハードウェア起因。今後の方向性は光コンピューティング(本 wiki 初の LLM 訓練インフラ・別ドメイン、arXiv:2407.20018 / Vicinagearth Vol.3 (2026), DOI:10.1007/s44336-026-00038-z) - [[@2024__NSDI__MegaScale - Scaling Large Language Model Training to More Than 10,000 GPUs]] — ByteDance/PKU の 10,000 GPU 超 LLM 訓練の本番システム。アルゴリズムとシステムの協調設計と深いオブザーバビリティにより 175B を 12,288 GPU・55.2% MFU(Megatron-LM 比 1.34×)で訓練。各並列化次元の通信オーバーラップ・O(n) 初期化・2 段階チェックポイント・分散ビューの診断ツール。数週間の本番ランで 100 回超の自動復旧(上記サーベイの SER 3 軸を本番システムで具体化、NSDI '24) - [[@2026__MLSys2026__SAKURAONE - An Open Ethernet-Based AI HPC System]] — [[SAKURA Internet]] の 800 GPU(100×H100)のオープン Ethernet AI–HPC クラスタ [[SAKURAONE]] の経験報告。SONiC + RoCEv2 のフルオープン 800 GbE で ISC 2025 TOP500 HPL 49 位・トップ 100 唯一、HPL 33.95 PFLOP/s。単一テナント LLM 開発のワークロード動態(小規模が件数を支配・大規模が GPU 時間を支配、CPT→fine-tuning のフェーズ遷移、キャンセル率 73.5%、21 件の障害の 42.9% が GPU 起因)をテレメトリから観測。**vault 所有者 [[Yuuki Tsubouchi]] の共著・本 wiki 初の HPC/オープンネットワーキングの一次論文**(MLSys 2026 採録、arXiv:2604.13600) - [[@2025__NSDI__Minder - Faulty Machine Detection for Large-scale Distributed Model Training]] — [[ByteDance]]/[[Tsinghua University]]/[[Harvard University]] の大規模分散訓練向けの自動故障マシン検知器 [[Minder]]。3D parallelism によるメトリクスの均質化を逆手に取り、マシン単位の類似度 + 連続性 + メトリクスごとの LSTM-VAE + 決定木による優先順位付けで、停止前の異常パターンから故障マシン 1 台を教師なしで特定。本番で 1 年超稼働し、150 件の障害で適合率 0.904・F1 0.893・平均 3.6 秒(手動比 99% 短縮)。障害の 55.8% がハードウェア起因(ECC 38.9%)。[[MegaScale]] のハートビート系の復旧をメトリクスパターン検知で補完(NSDI '25) - [[@2026__ASPLOS__Pulse - Fine-grained and Non-intrusive LLM Training Monitoring via Microsecond-level Traffic Measurement]] — [[Nanjing University]] の LLM 訓練向けのトラフィック中心の監視システム [[Pulse]]。訓練コード/CCL を改変せず [[BlueField-3]] 上でマイクロ秒級の RDMA トラフィック計測を行い、function hooking で得た期待ボリューム/ピアから per-QP レートを operator 単位にセグメント化し、実際の通信時間/通信量でマシン単位に箇所特定。64 H200 GPU で 12 件中 10 件をマシン単位で特定(SOTA の [[Aegis]]/[[Holmes]]/[[GreyHound]] は 4 件・2 件を誤診)、適合率 90% 超・再現率 100%・平均約 6 秒・オーバーヘッドは無視可能。**[[Minder]] が「オーバーヘッドのため未展開」としたマイクロ秒監視を、計測の on-NIC off-path 化で実現**(ASPLOS '26, DOI:10.1145/3779212.3790163) - [[@2026__ICSE__An Empirical Study of Production Incidents in Generative AI Cloud Services]] — Microsoft の GenAI クラウドサービス（Azure OpenAI 等）の本番インシデント 4 年分の初の大規模実証研究。GenAI 固有の症状・根本原因・緩和の 3 分類体系を構築し、TTM が非 GenAI 比 1.83 倍・人手検知率 38.3%・症状と根本原因の多対多マッピングを定量化（ICSE 2026, arXiv:2504.08865） - [[@2026__ICML__TelecomTS - A Multi-Modal Observability Dataset for Time Series and Language Analysis]] — 5G 通信ネットワーク由来の大規模マルチモーダルオブザーバビリティデータセット。非匿名化・絶対スケール保持の 18 KPI、32K サンプル・11 異常タイプ・221 万 Q&A。スケール情報の除去が RCA +30.4 ポイントの劣化を招くことを定量化（Yale University、ICML 2026, arXiv:2510.06063） - [[@2025__CSUR__A Survey of AIOps in the Era of Large Language Models]] — [[Peking University]] の [[Lingzhe Zhang]]・[[Tong Jia]]・[[Ying Li]] らによる LLM4AIOps の初の包括的サーベイ。AIOps 全工程をデータ(RQ1)・タスク(RQ2)・手法(RQ3)・評価(RQ4)の 4 軸で俯瞰し、2020-01〜2024-12 の論文を分析。タスクを Failure Perception → Root Cause Analysis → Assisted Remediation の 3 段に整理し、LLM 時代の新タスク(root cause report generation・script generation・automatic execution 等)と緩和の自動化 5 段、手法 5 系統(foundation/fine-tuning/embedding/prompt/knowledge-based)を体系化。課題に時間効率・trace 活用・汎化・既存ツールチェーンとの統合を挙げる。**本 wiki が一次ソースで持つ [[AIOpsLab]] を全ライフサイクルベンチの代表として参照する「フィールドの地図」**(ACM Computing Surveys 採録, arXiv:2507.12472, DOI:10.1145/3746635) - [[@2025__arXiv__Rethinking the Evaluation of Microservice RCA with a Fault Propagation-Aware Benchmark]] — [[The Chinese University of Hong Kong, Shenzhen]] の [[Aoyang Fang]]・[[Pinjia He]] らによる、マイクロサービス RCA の評価ベンチマークの妥当性を問い直した論文。単純ヒューリスティック SimpleRCA が 4 公開ベンチで SOTA に匹敵すると示し、既存ベンチの過度な単純さ(障害ケースの 86% が Type I/II、99% が観測データ不完全)を暴く。[[Train-Ticket]](50 サービス)+ 動的ワークロード + [[ChaosMesh]] で 9,152 注入から impact-driven validation した 1,430 ケース・25 障害種別の障害伝播ベンチを生成し、11 SOTA を再評価して平均 Top@1 0.21・最高 0.37。3 失敗モード(scalability/observability blind spots/modeling bottlenecks)を特定(**本 wiki 初のデータ駆動 RCA モデル評価ベンチの一次論文**、arXiv:2510.04711, 2025) - [[@2024__ESEC-FSE__MonitorAssistant - Simplifying Cloud Service Monitoring via Large Language Models]] — [[Tsinghua University]] の [[Zhaoyang Yu]]・[[Microsoft]] の [[Minghua Ma]] らによる LLM ベースの実用的異常検知システム [[MonitorAssistant]]。「実用的異常」(統計的逸脱 + インシデント裏付け)を定義し、LLM(GPT-4 Turbo)を検知器でなくメタ層(設定推奨・異常レポート生成・フィードバック仲介)として配置。統一類似度(時系列シェープレット + LLM 記述類似度)で最適なモデル設定を推奨し、LLM-Engineer-In-The-Loop でサービスエンジニアが低閾値でモデルを改善。Microsoft のクラウドサービスに投入し有効性を検証(**産業投入による学術—産業ギャップの橋渡し**、ESEC/FSE 2024 Industry Track, DOI:10.1145/3663529.3663826) - [[@2025__ASE__LogPilot - Intent-aware and Scalable Alert Diagnosis for Large-scale Online Service Systems]] — [[The Chinese University of Hong Kong]] の [[Michael R. Lyu]] グループと [[ByteDance]] による、ログベースのアラート診断を自動化する intent-aware かつスケーラブルな LLM フレームワーク [[LogPilot]]。アラート定義(PromQL)の意味的意図を LLM に解釈させ因果的に関連するログを絞り込み(intent-aware scoping)、各 request を spatiotemporal log chain に再構成・クラスタリングして代表だけを LLM に渡す(LLM 呼び出し 98.71% 削減)。[[Volcano Engine]] Cloud の 4 サービス・202 アラートで根本原因要約の有用性 +50.34%・exact localization +54.79%、$0.074/アラート・E2E 58.6 秒で 12 本番サービスに展開(受容率 84.21%)。**本 wiki 初のログ専門のアラート診断/RCA 一次論文**(ASE 2025, arXiv:2509.25874) - [[@2026__arXiv__Position Beyond Model-Centric Prediction - Agentic Time Series Forecasting]] — [[University of Science and Technology of China]] の [[Mingyue Cheng]]・[[Xiaoyu Tao]] らによるポジションペーパー。時系列予測をモデル中心・静的・シングルパスの関数近似から、知覚(perception)・計画(planning)・行動(action)・省察(reflection)・記憶(memory)の 5 コンポーネントからなる反復的・マルチターンな意思決定プロセス([[エージェント型時系列予測]] / ATSF)へ再定式化する立場を主張する。予測モデルの呼び出し自体を行動空間の 1 つとして扱い、ツール相互作用・フィードバック取り込み・経験蓄積による進化を重視する。実装を Workflow(構造的安定、例 [[TimeCopilot]])・AgenticRL(自律的進化、例 [[Cast-R1]])・AgenticFlow(ハイブリッド)の 3 パラダイムに整理し(Table 2)、進歩の主軸を「モデルアーキテクチャの反復」から「ワークフロー設計・ツール構成・意思決定ポリシーのシステムレベル進化」へ移すべきだと論じる(Table 1 で ATSF だけがツール利用・進化を持つ)。ポジションペーパーゆえ体系的な実験評価はなく、同グループの [[Cast-R1]] 等を有効性の参照とする。**本 wiki 初のエージェント型時系列予測の一次論文**(arXiv:2602.01776v4 [cs.LG], 2026) - [[@2026__arXiv__Cast-R1 - Learning Tool-Augmented Sequential Decision Policies for Time Series Forecasting]] — [[University of Science and Technology of China]] の [[Xiaoyu Tao]]・[[Mingyue Cheng]] らによる、[[エージェント型時系列予測]] の **AgenticRL パラダイムの代表実装**(上の ATSF ポジションペーパーが有効性の参照とする一次論文)。時系列予測を逐次的意思決定問題へ再定式化し、記憶ベース状態管理 + モジュール式ツールキット(統計特徴抽出・データ品質診断・[[変化点検知|変化点検出]]・予測モデル呼び出し)を介したツール拡張エージェントワークフローで予測を実行。SFT + マルチターン RL([[強化ファインチューニング|GRPO]])+ カリキュラム学習の 2 段階で学習し、予測モデル([[Chronos-2]]・[[TimesFM]]・PatchTST・iTransformer・ARIMA・DLinear)を状態認識的に選ぶツールとして扱う。実世界 10 データセット(ETT 4 種・Wind・EPF 5 種)で全データセット最低 MSE。ATSF が実験なしに掲げた主張(ツール利用・省察・記憶・計画)をアブレーションが個別に裏づける一方([[Chronos-2]] 除去で volatile NP が 22.5→55.4、RL 除去で 24.750→54.631)、**本文(Qwen3-8B/4×A800)と Appendix(Qwen3-1.7B/単一 RTX 4090D)で実装設定が矛盾し Table 2 主結果が 4B 相当数値**という未完成プレプリント(arXiv:2602.13802v1, 2026) - [[@2026__eunomia.dev__eBPF × AI-LLMs - The Convergence of System Observability and AI]] — [[eunomia-bpf]] の [[Yusheng Zheng]] による eBPF と AI/LLM の融合を俯瞰する位置づけエッセイ + 厳選リスト(awesome list)。URL は同コミュニティの [[GPTtrace]] ページだが、内容は GPTtrace 単体でなく eBPF×AI 全体。核心は双方向の**共生ループ**——(a)**eBPF for AI**: カーネル層の高忠実度テレメトリで AI ワークロード/エージェントを観測・最適化([[AgentSight]] が claude code/gemini-cli を <3% オーバーヘッドで追跡、GPU の uprobe トレース、[[bpftime]] の eGPU)、(b)**AI for eBPF**: LLM がカーネル拡張を生成・検証([[Kgent]]/KEN が Z3 記号検査つきで約 80% 意味的正しさ、[[GPTtrace]] が実装、SimpleBPF/DiffSpec/LLM スケジューラ合成)。2024–2025 の研究・製品を Part 1(可観測性/セキュリティ/性能)・Part 2(カーネル内データパス)・Part 3(eBPF 合成)に整理。**本 wiki 初のカーネル層 eBPF×AI ソース**で、アプリ層 AIOps に新レイヤーを足す。awesome list ゆえ二次情報・`confidence: medium`(eunomia.dev/GPTtrace/、2026-06-04 取得) - [[@2024__SOSP__Unearthing Semantic Checks for Cloud Infrastructure-as-Code Programs]] — [[University of Michigan]] × [[Microsoft]]([[Ang Chen]] グループ)の [[Zodiac]]。IaC プログラムがコンパイルを通過してもデプロイ時に失敗する **semantic gap** を、公開 [[Terraform]] リポジトリからの[[設定マイニング|セマンティックチェックのマイニング]]とデプロイベース検証(SMT による positive/negative テスト)で埋める自動パイプライン。[[Microsoft Azure]] の 52 リソース種別・26,000 リポジトリから 510 の検証済みチェックを発掘し、既存 IaC ツール(TFLint/Checkov 等)が捕えない inter-resource 制約を含む。200+ のバグ repo と公式ドキュメント 4 件の誤りを発見・修正。**本 wiki 初の Cloud IaC リライアビリティ一次論文**で、[[Lilac]](lifting)・[[NSync]](reconciliation)と同一グループの IaC ライフサイクル研究の起点(SOSP '24, DOI:10.1145/3694715.3695974) - [[@2025__arXiv__Automated Cloud Infrastructure-as-Code Reconciliation with AI Agents]] — [[University of Michigan]] の [[Zhenning Yang]]・[[Ang Chen]] と [[Amazon Web Services]] による、IaC reconciliation のための初の自動エージェントシステム [[NSync]]。コンソール/CLI/SDK 経由の帯域外変更で生じる infrastructure drift を、クラウド API トレース([[AWS CloudTrail]])から検知し既存 [[Terraform]] 構成へパッチを生成。タスクを program repair として定式化し、ニューロシンボリックな注釈 + 統合の intent identification、ライブ実行なしの read-only ツール(drift_report・self_critique)による patch generation、プロジェクト単位の継続学習 KB の 3 段。5 プロジェクト・372 drift で pass@3 0.71→0.97・トークン効率 1.47 倍。**本 wiki 初の IaC drift 修復の一次論文**(arXiv:2510.20211, 2025) - [[@2025__AIOps__Automated Lifting for Cloud Infrastructure-as-Code Programs]] — [[University of Michigan]] の [[Jingjia Peng]]・[[Ang Chen]] らと [[University of California, San Diego]] による、IaC lifting(既存の非 IaC デプロイを IaC へ逆生成)のニューロシンボリックなルール抽出パイプライン [[Lilac]] のビジョン論文。鍵となる洞察は「lifting ルール(逆方向)は IaC デプロイ(順方向)の観測から学習できる」。LLM(ルール抽出)と symbolic 手法(incremental deployment・IaC ネイティブ検証 import/equivalence/redeployment)を組み合わせ、安全クリティカルな lifting で LLM の幻覚を guardrail で抑える。43 Azure リソースで [[aztfexport]] と同等以上の誤り率(FP 2.3%/FN 0% 対 4.6%/7.0%)を少ない手作業で達成。**本 wiki 初の IaC lifting の一次論文**(AIOps 2025 / ICSE workshop, IEEE Xplore 11029329) - [[@2025__arXiv__Cisco Time Series Model Technical Report]] — [[Cisco]]([[Splunk]])による観測ドメイン特化の時系列基盤モデル(Cisco TSM)。[[TimesFM]] に特殊トークンと解像度埋め込みを足して継続事前学習し、粗い 1 時間と細かい 1 分のコンテキストを連結した「多解像度の長コンテキスト」を 1/30 の系列長で扱う。約 400M 系列・13 か月・300B 点超で学習し、観測データ評価で競合 TSFM([[Toto]]/[[Chronos-2]])を上回りつつ、[[GIFT-Eval]] の non-leaking 評価で汎用能力も保つ。アブレーションで解像度埋め込み + 特殊トークンが系列長連結(CONCAT)と同等以上かつ収束が速い(**本 wiki 初の観測特化・多解像度 TSFM の一次論文**、arXiv:2511.19841, 2025) - [[@2026__arXiv__ARFBench - Benchmarking Time Series Question Answering Ability for Software Incident Response]] — [[Carnegie Mellon University]]・[[Datadog]] AI Research・[[Amazon Web Services]] による、ソフトウェアインシデント対応の時系列質問応答(TSQA)を測る初のベンチマーク [[ARFBench]]。[[Datadog]] の本番インシデント Slack タイムラインを専門家アノテーションの一次源に、750 問・142 系列・538 万点を Tier I/II/III(111/306/333)で構成。事前学習済み TSFM([[Toto]])を VLM([[Qwen3-VL]])と結合した [[Toto-1.0-QA-Experimental]] が精度 63.9% でフロンティアモデル(GPT-5 62.7%)に並び、人間専門家との best-of-2 オラクルが精度 87.2%・F1 82.8% の超人的フロンティアを示す。訓練段アブレーションで RLVR が +15.4pp(**本 wiki 初の時系列質問応答ベンチの一次論文**、arXiv:2604.21199, 2026) - [[@2026__arXiv__Towards Robust LLM Post-Training - Automatic Failure Management for Reinforcement Fine-Tuning]] — [[Peking University]]/[[Alibaba Group]]/[[University of Illinois Chicago]] の同一グループ([[Lingzhe Zhang]] ら)による、[[強化ファインチューニング]](RFT)の訓練プロセスに AIOps の検知→診断→修復の障害管理ライフサイクルを移植した研究。初の細粒度障害ベンチマーク [[RFT-FaultBench]](5 families/16 types/779 runs/22,549 train-step/145 万 trajectory)と閉ループフレームワーク [[RFT-FM]] を提示。検知 F1 87.96%/73.88%・type-level Macro-F1 85.51%/42.16%・Mitigation Rate 46.25% で、自動修復の不安定性(MSC -5.84%)も定量化(**本 wiki 初の RFT 障害管理の一次論文**、arXiv:2605.04431, 2026) - [[@2025__arXiv__Foundation Models for Time Series - A Survey]] — [[Dell Technologies]] ほか([[Siva Rama Krishna Kottapalli]] 筆頭)による Transformer ベースの[[時系列基盤モデル]]のサーベイ。15 の代表 TSFM を 6 次元(アーキテクチャ・パッチ有無・目的関数・単変量/多変量・確率的/決定論的・規模)で分類するタクソノミーを提案し、**目的関数による分類**を独自軸とする。vault が個別に持つ [[Toto]]/[[TimesFM]]/[[Chronos-2]](初代 Chronos)/[[Falcon-X]]/Cisco TSM 等に俯瞰の座標系を与える二次サーベイ。observability ドメインは扱わない(**本 wiki 初の TSFM 横断サーベイ**、arXiv:2504.04011, 2025-04) - [[@2025__ICLR__OpenRCA - Can Large Language Models Locate the Root Cause of Software Failures]] — [[Junjielong Xu]]・[[Shilin He]]・[[Qingwei Lin]]・[[Chaoyun Zhang]]([[Microsoft]])・[[Dan Pei]]([[Tsinghua University]])・[[Pinjia He]]([[The Chinese University of Hong Kong, Shenzhen]])らによる、LLM の根本原因分析能力を測る初の大規模ベンチ [[OpenRCA]]。実世界 3 システム由来の 335 障害 + 68.5GB テレメトリ(logs/metrics/traces)を CSV で静的に与え、根本原因 3 要素(originating component / start time / failure reason)の部分集合=7 goal を問う目標駆動定式化。コード実行型 RCA-agent(Controller の高位ガイダンス + stateful Python Executor の ReAct ループ)が raw テレメトリをコンテキストに載せず KPI 1263→53 に絞って捌くが、最良 Claude 3.5 Sonnet で 11.34%・Hard(3 要素)は全モデル 0.00%。性能はモデルのエラー耐性に律速(Gemini は sampling 最良→agent 最弱、実行失敗 −68.4%)、推論を 10 ステップ超に伸ばすと精度向上。クエリは GPT-4 合成・候補事前提示で、汚染対策に updatable(**本 wiki 初の LLM-RCA 静的ベンチ一次論文**、ICLR 2025, OpenReview M4qNIzQYpd) - [[@2026__arXiv__Cloud-OpsBench - A Reproducible Benchmark for Agentic Root Cause Analysis in Cloud Systems]] — [[Guangba Yu]]・[[Pengfei Chen]]([[Sun Yat-sen University]])・[[Michael R. Lyu]]([[The Chinese University of Hong Kong]])らによるエージェント型 RCA の再現可能ベンチ [[Cloud-OpsBench]]。452 障害・40 根本原因種別・7 カテゴリ・[[Kubernetes]] 全スタック。**State Snapshot Paradigm**(メトリクス・ログ・コントロールプレーン設定・データプレーン状態を凍結した決定論的デジタルツイン + モック接面)で「ライブ非決定性 vs 静的人工物」の二分を埋める第三の型を取り、結果 A@k だけでなく**推論過程を採点する初の white-box 評価**(IAC/RAR/ZTDR)を導入。A@1=0.73 でも IAC=0.40・RAR=0.11・ZTDR=0.32 と過程指標は低く、SLM の律速は推論でなく構文脆弱性(Syntactic Fragility/IAC)、frontier はパラメトリック幻覚(Parametric Hallucination/ZTDR)と認知欠陥を分離。障害注入は 3 エージェント MAS(Generator/Executor/Verifier)閉ループで K8s 自動マスクを Verifier が検出し強度調整、診断ツール T1〜T10 平均 487 呼び出しを事前計算。手続き的実演(ICL)が宣言的知識(RAG)/CoT を一貫して上回る(GPT-4o 0.49→0.70)(**本 wiki 初のエージェント RCA 過程評価ベンチ**、arXiv:2603.00468, 2026) - [[@2025__ASE__AlertGuardian - Intelligent Alert Life-Cycle Management for Large-scale Cloud Systems]] — [[Guangba Yu]]・Genting Mai・[[Pengfei Chen]]([[Sun Yat-sen University]])と [[Tencent]] による、アラートライフサイクルを一気通貫で管理する ASE 2025 の experience paper [[AlertGuardian]]。3 フェーズ=Alert Denoise(**LLM 不使用**の軽量グラフ GraphGuardian=LINE+Transformer + 仮想ノイズノード + 高基数属性匿名化、<200ms・削減率 93.82〜95.50%)→ Alert Summary(RAG+DeepSeek V3 で Root Cause/Explanation/Solution/Reference 生成、RCA 90.5%・Action 98.5%)→ Alert Rule Refinement(オーケストレータなし 4 エージェント Detect/RAG/Rule/Review + 反復フィードバック、停止条件=構文・重要アラート保持・ノイズ比 5%、human-in-the-loop で 1,174 提案→375 受容/32%)。本番(Tencent System A)で MTTR 156→21 分(7.4倍)・日次アラート 30万→1.5万。同 ASE2025 の [[LogPilot]](単発アラート診断)に対し「ライフサイクル全体最適化」の対比軸を立てる。既存 papers/ ノートは温存し wiki から一方向参照(**本 wiki 初のアラートライフサイクル全体最適化の一次論文**、ASE 2025, yuxiaoba.github.io/files/ASE25/AlertGuardian.pdf) - [[@2025__arXiv__TimeSeriesScientist - A General-Purpose AI Agent for Time Series Analysis]] — [[Haokun Zhao]]・[[Xiang Zhang]]・[[Jiaqi Wei]]([[Stony Brook University]] ほか、corresponding [[Chenyu You]])による、汎用単変量時系列予測を自動化する初の LLM 駆動エージェント型フレームワーク [[TimeSeriesScientist]](TSci)。Curator(LLM ガイド診断+前処理+可視化+構造プロファイリング)→ Planner(モデル選択+ハイパラ最適化+ランキング)→ Forecaster(3 系のアンサンブル戦略を LLM が選択、テスト前に重み固定でリーク回避)→ Reporter(5 部構成のホワイトボックスレポート)の固定 SOP を直列協調。21 モデル(統計 7/ML 6/木 4/NN 2/専用 2)のライブラリを内蔵し[[時系列基盤モデル]]は不使用。8 ベンチ 5 ドメイン(ETT×4/Weather/ECL/Exchange/ILI)で統計比 MAE 平均 -10.4%・LLM 直接予測比 -38.2%、8/8 で MAE 最良。レポートも 5 ルーブリック(AS/MJ/IC/AQ/SC)の win rate で全 LLM ベースライン超。アブレーションで前処理除去が MAE +41.8%(最大)。[[エージェント型時系列予測]] の Workflow パラダイムの典型例で、AgenticRL の [[Cast-R1]] と対をなす(**本 wiki 初の LLM エージェント型汎用時系列予測の一次論文**、arXiv:2510.01538, 2025-10) - [[@2025__ISAV__From Exploration to Explanation - ML-Driven Causal Discovery for Datacenter Reliability at Scale]] — [[Hewlett Packard Labs]]/[[Oak Ridge National Laboratory]] の [[Pavana Prakash]] らによる、データセンター信頼性の因果探索フレームワーク [[PACE]]。教師なし相関クラスタリングとラグ考慮型 Granger 因果性で多変量テレメトリからサブシステム構造と有向因果パスを抽出し、推定因果グラフを既知の物理プロセスと突き合わせて妥当性検証する。[[Summit]] 冷却インフラ 7 年分テレメトリ(Yokogawa SMARTDAC)で評価。定量的な精度指標は報告せず物理整合性・エントロピー順位・感度分析の定性評価による(**本 wiki 初の施設テレメトリ因果探索の一次論文**、PDF 取得済み、ISAV 2025 / SC Workshops pp.997–1002, DOI:10.1145/3731599.3767471) - [[@2025__arXiv__Efficient Fine-Grained GPU Performance Modeling for Distributed Deep Learning of LLM]] — [[Case Western Reserve University]]/[[Rutgers University]] の [[Biyao Zhang]] らによる、LLM 分散訓練のエンドツーエンド訓練時間予測。オペレータ単位分解 + 木ベース回帰器で、通信演算は予測誤差 50% 超だがイテレーション時間の 5% 未満しか占めないため計算演算(70〜95%)に予測能力を集中配分する。完全に CPU 上で動作し、[[Perlmutter]](A100)で平均誤差 4.98%・[[Vista]](GH200)で 9.38%、最大 20B・128 GPU(arXiv:2509.22832, 2025) - [[@2025__SIGCOMM__SkeletonHunter - Diagnosing and Localizing Network Failures in Containerized Large Model Training]] — Alibaba Cloud/[[Tsinghua University]]/[[University of Illinois Urbana-Champaign]] の [[Wei Liu]]・[[Ennan Zhai]] らによる、コンテナ化大規模訓練のネットワーク障害診断システム [[SkeletonHunter]]。CSP がモデル構成を見られない制約下で RNIC バーストサイクルの STFT + 階層クラスタリングから集合通信のスパース性を「トラフィックスケルトン」として間接推論し、probing を full-mesh から 2 桁削減。overlay/underlay を楽観的に分離して 19 コンポーネント種別へ箇所特定、~30s の訓練ラウンド内で precision 98.2%/recall 99.3%(**本 wiki 初のコンテナ訓練ネットワーク障害診断の一次論文**、SIGCOMM 2025, DOI:10.1145/3718958.3750513) - [[@2025__IWQoS__eACGM - Non-instrumented Performance Tracing and Anomaly Detection towards Machine Learning Systems]] — [[Sun Yat-sen University]] の [[Ruilin Xu]] らによる、AI/ML 全スタック(CUDA/Python/PyTorch/NCCL/GPU)をコード計装ゼロで実行時トレースする非侵入監視フレームワーク [[eACGM]]。eBPF をフレームワーク層のユーザ空間関数トレースへ適用し、libnvml で GPU メトリクスを統合、教師なし GMM(確率密度 < δ で異常)で層別の性能異常を検知。KMeans/IsolationForest/DBSCAN/XGBoost/SVM/RandomForest を全層で上回る(IWQoS 2025, arXiv:2506.02007、OSS shady1543/eACGM) - [[@2025__arXiv__XPUTimer - Anomaly Diagnostics for Divergent LLM Training in GPU Clusters of Thousand-Plus Scale]] — [[Shanghai Jiao Tong University]]/[[National University of Singapore]]/[[Ant Group]] の [[Weihao Cui]] らによる、発散 LLM 訓練の異常診断システム [[XPUTimer]]([[Flare]])。非侵入 CPython(PyEval_SetProfile)+ LD_PRELOAD の全スタック計装と、稼働中 ring-allreduce カーネルの SASS レジスタを CUDA-GDB で読む intra-kernel inspecting による O(1) 通信ハング箇所特定で、throughput では見えない持続的「性能回帰」まで issue latency 分布・void percentage で診断。[[Ant Group]] 6,000 GPU で 8 ヶ月運用、再発回帰の協業を 63.5% 削減。**arXiv v2 で Flare に改名**(arXiv:2502.05413, 2025) - [[@2025__NSDI__Evolution of Aegis - Fault Diagnosis for AI Model Training Service in Production]] — Alibaba Cloud の [[Jianbo Dong]]・[[Kun Qian]] らによる、パブリッククラウドの AI 訓練障害診断システム [[Aegis]]。計算と通信の境界にある CCL を差し替えて launch/work-request/completion カウンタを仕込み、顧客コードを一切変えずに計算障害(CL 遅れ)と通信障害(WR<WC)を弁別。箇所特定と根本原因分析を分離し前者に専念。本番で idle time 97%+・restart 84%+ 削減、性能劣化 71% 検知。高位 GPU の MTBF は A100 約 400 日・H100 約 200 日、訓練タスクの 73% が最初の 10 分以内に失敗(**本 wiki 初のパブリッククラウド AI 訓練障害診断の一次論文**、NSDI 2025) - [[@2025__DSN__LLMPrism - Black-box Performance Diagnosis for Production LLM Training Platforms]] — [[The Chinese University of Hong Kong]]/[[Huawei Cloud]] の Zhihan Jiang・[[Guangba Yu]] らによる、スイッチ層 RoCE ネットワークフローのみから LLM 訓練を診断するブラックボックス性能診断システム [[LLMPrism]]。DP/PP の通信フットプリント差から並列化戦略を逆推定し、BOCD(閾値 0.95)でステップ境界を、k-σ 則(k=3)で異常を検知してタイムラインを再構築。テナントのプライバシーを保ったまま、19 ジョブ/2880 GPU で 0.3% 誤差・並列化識別 100%、[[Platform-X]] で 2024 年 10 月から稼働(**本 wiki 初のネットワークフローからの訓練ブラックボックス診断の一次論文**、DSN 2025, arXiv:2505.00342) - [[@2025__ESEC-FSE__L4 - Diagnosing Large-scale LLM Training Failures via Automated Log Analysis]] — [[The Chinese University of Hong Kong]]/[[Sun Yat-sen University]]/[[Huawei Cloud]] の [[Junjie Huang]]・[[Guangba Yu]] らによる、LLM 訓練障害の自動ログ解析診断 [[L4]]。従来のログ異常検知の 3 指標(レベル・頻度・意味)が訓練ログに通用しない実証(障害指示ログの 54.8% のみ error レベル)を踏まえ、cross-job(成功ジョブとの差分)・spatial(同期ノード間ログの Isolation Forest 外れ値)・temporal(イテレーション間ログ系列の DTW)の 3 パターンで障害指示情報を抽出。F1 0.873・top-5 80.5%、[[Platform-X]] で 428 件の障害研究(障害あたり平均 16.92GB・手動診断 34.7 時間)(**本 wiki 初の LLM 訓練ログ自動解析の一次論文**、ESEC/FSE 2025, arXiv:2503.20263) - [[@2025__arXiv__TimeCopilot]] — [[Azul Garza]]・[[Renée Rosillo]] による、複数の[[時系列基盤モデル]](TSFM)と LLM を単一の統一 API 下に集約する初のオープンソースなエージェント型予測フレームワーク [[TimeCopilot]]。LLM を (i) パイプライン各ステップの行動決定(オーケストレーション)と (ii) モデル選択・予測の自然言語説明の二役で使い、特徴分析 → モデル選択・評価 → 最終選択・予測の 3 段ワークフロー(Agent)と、TSFM 最大級ハブを直接制御する Forecaster の 2 エントリポイントを提供。[[GIFT-Eval]](24 データセット・144k+ 系列・1.77 億点)で MedianEnsemble([[Chronos-2]]+[[TimesFM]]+[[TiRex]] を isotonic regression で結合)が確率予測 CRPS の全体最良を約 $24 の低コストで達成(点予測 MASE は Chronos-2 に次ぐ 2 位)。[[エージェント型時系列予測]] の Workflow パラダイム代表で、基盤モデル不使用の [[TimeSeriesScientist]] と対照をなす(**本 wiki 初の TSFM アンサンブル型エージェント予測フレームワークの一次論文**、NeurIPS 2025 Workshop BERT2S / arXiv:2509.00616, 2025) - [[@2025__OSR__Cloud Infrastructure Management in the Age of AI Agents]] — [[Zhenning Yang]]・[[Archit Bhatnagar]]・[[Yiming Qiu]] ほか([[University of Michigan]] / [[University of California, Berkeley]] / [[Andreessen Horowitz]]、[[Ang Chen]] senior・[[Martin Casado]] 共著)による、LLM クラウド管理エージェントのビジョン/ポジション論文。クラウド管理を 4 [[クラウド管理モダリティ|モダリティ]](SDK/CLI/IaC/ClickOps)で捉え、Azure VM 管理の予備実験で provisioning/updates/monitoring の段階 × モダリティのトレードオフを実証(CLI=provisioning 最効率 1.0/1.6、IaC=再作成更新に強く monitoring に弱い 0.40、ClickOps=monitoring 1.0 だが作成は遅く脆い 46 step)。解決スケッチとして user-agent/agent-cloud interface・multi-agent orchestration・exploration/exploitation + workflow caching・guardrail(formal spec/access control/audit trail)・fault tolerance(rollback/self-healing)・human-in-the-loop を提示。同研究室の IaC 群([[Zodiac]]/[[NSync]]/[[Lilac]])を 4 モダリティの IaC として束ねるビジョン論文(**既存 IaC クラスタと agentic SRE/AIOps クラスタを接続**、ACM SIGOPS OSR 2025, DOI:10.1145/3759441.3759443) - [[@2024__SIGCOMM__R-Pingmesh - A Service-Aware RoCE Network Monitoring and Diagnostic System]] — [[BUPT]] と [[Douyin Vision]] による、エンドツーエンドの能動プロービングに基づく初のサービス認識型 RoCE ネットワーク監視・診断システム [[R-Pingmesh]]。市販 RNIC の UD QP と CQE タイムスタンプでネットワーク RTT とエンドホスト処理遅延を測り、RNIC 起因とネットワーク内ドロップを区別し、サービス障害がネットワーク起因かを判定する。ToR-mesh プロービングで異常 RNIC をリアルタイム検知し、二分トモグラフィ的投票でリンク/スイッチを箇所特定。数万 RNIC・6 か月の本番運用で 14 種の問題を検知・箇所特定、報告 157 件のスイッチ問題は全件正確・全体 85% 正確、Agent オーバーヘッドは CPU 約 3%・メモリ約 18.5MB(**本 wiki 初の RoCE/RDMA ネットワーク監視の一次論文**、SIGCOMM 2024, DOI:10.1145/3651890.3672264) - [[@2025__SC__Characterizing GPU Resilience and Impact on AI - HPC Systems]] — [[University of Illinois Urbana-Champaign]]/[[NCSA]]/[[IBM Research]]/[[Nokia Bell Labs]]([[Shengkun Cui]]・[[Ravishankar K. Iyer]] ら)による、NCSA [[Delta]](A100/H100、計 1,056 GPU)の 2.5 年・1,170 万 GPU 時間の運用ログ(XID/Slurm/DCGM)に基づく GPU レジリエンスの世代間比較。H100 はメモリの per-GPU MTBE が A100 の 1/3.2(回復機構 spare row 512 行据え置きで容量 2.4 倍に非対応)と弱体化する一方、GSP/PMU SPI/NVLink 等のハードウェアレジリエンスは大幅向上。MMU/NVLink 以外の GPU エラーはほぼ 100% ジョブ失敗で、99.9% ジョブ可用性には 5% オーバープロビジョニング(1,000 ノードで月 100 万ドル超)が要る(別題 "Story of Two GPUs"、**本 wiki 初の GPU レジリエンス特徴づけの一次論文**、SC 2025, arXiv:2503.11901) - [[@2025__OSDI__Understanding Stragglers in Large Model Training Using What-if Analysis]] — [[New York University]]([[Jinkun Lin]]・[[Aurojit Panda]]・[[Jinyang Li]])と [[ByteDance]] Seed による、LLM 訓練のストラグラーを **What-if 分析**(ストラグラー不在の理想タイムラインをトレースからシミュレートし実測と対比、$S=T/T_{\text{ideal}}$)で帰属した研究。5 か月・3,079 ジョブの実トレースで 42.5% のジョブが ≥10% スローダウン、全 GPU 時間の 10.4% が浪費。主因はハードウェア障害(問題ワーカー主因は 1.7%)でなく計算側のアルゴリズム的不均衡——パイプラインステージ分割不均衡(39.3%)・シーケンス長不均衡($O(\sum s_i^2)$、21.4%)・Python GC。緩和はシーケンス再分配で 23.9%・計画 GC で 12.6% 改善。分析を監視システム [[SMon]] として本番展開(**本 wiki 初の LLM 訓練ストラグラー分析の一次論文**、OSDI 2025, usenix.org/conference/osdi25/presentation/lin-jinkun) - [[@2025__SOSP__Robust LLM Training Infrastructure at ByteDance]] — [[ByteDance]]([[Borui Wan]]・[[Liang Xiang]]・[[Chuan Wu]]@[[The University of Hong Kong]] ら)による、LLM 訓練特化の GPU インフラ管理・障害許容システム [[ByteRobust]]。制御プレーン(Robust Controller/Runtime Analyzer)+データプレーン(Robust Agent: Monitor/Diagnoser/CKPT Manager/On-Demand Tracer)で構成し、ETTR(有効訓練時間率)を最大化目標に据え 9,600 GPU・3 か月で最大 97% を達成。設計哲学は「正確な箇所特定より迅速な隔離」——軽量リアルタイム検知 + 階層的停止時診断、解けなければスタックトレースのデータ駆動クラスタリングで並列グループ単位に過剰排除。インフラ障害は件数 11% でも GPU 時間の 82% を消費、ハングは全インシデントの 9.9%。warm standby/hot-update が復旧を最大 10.87×/11.04× 高速化、毎ステップ CKPT のオーバーヘッド 0.9% 未満(**本 wiki 初の耐障害 LLM 訓練インフラの一次論文**、SOSP 2025, arXiv:2509.16293) - [[@2025__SIGCOMM__Astral - A Datacenter Infrastructure for Large Language Model Training at Scale]] — [[Nanjing University]]([[Qingkai Meng]]・[[Chen Tian]] ら)・[[Tencent]]・[[Harvard University]]([[ChonLam Lao]])による、50 万 GPU 級 LLM 訓練データセンターインフラ [[Astral]] の 18 か月の設計・運用経験。3 つの革新=(i) tier-2 まで広げた同一レール相互接続(単一レール 8K GPU・単一 Pod 64K・クラスタ 512K、8K GPU で効率損失 0.6%。物理展開のため分散 HVDC 電源 + 空気液体統合冷却、平均 PUE 最大 16.34% 改善)、(ii) アプリ〜物理の 4 層フルスタック監視 + クロスホスト・階層ログ相関(MTTLF を日→分、fail-stop 12×/fail-hang 25×/fail-slow 約 5×)、(iii) オペレータ粒度予測 [[Seer]](自己補正で数秒・密モデル 0.3% 偏差)。同 Nanjing グループの [[Pulse]] の系譜(**本 wiki 初の超大規模 LLM 訓練データセンターインフラの一次論文**、SIGCOMM 2025, DOI:10.1145/3718958.3750521) - [[@2025__eBPF__eInfer - Unlocking Fine-Grained Tracing for Distributed LLM Inference with eBPF]] — [[University of Connecticut]] の [[Kexin Chu]] ほか([[UC Santa Cruz]]/[[University of Washington]]/[[Shanghai Jiao Tong University]])による、分散 LLM 推論を要求単位でエンドツーエンドにトレースする初の [[eBPF]] ベースシステム [[eInfer]]。ソース改変・再コンパイルなしに CPU・アクセラレータ・プロセス・ノードをまたぐイベントを一意に関連付け、ベンダー非依存([[CUPTI]] 相当の精度)で本番ワークロードのオーバーヘッドを 4% 未満(サブミリ秒級)に抑える。ランタイム適応型トレーシングで動的ワークロードとアクセラレータ上の計測ギャップに追従(**本 wiki 初の eBPF ベース分散 LLM 推論トレーシングの一次論文**、eBPF Workshop 2025, DOI:10.1145/3748355.3748372) - [[@2026__arXiv__ProfInfer - An eBPF-based Fine-Grained LLM Inference Profiler]] — [[Huawei Hilbert Research Center Dresden]]/[[TU Munich]] の [[Bohua Zou]]・[[Debayan Roy]] らによる、[[eBPF]] の uprobe/uretprobe/tracepoint を [[llama.cpp]] のランタイム関数へ動的アタッチし、ソース改変・再コンパイルなしで token/graph/operator/scheduler の多粒度トレースを取る非侵入プロファイラ [[ProfInfer]]。演算子レベルで [[ハードウェアカウンタ|PMC]] を読み `ggml_tensor` を辿ってハードウェア挙動とモデル構造を対応づけ、Analyzer が ProfDAG/ProfTime([[Perfetto]])/ProfStat の 3 ビューを生成。decode 速度低下は [[libbpf]] で最小 1.7%・token/graph のみなら 0.1% と 4% 未満に収まり、ONNX Runtime profiler(8.91%)を上回る。MoE のボトルネックがメモリ帯域でなくディスク I/O だと特定(**本 wiki 初のオンデバイス LLM 推論プロファイラの一次論文**、arXiv:2601.20755, 2026-01) - [[@2025__SOSP__Mycroft - Tracing Dependencies in Collective Communication Towards Reliable LLM Training]] — [[ByteDance Seed]] の [[Yangtao Deng]] らによる、[[集合通信]]ライブラリ([[NCCL]])のブラックボックス性を打破して信頼性問題を診断する Coll-level 観測システム [[Mycroft]]。フロー単位・チャンク単位の細粒度な依存性(制御依存・データ依存)を露出させ、グレイフェイラー/フェイルスローの根本原因分析を行う。NCCL への軽量計装(C++ 1,100 行)+固定サイズ環形バッファ+非同期アップロードで臨界経路にほぼオーバーヘッドなく連続トレーシングし、数万 GPU で 90% を 15 秒以内に検知・60% を 20 秒以内に箇所特定。ByteDance に 2024 年 10 月以降 6 か月超デプロイ(**本 wiki 初の集合通信依存トレーシングの一次論文**、SOSP 2025, arXiv:2509.03018) - [[@2025__HCDS__eGPU - Extending eBPF Programmability and Observability to GPUs]] — [[UC Santa Cruz]] の [[Yiwei Yang]]・[[Tong Yu]]・[[Andrew Quinn]] らによる、[[eBPF]] バイトコードを実行時に [[PTX]] へコンパイルして稼働中の GPU カーネルへ動的注入する初の eBPF ランタイム/フレームワーク [[eGPU]]。稼働中カーネルを中断せずにインストルメンテーションを追加・変更・削除でき、[[NVBit]] などバイナリ書き換え型より低オーバーヘッド。共有メモリ上の eBPF マップで CPU-GPU 間をコピーなしにイベント交換し、LD/ST 計装で NVBit ベースの gpumemtrace より低オーバーヘッドを示す。評価は単一 GPU・マイクロベンチに限定(**本 wiki 初の GPU への eBPF 拡張の一次論文**、HCDS Workshop 2025, DOI:10.1145/3723851.3726984) - [[@2025__arXiv__Collective Communication for 100k+ GPUs]] — [[Meta]] の [[Min Si]]・[[Pavan Balaji]]・[[James Hongyi Zeng]] らによる、10 万 GPU 超クラスタの LLM ライフサイクル全体(訓練の同期要求から推論の低レイテンシ要求まで)を [[NCCL]] 拡張で一元支援する[[集合通信]]フレームワーク [[NCCLX]]。カスタムトランスポート [[CTran]] はゼロコピー・SM フリー・ホスト駆動で host-initiated / GPU-resident metadata / device-initiated の三実行モードを統一スタックで提供。[[Llama4]] 評価で定常ステップを最大 12% 削減・96K 規模で起動を最大 11 倍高速化・デコードレイテンシ 15〜80% 改善、[[DQPLB]] でスイッチバッファ蓄積を一桁削減(**本 wiki 初の 10 万 GPU 級集合通信フレームワークの一次論文**、arXiv:2510.20171, 2025) - [[@2024__TOPC__Low-Overhead Trace Collection and Profiling on GPU Compute Kernels]] — [[Polytechnique Montréal]]([[DORSAL lab]])の [[Sébastien Darche]]・[[Michel R. Dagenais]] による、GPU 固有の並列動作を活かしトレースフェーズを区分化してデバイス上のトレース収集オーバーヘッドを類似研究比で 1 桁削減する手法。制御フローが既知であることを利用してバッファを事前確保し決定的実行を保証、LLVM パス(host/device IR)に基づく多段性能解析。[[Rodinia]] で全体実行時間オーバーヘッド平均 1.60×・中央値 1.26×。参照実装 [[hip-analyzer]] は CUDA/[[HIP]] 対応・AMD MI100 でも検証(**本 wiki 初のコンパイル時 GPU トレース計装の一次論文**、ACM TOPC 2024, DOI:10.1145/3649510) - [[@2024__arXiv__Microsecond-scale Dynamic Validation of Idempotency for GPU Kernels]] — [[Shanghai Jiao Tong University]]([[Institute of Parallel and Distributed Systems|IPADS]])の [[Mingcong Han]]・[[Rong Chen]]・[[Haibo Chen]] による、GPU カーネルの[[べき等性]]をインスタンス単位で実行前に検証する初のシステム [[PICKER]]。カーネルが入力に応じてべき等/非べき等の双方を持つ「条件付きべき等」を発見(6 アプリ 547 カーネル中 490)し、起動引数だけを用いて全インスタンスを 5µs 以内に検証(偽陽性 0・偽陰性 18.54%)。耐障害システム [[Asymmetric Resilience]] の[[チェックポイント]]コストを 115% 超から 4% 未満へ、スケジューラ [[Chimera]] のプリエンプション待ちを平均 84.2% 削減(**本 wiki 初の GPU カーネルべき等性動的検証の一次論文**、arXiv:2410.23661, 2024) - [[@2025__VLDB__Approximation-First Timeseries Monitoring Query At Scale]] — [[Zeying Zhu]]・[[Kenny Wu]]・[[Zaoxing Liu]]([[University of Maryland]])と [[Jonathan Chamberlain]]・[[David Starobinski]]([[Boston University]])による、時系列モニタリングの近似優先クエリキャッシュ [[PromSketch]]。[[Prometheus]]/[[VictoriaMetrics]] の周期ルールクエリの主要ボトルネックを「繰り返しデータスキャン(CPU 41%/80.2%)」と「重複ウィンドウの繰り返し計算」と特定し、生データでも最終結果でもなく**中間結果**(Exponential Histogram バケット)を in-memory キャッシュ。EH×KLL(EHKLL、quantile 系)と EH×Universal Sketching(EHUniv、distinct/entropy/L2/TopK の GSum 系)を可証明な誤差境界つきで組み合わせ、任意サブウィンドウクエリを支援。Go 約 5K 行・約 30 行パッチで統合、Prometheus の aggregation-over-time の 70% をカバー。平均誤差 5% 以下でレイテンシ最大 2 桁削減、クエリ処理コストを Prometheus 比約 400×・VictoriaMetrics 比 4× 以上削減(**本 wiki 初の近似クエリ処理/時系列モニタリングコスト最適化の一次論文**、PVLDB/VLDB 2025, DOI:10.14778/3742728.3742732, arXiv:2505.10560) - [[@2025__SC__Fine-grained Automated Failure Management for Extreme-Scale GPU Accelerated Systems]] — [[Intel Corporation]]/[[RIKEN Center for Computational Science]] の [[Yonatan Levitt]] らによる、エクサスケール級 GPU 加速システムの MTTR を最小化する自動故障管理システム [[StabilityDB]]。MTBF が世代ごとに低下し続ける前提で、相関イベントを含むイベント履歴を分析する**集中型メタデータベース**・きめ細かな**マルチストライク修復ポリシー**(過剰なノードドレインを防ぎつつ真のハードウェア故障を高精度に特定)・自動回復フレームワークの 3 要素で、ノード単位でなく GPU 単位の細粒度に修復対象を切り分ける。[[Argonne National Laboratory]] の [[Aurora]] スパコン(63,744 GPU)に実導入し、手動保守比で MTTR を最大 84 倍短縮(**本 wiki 初のエクサスケール HPC 自動故障管理の一次論文**、SC 2025, DOI:10.1145/3712285.3759883) - [[@2026__MLSys2026__Guard - Scalable Straggler Detection and Node Health Management for Large-Scale Training]] — [[Store Foundational AI]]([[Amazon Web Services]])の [[Guanliang Liu]] らによる、大規模学習クラスタの[[ストラグラー]]検知とノード健全性管理システム [[Guard]]。NCCL テスト・GPU バーンインといった既存ヘルスチェックを通過しつつ性能を暗黙に劣化させる**グレーノード**(フェイルスロー)を主要な効率損失源と捉え、学習中の**オンラインモニタリング**(ピアベース相対異常検知 + 段階的緩和)と復帰前の**オフラインノードスイープ**(現実的ワークロード再現による持続性能検証)を閉ループ統合し、急性障害と長期フェイルスローの双方を検知する。大規模事前学習で MFU を最大 1.7 倍改善、ステップ時間分散を 20% から 1% に低減、平均ステップ時間を 17 秒から 10 秒に短縮。検知ツールの一部を [[fkat]] として OSS 化(**本 wiki 初のグレーノード/ノード健全性管理の一次論文**、MLSys 2026 Industry Track Oral) - [[@2025__arXiv__FlashRecovery - Fast and Low-Cost Recovery from Failures for Large-Scale Training of LLMs]] — [[iFLYTEK AI Engineering Institute]]/[[University of Science and Technology of China]]/[[Huawei Technologies]] の [[Haijun Zhang]] らによる、LLM 大規模訓練の高速・低コスト障害復旧システム [[FlashRecovery]]。(1) アクティブ障害検知(ハートビート + デバイスプラグイン)で数秒以内に障害を特定(検知 4〜11 秒、PyTorch 既定 1,800 秒比で約 99% 短縮)、(2) スケール非依存タスク再起動でランクテーブル更新を O(1) 化し復旧時間をクラスタ規模からほぼ分離、(3) データ並列複製を用いた**チェックポイントフリー 1 ステップ復旧**で定期チェックポイントの I/O オーバーヘッドを排除。[[Ascend NPU]] 4,800 デバイスで総復旧 150 秒以内、従来手法(175B)比で約 93〜95% 削減(**本 wiki 初のチェックポイントフリー障害復旧の一次論文**、arXiv:2509.03047, 2025-09) - [[@2025__SIGCOMM__Hawkeye - Diagnosing RDMA Network Performance Anomalies with PFC Provenance]] — [[Tsinghua University]]/[[Beihang University]]/[[Infrawaves]] の Shicheng Wang らによる、PFC のプロベナンス(来歴)に基づく RDMA 性能異常(NPA)診断システム [[Hawkeye]]。細粒度 PFC 対応テレメトリ・データプレーン内 PFC 因果関係解析・プロベナンスベース診断アルゴリズムの 3 コンポーネントで、PFC backpressure・PFC storm・PFC deadlock を 90% 以上の精度・再現率 100% で診断する。テレメトリ収集スイッチ数を全ポーリング方式の約 1/10 に抑えつつ 100% の因果関係カバレッジを保ち、処理オーバーヘッドを既存手法比 1〜4 桁削減。[[Intel Tofino]] テストベッドと NS-3 で評価(**本 wiki 初の RDMA 性能異常診断/PFC プロベナンスの一次論文**、SIGCOMM 2025, DOI:10.1145/3718958.3750490) - [[@2025__HPCA__Enhancing Large-Scale AI Training Efficiency - The C4 Solution for Real-Time Anomaly Detection and Communication Optimization]] — [[Alibaba Group]]/[[Hong Kong University of Science and Technology]] の [[Jianbo Dong]] らによる、通信駆動型の大規模 AI 訓練効率化ソリューション [[C4]]。分散訓練の同質的・反復的負荷ゆえハードウェア異常が[[集合通信]]に特定の症候を生む洞察で、診断サブシステム [[C4D]]([[ACCL]] 拡張)が故障コンポーネントを数十秒で特定・隔離・再開し、性能サブシステム [[C4P]] が予測可能な長寿命フローのトラフィック工学で帯域競合を削減する。エラー誘発ダウンタイムを 31.19% から 1.16% へ、システム効率を 30% から 45% へ引き上げ、本番に 30 か月超展開([[H800]] 評価環境、**本 wiki 初の通信駆動 AI 訓練異常検知/通信最適化の一次論文**、HPCA 2025, IEEE 10946823) - [[@2025__APNET__Forewarned is Forearmed - Joint Prediction and Classification of Optical Transceiver Failures in Large-Scale LLM Training Clusters]] — [[Nankai University]] の AIOps グループ(Sibo Xia・[[Shenglin Zhang]]・[[Yongqian Sun]] ら)による、大規模 LLM 訓練クラスタの光トランシーバー故障を**予測と分類**で統合するフレームワーク [[OptProphet]]。特徴量集約で時間的依存と物理的結合をモデル化し、不均衡データを自動処理して予測の感度と分類の特異度を高める。2 つの実世界データセットで故障予測の平均 F1 0.884(平均 1.11 日前にアラーム)・故障分類の平均 F1 0.855 を達成し SOTA を凌駕(**本 wiki 初の光トランシーバー故障予測/分類の一次論文**、APNet 2025 短編 pp.241–243, DOI:10.1145/3735358.3737815) - [[@2025__arXiv__A Survey of LLM × DATA]] — LLM とデータ管理の双方向的関係(DATA4LLM/LLM4DATA)を 400 超の文献で体系化した包括サーベイ。IaaS(Inclusiveness/Abundance/Articulation/Sanitization)品質枠組みを提案(SJTU/Tsinghua/Alibaba、arXiv:2505.18458, 2025) - [[@2025__PVLDB__DBAIOps - A Reasoning LLM-Enhanced Database Operation and Maintenance System using Knowledge Graphs]] — [[Wei Zhou]]・[[Xuanhe Zhou]]・[[Guoliang Li]] ら（SJTU/Tsinghua/百盛科技）による初のハイブリッドデータベース O&M システム [[DBAIOps]]。専門家の O&M 経験を 6 頂点型・4 辺型の異種知識グラフ(ExperienceGraph)に符号化し、800 以上の異常モデルと二段階グラフ進化(ADF)で未知異常の診断パスを動的構築。DeepSeek-R1 32B でベースライン比 RCA 精度 +34.85%・人手評価 +47.22%、25 データベースシステム・20 実環境シナリオ稼働(**本 wiki 初の知識グラフ+推論 LLM による DB O&M 診断の一次論文**、PVLDB 2025、DOI:10.14778/3797919.3797937) - [[@2026__arXiv__LLM4Log - A Systematic Review of Large Language Model-based Log Analysis]] — [[Concordia University]] SPEAR lab の [[Zeyang Ma]]・[[Jinqiu Yang]]・[[Tse-Hsun Chen|Tse-Hsun (Peter) Chen]] による、LLM ベースログ解析の初のエンドツーエンド systematic review [[LLM4Log (repository)|LLM4Log]]。ソフトウェア runtime log を中心証拠源に固定し、[[ログ生成]]→[[ログパース]]→表現学習→下流タスク([[異常検知]]・[[障害予測]]・[[根本原因分析]]・ログ要約)のパイプライン 7 タスクで 145 論文(2020–2025)を統一タクソノミー化。タスク分布は異常検知(71)+パース(41)で約 2/3、RCA(20)が近年急増。5 設計パターン(prompting/ICL・RAG・fine-tuning・tool/agent・verification)を抽出し、横断結論は「成功システムは無制約生成でなく情報を絞ってから LLM を選択的に呼ぶ階層設計」。162 レコード中、明確な deployment 証拠は 5 のみ・HDFS/BGL 偏重を指摘し、評価の comparability/realism と grounding/privacy を主要課題に挙げる(**本 wiki 初の LLM4Log エンドツーエンドサーベイ**、arXiv:2604.16359v2, 2026, github.com/zeyang919/LLM4Log) - [[@2024__MSR__FLASH - A Workflow Automation Agent for Diagnosing Recurring Incidents]] — [[Microsoft]] の [[Xuchao Zhang]]・[[Saravan Rajmohan]] らによる、反復インシデント診断を自動化する LLM ワークフローエージェント [[FLASH]](workFLow Automation agent with Status supervision and Hindsight integration)。複雑な TSG 命令を識別ステータスに沿って分解する status supervision と、過去失敗から LLM が生成する hindsight integration で多段診断の信頼性を高める。本番 250 件・5 シナリオで [[TaskWeaver]] 比平均 +13.2%(73.9% 対 60.7%)。実世界 TSG 品質調査で Ambiguous Action 約 40%・そのまま自動化可能な Pass 約 8.5% と、TSG 品質が自動化の律速であることを定量化(**本 wiki 初の [[TSG自動化]] 一次論文の 1 つ**、Microsoft Research, 2024-10) - [[@2025__arXiv__StepFly - Agentic Troubleshooting Guide Automation for Incident Diagnosis]] — [[Tsinghua University]]/[[Microsoft]] の [[Jiayi Mao]]・[[Saravan Rajmohan]]・[[Dongmei Zhang]] らによる、[[TSG自動化]] のエンドツーエンドエージェント型フレームワーク [[StepFly]]。3 段=① [[TSG Mentor]] で TSG 品質改善(F1 0.81)、② LLM でオフライン前処理し非構造 TSG から構造化実行 DAG と Query Preparation Plugins(QPP)を抽出(DAG F1 94.89%・QPP 抽出 97.3%)、③ DAG ガイド付き scheduler-executor + memory でオンライン実行し独立ステップを並列化(約 46% の TSG が並列化可)。GPT-4.1 で約 94% 成功率、並列化可能 TSG で実行時間 32.9〜70.4% 削減、プロトタイプで緩和時間中央値約 34% 削減。コード github.com/microsoft/StepFly(**本 wiki 初の DAG+QPP オフライン前処理型 TSG 自動化の一次論文**、arXiv:2510.10074, v2 2026-04) - [[@2024__OSR__LLexus - an AI agent system for incident management]] — [[Microsoft]] の [[Pedro Las-Casas]]・[[Rodrigo Fonseca]] らによる、[[TSG自動化|TSG]] 実行を自動化するインシデント管理 AI エージェント [[LLexus]]。LLM をインシデント時でなく**計画フェーズ(オフライン)に前置**し、[[Semantic Kernel]] + GPT-4-Turbo で TSG を BPMN 風フローチャート(アクション/条件分岐/イベント)へコンパイル、実行時は [[Azure Durable Functions]] 上で既存ツール(Powershell・Kusto)を決定論的に呼ぶ。計画は 1 TSG あたり一回払い $0.60〜$1.71 で、インシデント件数が増えるほどオンライン方式に対しコスト優位が拡大。54 TSG 調査(中央値 815 語・更新中央値 19 日)。既知の反復インシデントにのみ適用可、新種には ReAct 型が必要(**本 wiki 初の計画前置・決定論的実行型 TSG 自動化の一次論文**、ACM SIGOPS OSR 2024, DOI:10.1145/3689051.3689056) - [[@2025__WWW__Flow-of-Action - SOP Enhanced LLM-Based Multi-Agent System for Root Cause Analysis]] — CNIC/CAS の [[Changhua Pei]]・[[ByteDance]] の [[Tieying Zhang]]・[[Dan Pei]]([[Tsinghua University]])らによる、SOP 強化型マルチエージェント RCA システム Flow-of-Action。SOP フロー(match_sop/generate_sop/generate_sop_code/run_sop/match_observation)でエージェントの幻覚を抑制し、thought-actionset-action-observation パラダイムで多様な観測に対する行動選択を改善。GPT-4-Turbo で LA=70.89%・TA=57.12%(平均 64.01%)を達成し、ReAct(35.50%)を LA+23%・TA+28% 上回る(90 件・9 障害種・GoogleOnlineBoutique+ChaosMesh, **本 wiki 初の SOP コード変換型マルチエージェント RCA の一次論文**、WWW Companion '25, DOI:10.1145/3701716.3715225) - [[@2026__arXiv__Large Language Models for Agentic NetOps and AIOps - Architectures, Evaluation, and Safety]] — [[Muhammad Bilal]]・[[Jon Crowcroft]] ら(Lancaster University / University of Cambridge / Nanjing University of Information Science and Technology / TU Wien)による、agentic [[NetOps]] と AIOps を横断するサーベイ。中心命題は「運用上の信頼性はモデル自体でなくモデルを取り巻く機構(typed tool interface・provenance/freshness-aware retrieval・明示的 budget と stopping rule・least-privilege・書き込み境界の verification gate)から来る」。文献を autonomy hierarchy / tool scope / evidence trace / [[エージェント運用安全性|assurance contract]] の 4 軸で整理し、評価は静的 QA を超え workflow 中心(trace 品質・bounded tool use・sandbox replay・rollback-aware な canary)であるべきと論じ、prompt injection・retrieval poisoning・telemetry integrity・excessive agency 等の脅威を扱う(**本 wiki 初の agentic NetOps/AIOps 横断サーベイ・安全性の形式化**、arXiv:2605.12729, 2026) - [[@2026__TOSEM__TVDiag - A Task-oriented and View-invariant Failure Diagnosis Framework for Microservice-based Systems with Multimodal Data]] — [[Wuhan University]] の [[Shuaiyu Xie]]・[[Jian Wang]]・[[Bing Li]] らによる、マイクロサービス向けマルチモーダル障害診断フレームワーク [[TVDiag]]。タスク指向学習(TO)で「RCL はトレース/メトリクス、FTI はログが支配的」というモダリティ-タスク嗜好を教師あり対照学習で増幅し、クロスモーダル関連付け(CM)でビュー不変情報を抽出、グラフ拡張(AUG)でデータ不足に対処する。4 データセットで HR@1 最低 +20.16%・F1-score 最低 +3.08% を SOTA 比で達成(**本 wiki 初のタスク指向マルチモーダル障害診断の一次論文**、TOSEM Vol.35 No.2 Article 40, January 2026, DOI:10.1145/3734868) - [[@2024__PVLDB__D-Bot - Database Diagnosis System using Large Language Models]] — [[Tsinghua University]] の [[Xuanhe Zhou]]・[[Guoliang Li]] らによる、LLM ベースのデータベース異常診断システム D-Bot。サマリツリー知識抽出・BM25/Sentence-BERT プロンプト生成・UCT 木探索・7 エキスパート非同期協調により、DBA の 1〜2 時間の診断を 10 分/$1.8 に短縮。539 件ベンチマークで DNN/DecisionTree 比 8〜54% 向上・HumanDBA と競争力のある精度。アブレーションで知識削除が最大 −64.1%・木探索削除が −35.85%(**DB ドメイン特化 LLM RCA の代表的実証論文**、PVLDB Vol.17 / VLDB 2024, DOI:10.14778/3675034.3675043) - [[@2025__TSC__TAMO - Fine-Grained Root Cause Analysis via Tool-Assisted LLM Agent with Multi-Modality Observation Data in Cloud-Native Systems]] — [[Shandong University]] の [[Xiao Zhang]]・[[Dongxiao Yu]] と [[Beihang University]] の [[Fuzhen Zhuang]] らによる、クラウドネイティブシステム向けツール支援型 LLM RCA フレームワーク [[TAMO]]。双分岐拡散モデル(T1)・FFT+GAT 箇所特定(T2)・Transformer+GAT 障害分類(T3)と GPT-4 エキスパートエージェントで、3 モダリティ統合・コンテキスト制限・動的依存グラフという LLM-RCA の 3 課題を同時解決。HolisticRCA 比 Acc@1 +4.8%・MiPr +10.8%、アブレーションで T1 削除が最大性能劣化(Acc@1 −28pt)(**ツール支援型 LLM マルチモーダル fine-grained RCA の実証一次論文**、IEEE TSC 2025, arXiv:2504.20462) - [[@2025__TKDE__OpDiag - Unveiling Database Performance Anomalies Through Query Operator Attribution]] — [[Peking University]] の [[Shiyue Huang]]・[[Bin Cui]] と [[ZTE Corporation]] による、クエリ演算子帰属によるデータベース性能異常診断フレームワーク [[OpDiag]]。三段階 ML モデル(Tree-CNN + 加算アグリゲータ + ランダムフォレスト)と三段階特徴量帰属(Tree Shap → Integrated Gradient × 2)で、演算子→クエリ→KPI→異常の階層を逐次遡及。[[DBPA]] 合成ベンチマークで top-2 内 100%・[[ZTE Corporation]] 実産業事例で DBA 診断時間 1/3〜1/2 削減(**本 wiki 初の演算子レベル DB 自動診断の一次論文**、IEEE TKDE Vol.37 No.6 June 2025, DOI:10.1109/TKDE.2025.3557049) - [[@2025__FSE Companion__A Multimodal Intelligent Change Assessment Framework for Microservice Systems Based on Large Language Models]] — [[Nankai University]] の [[Yongqian Sun]]・[[Shenglin Zhang]] と [[Tsinghua University]] の [[Dan Pei]] らによる、ECD・FT・RCCA を単一パイプラインに統合した最初のソフトウェア変更評価フレームワーク [[SCELM]]。RAG + 7B LLM + マルチモーダルデータ変換(ログの意味情報保持・異常形状自然言語化)で、変更管理ライフサイクルを自動化。D1:ECD F1=1.0・FT F1=0.964・RCCA Top1=0.775、D2:ECD F1=0.942・FT F1=0.865・RCCA Top1=0.879 を達成。11 か月以上の本番稼働で誤り変更解決時間 90% 削減(**本 wiki 初の ECD・FT・RCCA 統合変更管理フレームワークの一次論文**、FSE Companion '25, DOI:10.1145/3696630.3728561) - [[@2025__SIGMOD__AgentTune - An Agent-Based Large Language Model Framework for Database Knob Tuning]] — [[Renmin University of China]]/[[ByteDance]] の [[Yiyan Li]]・[[Haoyang Li]]・[[Jing Zhang]]・[[Cuiping Li]]・[[Hong Chen]]・[[Renata Borovica-Gajic]] ほかによる、4 専門 LLM エージェント(Workload Analyzer → Knob Selector → Range Pruner → Configuration Recommender)+ ビームサーチ木探索でデータベースノブチューニングを自動化するフレームワーク [[AgentTune]]。セントロイド距離ランキングによる構成空間での多数決(自己整合性)と、ルールベース検証 + Range Pruner の融合で 6 ベンチマーク全実験にわたり Invalid Times=0 を達成。PIE・スループット・レイテンシの全指標で SOTA を更新し、GPT-4 コスト $20.17/898 秒/100 ステップを報告。新規メトリクス PIE(Performance Improvement Efficiency = P_gap/P_default / T_opt)を提案(**本 wiki 初の LLM エージェントベース DB ノブチューニングの一次論文**、SIGMOD 2025, DOI:10.1145/3769758) - [[@2025__KDD__FlowXpert - Expertizing Troubleshooting Workflow Orchestration with Knowledge Base and Multi-Agent Coevolution]] - [[@2020__SC20__Live Forensics for HPC Systems - A Case Study on Distributed Storage Systems]] — [[Saurabh Jha]] ほか(UIUC/NCSA)による、HPC 分散ストレージ(Blue Waters Cray Sonexion)向け近リアルタイム障害フォレンジクスフレームワーク [[Kaleidoscope]]。Store Pings 能動プローブ + 因子グラフ PGM で箇所特定 99.3%・診断 95.8%(2 年間 843 件本番インシデント)を実現し、NetBouncer 比で TP 1.67 倍・アラーム数 1/24 を達成。オーバーヘッド < 0.01%。(SC 2020) - [[@2026__arXiv__CUJBench - Benchmarking LLM-Agent on Cross-Modal Failure Diagnosis from Browser to Backend]] — [[Haoming Meng]] による、ブラウザ可視証拠とバックエンド可観測性を統合した初のクロスモーダル障害診断ベンチマーク [[CUJBench]]。87 シナリオ・5 障害ファミリー・決定論的スナップショット評価。6 モデル評価で A@1=19.7%・天井=52%。ブラウザ限定エージェント(A@1=28%)がフルツールセットエージェント(19.9%)を上回るという反直感的結果と、クロスモーダル統合ボトルネックの定量化(**本 wiki 初のブラウザ可視層込みクロスモーダル障害診断ベンチマークの一次論文**、arXiv:2604.23455, 2026) — [[Nankai University]] の [[Binpeng Shi]]・[[Shenglin Zhang]] と [[Huawei Cloud]]・[[Dan Pei]](Tsinghua)による、クラウドインシデントのトラブルシューティングワークフロー自動生成フレームワーク [[FlowXpert]]。事前定義オントロジーによるインシデント固有ノード中心の知識グラフ基盤 + Planner(PPO)・Scorer(DPO)の Multi-Agent Coevolution で、手動 7 時間を 22.1 秒に短縮・本番 10 週間承認率約 80%。STEPScore と OpsFlowBench を新規提案(**本 wiki 初のワークフロー自動生成の一次論文**、KDD 2025, DOI:10.1145/3711896.3737221) - [[@2025__TOS__Lustre Unveiled - Evolution, Design, Advancements, and Current Trends]] — [[Anjus George]] ほか([[Oak Ridge National Laboratory]] NCCS / [[Whamcloud]]/[[DDN]])による [[Lustre]] の包括的サーベイ。25 年の歴史・アーキテクチャ(MDS/OSS/LDLM/LNet)・設計進化・GPFS/BeeGFS/DAOS/Ceph との比較・[[Frontier]]/[[Orion]] エクサスケール実績(700 PB, 4.7 TiB/s read)・将来方向性(WBC/CSDC/FLR EC/MDT プール/LMR)を 109 ページに凝縮。Top500 上位 10 中 6 台が Lustre 採用(**本 wiki 初の並列ファイルシステム一次論文**、ACM Trans. Storage Vol.21 No.3, 2025, DOI:10.1145/3736583) - [[@2019__arXiv__The Lustre Storage Architecture]] — [[Peter J. Braam]]([[Cluster File Systems]])による Lustre の原初設計文書「Lustre Book」。2001–2005 年にかけて執筆された 539 ページのアーキテクチャ・設計 API・マニュアルを 2019 年に arXiv へ公開。MDS/OST/DLM/Portals の 4 層設計、メタデータライトバックキャッシュやクラスタ化 MDS の初期構想、設計の不確実性と代替案の記録を含む(**本 wiki 初の HPC ストレージ設計文書**、arXiv:1903.01955, cs.OS) - [[@2026__NSDI__EROICA - Online Performance Troubleshooting for Large-scale Model Training]] — Alibaba Cloud の ~100,000 GPU 本番クラスタで 1.5 年運用した LMT 性能トラブルシューティングシステム。全ワーカー同時オンラインプロファイリング + 関数挙動パターン差分で 97.5% 診断成功率を達成(NSDI 2026) - [[@2026__NSDI__Supercharging Packet-level Network Simulation of Large Model Training via Memoization and Fast-Forwarding]] — LLM 訓練の繰り返し競合パターンとステディステートをメモ化・早送りで活かす Wormhole が ns-3 比 744× 高速化を誤差 1% 未満で達成(NSDI 2026) - [[@2023__WWW__CMDiagnostor - An Ambiguity-Aware Root Cause Localization Approach Based on Call Metric Data]] — [[Qingyang Yu]] ほか([[Tsinghua University]]/CNIC/[[Nankai University]]/[[Tencent]])による WWW 2023 論文(DOI:10.1145/3543507.3583302)。コールメトリクスデータ(CMD)で構築するコールグラフに存在する「曖昧性(AmSit)」を初めて定式化し、回帰ベースの解消アルゴリズム AmSitor と4段階フレームワーク CMDiagnostor を提案。実世界大規模データ(65件・8K+マイクロサービス)で HR@5=0.94・MRR=0.83 を達成し最強ベースライン MicroHECL を 14% 上回る。(aiops / rca / microservice / call-metric) - [[@2026__NSDI__PrvTel - Lightweight Models for Private and Accurate Telemetry Data Retention]] — PrvTel(NSDI 2026)— ε-差分プライバシー付きの軽量 VAE でネットワーク・クラウドテレメトリを保持し、無損失圧縮比で 50 倍のコスト削減とクロスフィールドクエリ精度 60% 向上を両立 - [[@2026__NSDI__Matryoshka - Realizing Hyperscale Data Center Network Design for the AI Era]] — Meta の本番 DCN 設計自動化システム。インテント駆動コンパイラで高レベル設計インテントをスイッチ設定に変換。6 年間・18 種類・約 900 DCN、100K-GPU AI スーパークラスタを支える(NSDI 2026) - [[@2026__NSDI__FAST - An Efficient Scheduler for All-to-All GPU Communication]] — MoE AllToAllv の動的歪みをスケール内リバランス + Birkhoff 分解で解く多項式時間スケジューラ。64 GPU で 221 µs、AMD Megatron-LM で RCCL 比最大 4.48× 向上(NSDI 2026) - [[@2026__NSDI__HeteCCL - Synthesizing Near-Optimal Collective Communication Schedules for Heterogeneous GPU Clusters]] — 東北大学(中国)・Alibaba Cloud によるヘテロジニアス GPU クラスタ向け集合通信スケジュール自動合成ツール。チャンキングで均質化、CEGIS で探索削減、NCCL 比最大 2.8× 帯域幅・訓練効率 23〜37% 改善(NSDI 2026) - [[@2024__IEEE CLOUD__Enabling Programmable Metric Flows]] — [[IBM Research]] の [[Kangjin Wang]] らによるプログラマブルメトリクスフローフレームワーク [[PMF]]。collect-first→use-first パラダイムと LP 最適化でメトリクスパイプラインの冗長収集を排除(IEEE CLOUD 2024) - [[@2023__ICSE__LogReducer - Identify and Reduce Log Hotspots in Kernel on the Fly]] — [[Tencent]]/HUST の [[Guangba Yu]]・[[Pengfei Chen]] らによるカーネルログホットスポット動的削減ツール [[LogReducer]]。eBPF + EMFP(実効メッセージ頻度)で [[WeChat]] 本番 1 年超稼働、ログ量 70〜95% 削減(ICSE 2023) - [[@2024__ESEM__Reducing Events to Augment Log-based Anomaly Detection Models - An Empirical Study]] — ログイベント削減が異常検知モデルに与える影響の実証研究 [[LogCleaner]]。TF-IDF/クラスタリング/エントロピーの 3 戦略を 6 モデル×4 データセットで比較(ESEM 2024) - [[@2023__NSDI__Hindsight - Tracing Edge-Cases in Distributed Systems]] — [[Jonathan Mace]] ら [[Max Planck Institute for Software Systems]] による遡及的トレースサンプリングシステム [[Hindsight]]。全リクエストを軽量にトレースし障害検知後に完全トレースを収集、毎秒 100 万リクエスト・30 秒以内(NSDI 2023) - [[@2025__ISSTA__Tracezip - Efficient Distributed Tracing via Trace Compression]] — [[Sun Yat-sen University]] の [[Zhuangbin Chen]]・[[Zibin Zheng]] らによるトレース圧縮システム [[Tracezip]]。共通性・変動性分解で圧縮率 80% 超を達成しつつ異常検知精度を保持(ISSTA 2025) - [[@2024__IEEE CLOUD__Astraea - Unleashing Performance Insights with Online Probabilistic Tracing]] — [[Boston University]] の [[Mehmet Toslali]]・[[Ayse K. Coskun]] らによるオンライン確率的トレーシング [[Astraea]]。スパンレベル [[VAIF]] 重要度スコアリングで 1% サンプリングでもヘッドベース同等の性能分析(IEEE CLOUD 2024) - [[@2025__ASPLOS__Mint - Cost-Efficient Tracing with All Requests Collection via Commonality and Variability Analysis]] — [[Sun Yat-sen University]]/[[Alibaba Group]] の [[Guangba Yu]]・[[Pengfei Chen]] らによる全リクエスト収集トレーシング [[Mint]]。共通性・変動性分析でストレージ 60% 削減・クエリ遅延 40% 削減(ASPLOS 2025) - [[@2024__FSE__TraStrainer - Adaptive Sampling for Distributed Traces with System Runtime State]] — [[Huawei Technologies]] の [[Haiyu Huang]]・[[Pengfei Chen]] らによる適応的トレースサンプリング [[TraStrainer]]。システム実行時状態で tail-based sampling を強化、従来手法比 F1 +15%(ESEC/FSE 2024) - [[@2025__arXiv__AutoForge - Environment Synthesis for Agentic RL]] — [[Tongyi Lab]]（[[Alibaba Group]]）の [[Shihao Cai]]・[[Runnan Fang]] らによる、ツール記述文書から模擬環境と高難度タスクを自動合成しエージェント型 RL で言語エージェントを訓練するフレームワーク [[AutoForge]]。GRPO を環境レベルへ拡張した ERPO と模擬ユーザー誤りマスク(MEU)で訓練安定性を確保し、Qwen3-30B-A3B（活性 3B）で τ-bench・τ²-Bench・VitaBench の 200B 未満オープンソース最良を達成、クローズドソースに匹敵（arXiv:2512.22857, 2025） - [[@2025__arXiv__AgentRL - Training Language Model Agents with Reinforcement Learning]] — [[Tsinghua University]]/[[Z.AI]] の [[Hanchen Zhang]]・[[Xiao Liu]] らによる、マルチターン・マルチタスクのエージェント型 RL 訓練フレームワーク [[AgentRL]]。完全非同期パイプライン + コンテナ化異種環境 + 交差方策サンプリング + タスクアドバンテージ正規化で、Qwen2.5-32B が 5 タスク平均成功率 70.4% を達成し GPT-5/Claude-Sonnet-4/DeepSeek-R1 を凌駕。マルチタスク単一モデルがシングルタスク特化群の最良値に匹敵し BFCL-v3 への正転移も確認(**本 wiki 初のマルチターン・マルチタスク RL エージェント訓練の一次論文**、arXiv:2510.04206, 2025) - [[@2025__Together AI__DeepSWE - Training a Fully Open-sourced State-of-the-Art Coding Agent by Scaling RL]] — [[Agentica]]/[[Together AI]] の [[Michael Luo]]・[[Naman Jain]] らによる、完全オープンソースの RL 訓練コーディングエージェント [[DeepSWE]]。Qwen3-32B から SFT なしの純粋 RL(GRPO++)のみで訓練し、[[SWE-Bench-Verified]] で Pass@1 42.2%・Pass@16 71.0%・ハイブリッド Best@16 59.0% を達成しオープンウェイト SOTA。新規の Compact Filtering で不完全軌跡をフィルタし、テスト通過の二値報酬のみで訓練。64 H100 で 6 日間、4,500 問の [[R2E-Gym]] サブセットを使用。モデル・コード([[rLLM]])・データ・ログを完全公開(**本 wiki 初の RL スケーリングによるコーディングエージェント訓練の一次情報**、together.ai/blog/deepswe, 2025-07-02) - [[@2025__arXiv__Scaling Behaviors of LLM Reinforcement Learning Post-Training]] — [[Shanghai AI Laboratory]]/[[University of Oxford]]/[[University of Science and Technology of China]] の [[Zelin Tan]]・[[Chen Zhang (Shanghai AI Lab)]]・[[Zhenfei Yin]] らによる、LLM の RL 事後学習(GRPO)のスケーリング則を 63 モデル超で初めて体系化した研究。テスト損失と計算量/データ量の関係が対数線形べき乗則に従い、学習効率 k(N) が K_max に飽和すること(32B 以降で顕著)を実証(R² > 0.99)。Qwen2.5(0.5B〜72B)と Llama 3(1B〜70B)で再現、アーキテクチャ非依存。データ再利用は τ ≤ 25 で有効(**本 wiki 初の RL 事後学習スケーリング則の体系的実証論文**、arXiv:2509.25300, 2025) - [[@2026__arXiv__IsoCompute Playbook - Optimally Scaling Sampling Compute for LLM Reinforcement Learning]] — [[University of California, San Diego]]/[[MBZUAI]]/[[Carnegie Mellon University]] の [[Aviral Kumar]] らによる、LLM の RL 事後学習におけるサンプリング計算量の最適配分を体系化した研究。約 120,000 H200-hours の実験で、計算量最適な並列ロールアウト数がシグモイド状に増加し飽和すること、容易問題ではシャープニング・困難問題ではカバレッジ拡張という二重機構を解明。問題間干渉が並列ロールアウトのスケーリングを正当化する主要機構であることを実証(**本 wiki 初の LLM RL サンプリング計算量スケーリング則の一次論文**、arXiv:2603.12151, 2026) - [[@2025__arXiv__Agent-R1 - Training Agents with End-to-End RL]] — [[University of Science and Technology of China]] の [[Mingyue Cheng]] らによる、エージェント型 RL のための統合的かつモジュール式フレームワーク [[Agent-R1]]。ステップレベル MDP 抽象化と柔軟なコンテキスト管理を核に、PPO・GRPO・Reinforce++・RLOO を同一基盤上で比較。GSM8K/HotpotQA/ALFWorld/WebShop の 4 ベンチマークで評価(arXiv:2511.14460, 2025) - [[@2025__arXiv__The Art of Scaling Reinforcement Learning Compute for LLMs]] — [[Meta]]/[[UT Austin]]/UC Berkeley/Harvard/Periodic Labs の [[Devvrit Khatri]]・Lovish Madaan・[[Rishabh Agarwal]] らによる、LLM の RL 後訓練における計算スケーリングの初の大規模系統的研究(400,000 GPU 時間超)。シグモイド型飽和曲線で漸近性能 A と計算効率 B を分離して評価するフレームワークを提案し、6 軸の設計選択アブレーションから統合レシピ [[ScaleRL]] を構築。[[PipelineRL]]-8 + CISPO + FP32 精度修正等を組み合わせ、8B で A=0.61(GRPO 0.45・DAPO 0.53 を凌駕)、100,000 GPU 時間のランで 50k からの外挿が実測と整合。Scout 17B×16 MoE で A=0.71(**本 wiki 初の RL 計算スケーリングの予測的フレームワークの一次論文**、arXiv:2510.13786, 2025) - [[@2025__arXiv__Scaling Up RL - Unlocking Diverse Reasoning in LLMs via Prolonged Training]] — [[NVIDIA]] の [[Mingjie Liu]]・[[Yejin Choi]] らによる、1.5B パラメータモデルへの長期 RL 訓練の体系的調査。GRPO + DAPO 拡張(分離クリッピング・動的サンプリング)+ KL 正則化 + 参照方策リセットの訓練レシピで 5 ドメイン(数学・コード・STEM・論理パズル・指示追従)を統合訓練。8 ランの逐次訓練(ハードリセット)で [[Nemotron-Research-Reasoning-Qwen-1.5B]] を開発し、数学 +14.7%・コード +13.9%・論理パズル +54.8% を達成。[[VeRL]] フレームワーク上で 4×8×H100-80GB・約 16,000 GPU 時間(arXiv:2507.12507, 2025) - [[@2025__arXiv__The Landscape of Agentic Reinforcement Learning]] — [[Shanghai AI Laboratory]]/[[University of Oxford]]/[[National University of Singapore]] の [[Guibin Zhang]]・[[Lei Bai]] らによる、エージェント型 RL の 95 ページ包括サーベイ(TMLR 2026)。能力軸(計画・ツール使用・記憶・推論・自己改善・知覚)×タスクドメイン軸(検索・コード・数学・GUI・視覚・身体化・マルチエージェント等)の二重タクソノミーを提案し、600 超の文献を網羅。GRPO 族急成長・ツール統合推論の標準化・RL メカニズム論争(増幅器 vs 新知識)・環境スケーリングのボトルネックの 4 主要知見(arXiv:2509.02547, 2025) - [[@2025__arXiv__Training Long-Context Multi-Turn SWE Agents with Reinforcement Learning]] — [[Nebius AI]] の [[Alexander Golubev]] らによる、長コンテキスト・マルチターン SWE エージェントの RL 訓練パイプライン。RFT + DAPO の 2 段階で Qwen2.5-72B-Instruct を教師蒸留なしに訓練し、SWE-bench Verified Pass@1 を 11% → 39%。SWE タスクを POMDP として定式化し、ステップベースの長さペナルティとコンテキスト長(65K→131K)の段階的拡張カリキュラムを設計。サンプリング分布の一貫性(top-k/min-p の暗黙有効化による訓練不安定性)と長軌跡フィルタリングの罠を報告。**PDF 本文 ingest 済み**(arXiv:2508.03501, 2025) - [[@2026__Cursor__Introducing Composer 2.5]] — [[Cursor]] のブログ記事。AI コーディングエージェントモデル Composer 2.5 を発表。[[Moonshot]] の [[Kimi K2.5]]（オープンソースチェックポイント）を基盤に、ターゲット RL（テキストフィードバックによる信用割当緩和）、合成タスク 25 倍拡大（特徴削除ベース）、[[Sharded Muon]]（分散直交化 + dual-mesh HSDP）を適用。訓練中に Python 型キャッシュ逆工学・Java バイトコード逆コンパイルによる報酬ハッキングを観察。[[SpaceXAI]] と協業し [[Colossus 2]] の百万 H100 相当で次世代モデル開発中（**本 wiki 初の産業コーディングエージェント訓練の一次情報**、Cursor Blog 2026-05-18） - [[@2025__DSN-W__Characterizing Modern GPU Resilience and Impact in HPC Systems - A Case Study of A100 GPUs]] — [[University of Illinois Urbana-Champaign]]/[[IBM Research]]/[[Nokia Bell Labs]] の [[Shengkun Cui]]・[[Archit Patke]] らによる、[[Delta]] の A100 106 ノード/448 GPU を対象にした 3 年・12.5M GPU 時間の GPU レジリエンスケーススタディ。運用期の per-node MTBE は 199h→154h へ 23% 悪化、GPU メモリは非メモリハードウェアより 160 倍高信頼、弱点は GSP(ジョブ失敗率 100%)・PMU SPI(97.56%)・MMU(90.48%)・NVLink(53.75%)。A100 の row remapping/error containment は運用期の訂正不能メモリエラーを全て緩和し、可用性は 99.5%(1 日 7 分ダウンタイム)(DSN-W 2025, DOI:10.1109/DSN-W65791.2025.00031) - [[@2025__arXiv__MiniMax-M1 - Scaling Test-Time Compute Efficiently with Lightning Attention]] — [[MiniMax]] による世界初のオープンウェイト大規模ハイブリッドアテンション推論モデル [[MiniMax-M1]]。[[Lightning Attention]] とソフトマックスアテンションを 7:1 で交互配置し、MoE(456B/45.9B 活性化/32 エキスパート)と組み合わせて 100 万トークンのネイティブコンテキスト長と 100K 生成時 FLOPS を DeepSeek R1 比 25% に削減。新 RL アルゴリズム [[CISPO]](IS 重みクリッピング)で DAPO 比 2 倍のステップ効率を達成し、512 [[H800]] GPU・3 週間・約 53.4 万ドルで RL 完了。SWE-bench Verified 56.0%・TAU-bench(airline) 62.0%・OpenAI-MRCR(128k) 73.4% でオープンウェイト最上位帯(**本 wiki 初のハイブリッドアテンション推論モデルの一次論文**、arXiv:2506.13585, 2025) - [[@2026__arXiv__The MiniMax-M2 Series - Mini Activations Unleashing Max Real-World Intelligence]] — [[MiniMax]] による MoE 言語モデルファミリー。229.9B 総パラメータ・トークンあたり 9.8B 活性化の 62 層 decoder-only Transformer(256 細粒度エキスパート・シグモイドゲーティング・192K コンテキスト)。エージェントネイティブ RL システム [[Forge]](ホワイトボックス/ブラックボックスエージェント統一・Windowed FIFO・接頭辞木マージで最大 40× 高速化)と CISPO 方策最適化でエージェントコーディング・コワーク・推論の各ベンチマークでフロンティアモデルと対等な性能を達成。M2.7 は自律的に訓練ランをデバッグし自身のスキャフォールドを修正する自己進化の初期的実装を示す(**本 wiki 初の MoE + エージェントネイティブ RL の一次論文**、arXiv:2605.26494, 2026) - [[@2025__arXiv__Kimi K1.5 - Scaling Reinforcement Learning with LLMs]] — [[Moonshot]]（月之暗面）による RL 訓練マルチモーダル LLM の技術報告。長コンテキスト RL（128k）とオンラインミラー降下変種を組み合わせ、MCTS・価値関数・プロセス報酬モデルを排除したシンプルな RL フレームワークで OpenAI o1 に匹敵する推論性能（AIME 77.5、MATH-500 96.2）を達成。パーシャルロールアウト（長軌跡の分割再利用）、ハイブリッドデプロイメント（[[Megatron-LM]] + [[vLLM]] + [[Mooncake]] RDMA 転送）による RL インフラ最適化、および long2short 手法（モデルマージ・最短拒否サンプリング・DPO・long2short RL の 4 経路）で短 CoT モデルでも GPT-4o を最大 +550% 上回る（arXiv:2501.12599, 2025） - [[@2025__Moonshot AI__Kimi-Researcher - End-to-End RL Training for Emerging Agentic Capabilities]] — [[Moonshot]] によるエンドツーエンドのエージェント型 RL で訓練した自律型リサーチエージェント [[Kimi-Researcher]]。SFT やワークフロー設計なしに REINFORCE のみで HLE 8.6% → 26.9% Pass@1(SOTA)・xbench-DeepSearch 69% pass@1 を達成。3 ツール(並列検索・テキストブラウザ・コード実行)、ガンマ減衰報酬、コンテキスト管理(10→50+ イテレーション拡張)、ターンレベル部分ロールアウト(1.5 倍高速化)。矛盾情報の自己修正や検証行動の創発を報告(**本 wiki 初のエンドツーエンド RL リサーチエージェントの産業実装**、moonshotai.github.io/Kimi-Researcher/, 2025-06-20) - [[@2025__arXiv__Kimi K2 - Open Agentic Intelligence]] — [[Moonshot AI]] による 1.04 兆パラメータ(活性化 32B)の超疎 MoE LLM [[Kimi K2]] のテクニカルレポート。384 エキスパート(活性化 8 + 共有 1)・MLA・64 アテンションヘッドの構成で、[[MuonClip]] オプティマイザ(Muon + QK-Clip)により 15.5 兆トークンをロススパイクなしに事前学習。事後学習では MCP ツール 3,000 超 + 合成ツール 20,000 超のエージェント型データ合成と、RLVR + 自己批判型ルーブリック報酬の統合 RL。SWE-bench Verified 65.8%・τ2-Bench 66.1 でオープンソース非思考モデル SOTA。スパーシティスケーリング則(固定活性化パラメータ・総エキスパート増加で一貫した損失低下)を実証。16-way PP + 16-way EP + ZeRO-1 DP、interleaved 1F1B(DualPipe 不採用)(**本 wiki 初の 1 兆パラメータ規模 MoE のエージェント特化訓練の一次論文**、arXiv:2507.20534, 2025) - [[@2022__ACL__GLM - General Language Model Pretraining with Autoregressive Blank Infilling]] — [[Zhengxiao Du]]・[[Yujie Qian]]・[[Xiao Liu]]・[[Ming Ding]]・[[Jiezhong Qiu]]・[[Zhilin Yang]]・[[Jie Tang]]([[Tsinghua University]]・[[BAAI]]・[[MIT CSAIL]]・[[Shanghai Qi Zhi Institute]])による ACL 2022 論文。**[[自己回帰空白埋め]]** を単一目的関数として導入し、自然言語理解 (NLU)・条件付き生成・非条件付き生成の三種タスクを統一的に扱う汎用言語モデル [[@2022__ACL__GLM - General Language Model Pretraining with Autoregressive Blank Infilling|GLM]] を提案。**[[2D位置符号化]]**(原文中位置 + スパン内位置)と**スパンシャッフリング**で BERT 同等パラメータ・同等データから SuperGLUE 平均 +4.6〜5.0% を達成。NLU をクローズ問題として自己回帰生成で解き事前学習-ファインチューニング不整合を解消。BERTLarge 1.25 倍(410M)の単一モデルで NLU・生成・LM すべてに最良の単一モデル性能。後年の GLM-130B・ChatGLM・GLM-4・GLM-4.5・GLM-5 ファミリーの起点(**本 wiki 初の GLM 系統の起点論文**、arXiv:2103.10360, ACL 2022) - [[@2025__arXiv__GLM-4.5 - Agentic Reasoning and Coding Foundation Models]] — [[Zhipu AI]] / [[Tsinghua University]] による総パラメータ 355B・活性化 32B の MoE LLM [[@2025__arXiv__GLM-4.5 - Agentic Reasoning and Coding Foundation Models|GLM-4.5]]。Agentic・Reasoning・Coding (ARC) の 3 能力を単一モデルに統合し、23T トークンの多段階事前学習(汎用 → 推論 → 中間チェックポイント) + エキスパートモデル反復後訓練(蒸留 + SFT + RL)。**ハイブリッド推論モード**(思考/非思考)を単一モデルで実現するエキスパート蒸留パイプライン、**深さ優先設計**(幅を絞り層数を増やす)が推論能力を向上させる実証的知見、QK-Norm + 部分 RoPE による位置エンコード安定化。TAU-Bench 70.1%・SWE-bench Verified 64.2%・AIME 24 91.0% でオープンソース全体 3 位、エージェント能力で Claude-Sonnet-4 と対等。コンパクトな GLM-4.5-Air (106B/12B) も提供(**本 wiki 初の ARC 統合 MoE モデルの一次論文**、arXiv:2508.06471, 2025) - [[@2026__arXiv__GLM-5 - From Vibe Coding to Agentic Engineering]] — [[Zhipu AI]] / [[Tsinghua University]] による次世代 [[@2026__arXiv__GLM-5 - From Vibe Coding to Agentic Engineering|GLM-5]]。**[[DSA]] (DeepSeek Sparse Attention)** を採用した 744B/40B MoE で 28.5 兆トークンを訓練。**非同期 RL インフラ ([[slime]] フレームワーク)** で生成と訓練を分離し長期エージェントロールアウトの GPU 利用率を最大化、エージェント協調(コワーク)を 4 能力 + 6 タスクで体系化。Artificial Analysis Intelligence Index v4.0 でオープンウェイト初のスコア 50 を達成、SWE-bench Verified 77.8%・BrowseComp(文脈管理あり) 75.9% でオープンソース SOTA。「Vibe Coding」(意図表現) → 「Agentic Engineering」(複雑長期工程の自律遂行) というスローガンで GLM-4.5 からのスコープ拡張を明示(**本 wiki 初の非同期エージェント RL × DSA の一次論文**、arXiv:2602.15763, 2026) - [[@2026__arXiv__GLM-OCR Technical Report]] — [[Zhipu AI]] / [[Tsinghua University]] による文書理解特化の小型 VLM [[@2026__arXiv__GLM-OCR Technical Report|GLM-OCR]]。**0.9B パラメータという小規模モデルながら OmniDocBench v1.5 で 94.62 点を達成し、235B Qwen3-VL や Gemini-3 Pro を上回る 1 位**。**PP-DocLayout-V3 によるレイアウト解析 → 並列リージョン認識** の 2 ステージパイプラインで複雑レイアウト(LaTeX 数式・複雑表)の幻覚を抑制。**パラメータ共有ドラフトヘッドの [[マルチトークン予測]]** で 1 ステップあたり平均 5.2 トークン生成(約 50% スループット向上、OCR の構造トークン局所性が高受容率を生む)。Stage 1-4 の段階訓練(事前学習 → 知識アライメント → SFT → GRPO ベース RL)で構造的出力の信頼性を強化(**本 wiki 初の文書理解特化 MoE-VLM の小型実装**、arXiv:2603.10910, 2026) - [[@2025__arXiv__Nemotron 3 - Efficient and Open Intelligence]] — [[NVIDIA]] によるオープン LLM ファミリー [[Nemotron 3]] の技術報告書。ハイブリッド Mamba-2–Transformer [[Mixture-of-Experts|MoE]] アーキテクチャに [[LatentMoE]]（潜在次元でのエキスパート計算・通信削減を精度向上に再投資）と NVFP4 ネイティブ事前学習（BF16 比 <1% 損失差で 25T トークン安定）を統合。Nano（30B/3B）は同規模 Transformer MoE 比 3.3 倍の推論スループット、MTP 投機的復号で承認率約 97%。マルチ環境同時 RL（[[GRPO]] + マスク付き重要度サンプリング）で数学・コード・ツール利用・長コンテキスト（最大 100 万トークン）を同時最適化。[[NeMo-RL]]・NeMo-Gym を Apache 2.0 公開（arXiv:2512.20856, 2025） - [[@2025__arXiv__OLMo 3]] — [[Allen Institute for AI]]（AI2）の OLMo Team による完全オープン LLM ファミリー [[OLMo 3]] の技術報告書（118 ページ）。7B/32B の decoder-only Transformer（SWA 3/4 層 + フルアテンション 1/4 層）で Base・Think・Instruct・RL-Zero の 4 変種を提供。モデルフロー全体（全段階・チェックポイント・データポイント・依存関係）を公開。事前学習データ [[Dolma 3]]（5.9T トークン、[[Duplodocus]] による兆トークン規模の 3 段階重複排除、品質認識型アップサンプリング）、後訓練データ [[Dolci]]（Delta Learning: Qwen 3 32B/0.6B 能力デルタ DPO）、RL インフラ [[OlmoRL]]（GRPO 7 改善・完全非同期パイプライン・4 倍スループット）。OLMo 3.1 Think 32B は MATH 96.2・AIME 2024 80.6 で完全オープンモデル最強。1024 H100 GPU・約 56 日・$2.75M（**本 wiki 初の完全オープン LLM のモデルフロー全公開の一次論文**、arXiv:2512.13961, 2025） - [[@2026__arXiv__Composer 2 Technical Report]] — [[Cursor Research]] によるエージェント型コーディングモデル [[Composer 2]] の技術報告書。[[Kimi K2.5]] ベースの 1.04T/32B MoE を、コード特化の継続事前学習(32K→256K コンテキスト、MXFP8 on B300、パープレキシティと下流 RL 報酬の対数線形相関を確認)の後、Dr. GRPO 変種による大規模非同期 RL(4 サービス分離: 訓練/環境/推論/評価、[[Fireworks AI]] との地理的分散推論、[[Anyrun]] Firecracker VM 環境)で訓練。CursorBench 61.3・SWE-bench Multi 73.7・Terminal-Bench 61.7 でコスト精度パレート最適。RL が平均性能と best-of-K 性能の双方を同時改善する証拠を示す。[[DeepEP]] エキスパート並列・[[ThunderKittens]] GPU カーネルを活用(**本 wiki 初の産業コーディングエージェントモデルの技術報告書**、arXiv:2603.24477, 2026) - [[@1983__Automatica__Ironies of Automation]] — [[Lisanne Bainbridge]]（[[University College London]]）による自動化のパラドクスの古典的論考。自動化が人間オペレータの問題を除去するどころか拡大する 5 つのアイロニー（設計者のアイロニー、残余タスクのアイロニー、技能劣化、監視の不可能性、訓練投資の逆説）を体系化。agentic SRE・SRE AI Autonomy Levels・エージェント運用安全性の理論的基盤（Automatica Vol.19 No.6, 1983） - [[@1985__Tandem__Why Do Computers Stop and What Can Be Done About It]] — [[Jim Gray]]（[[Tandem Computers]]）による耐障害システムの古典論文。2,000 台超・1,300 システム年超の障害統計で管理(42%)とソフトウェア(25%)が障害主因であることを実証し、Bohrbug/Heisenbug の二分法、プロセスペアの 5 類型、永続プロセスペア＋トランザクションによるソフトウェア耐障害性の設計論を体系化（Tandem TR 85.7, 1985） - [[@2003__USITS__Why Do Internet Services Fail and What Can Be Done About It]] — [[David Oppenheimer]]・[[Archana Ganapathi]]・[[David A. Patterson]]（[[UC Berkeley ROC Project]]）による 3 大規模インターネットサービスの障害事後報告 500 件超の分析。オペレータエラー（特に設定ミス）がサービス障害と修復時間の最大原因であることを実証（USITS '03, 2003） - [[@2007__LISA__On Designing and Deploying Internet-Scale Services]] — [[James Hamilton]]（[[Microsoft]] Windows Live Services Platform）によるインターネットスケールサービス設計のベストプラクティス集。「障害を前提とした設計」「すべてを自動化」「単純さの保持」の 3 信条と 10 領域の運用知見を体系化（LISA '07, 2007） - [[@2016__OReilly__SRE Book - Foreword]] — [[Mark Burgess (SRE)|Mark Burgess]] による SRE Book 序文。[[Google]] がシステム管理を第一原理から問い直し、ソフトウェアと自動化で運用をエンジニアリングへ変革した経緯を俯瞰。「実装は一時的だが、文書化された推論は無価値にならない」（O'Reilly, 2016） - [[@2016__OReilly__SRE Book - Preface]] — [[Betsy Beyer]]・Chris Jones・Jennifer Petoff・[[Niall Murphy]] 編。SRE が運用ライフサイクル（総コストの 40〜90%）に焦点を当てる 3 次元と、[[Margaret Hamilton]] の Apollo プログラムを SRE の先駆として位置づける序論（O'Reilly, 2016） - [[@2016__OReilly__SRE Book - Chapter 1 Introduction]] — [[Ben Treynor Sloss]] による SRE の定義。従来の sysadmin モデルの線形スケーリングと開発/運用対立の限界を示し、50% ルール・[[エラーバジェット]]・プレイブック（MTTR 3 倍短縮）・変更管理（障害の 70% が変更起因）を体系化（O'Reilly, 2016） - [[@2016__OReilly__SRE Book - Chapter 3 Embracing Risk]] — Marc Alvidrez による章。100% 信頼性の不合理性（ユーザー知覚の限界・非線形コスト曲線）を論じ、リクエスト成功率による計測と[[エラーバジェット]]による共通インセンティブの創出を提示（O'Reilly, 2016） - [[@2016__OReilly__SRE Book - Chapter 4 Service Level Objectives]] — Chris Jones・[[John Wilkes]]・[[Niall Murphy]]・Cody Smith による章。SLI/SLO/SLA フレームワークの定義、パーセンタイル重視、サービス種別ごとの優先指標、[[エラーバジェット]]による停滞防止を体系化（O'Reilly, 2016） - [[@2016__OReilly__SRE Book - Chapter 5 Eliminating Toil]] — Vivek Rau による章。トイル=手作業・反復的・自動化可能・戦術的・持続的価値なし・線形スケール。50% ルール（実測平均 33%）。過度なトイルはキャリア停滞・士気低下・離職を招く（O'Reilly, 2016） - [[@2016__OReilly__SRE Book - Chapter 6 Monitoring Distributed Systems]] — Rob Ewaschuk による章。ホワイトボックス/ブラックボックスモニタリング、4 つのゴールデンシグナル（レイテンシ・トラフィック・エラー・サチュレーション）、パーセンタイル分布、アラート設計の 5 つの問い（O'Reilly, 2016） - [[@2016__OReilly__SRE Book - Chapter 7 Automation at Google]] — [[Niall Murphy]]・John Looney・Michael Kacirek による章。自動化の 5 段階階層、MySQL の Borg 移行（Decider、95% 削減）、Diskerase 障害（自動化の増幅リスク）（O'Reilly, 2016） - [[@2016__OReilly__SRE Book - Part III Practices]] — サービス信頼性ヒエラルキー。モニタリング→インシデント対応→RCA→テスト→キャパシティプランニング→アーキテクチャ→プロダクトローンチの 7 層（O'Reilly, 2016） - [[@2016__OReilly__SRE Book - Chapter 34 Conclusion]] — Benjamin Lutch による章。SRE の二重の役割（パイロットとエンジニア）、航空産業のアナロジー、中核的関心事の不変性（O'Reilly, 2016） - [[@2021__SoCC__Characterizing Microservice Dependency and Performance]] — [[Shutian Luo]] ほか（[[SIAT]]/[[Alibaba Group]]）による Alibaba トレース分析。マイクロサービスのコールグラフがヘビーテール分布に従いツリー状に展開すること、レイテンシの 4 パターンを定量化（SoCC 2021） - [[@2022__SoCC__How to Fight Production Incidents]] — [[Supriyo Ghosh]] ほか（[[Microsoft]]）による大規模クラウドサービス 152 件の高重篤インシデント実証研究。コード/設定バグが 40%、90% 超がコード変更なしで緩和、MTTR 中央値 113 分、認知時間が MTTR の 72.5%（SoCC 2022） - [[@2024__PACMCAS__The Tale of Errors in Microservices]] — [[I-Ting Angelina Lee]]・[[Zhizhou Zhang]]・[[Milind Chabbi]] による [[Uber]] の非致命的 RPC エラーの大規模分析。6,000 超マイクロサービスの RPC エラーの 29.35% が非致命的、クリティカルパス分析と LR Estimator による優先順位付けを提案（PACM CAS 2024） - [[@2023__USENIX ATC__Lifting the veil on Meta's microservice architecture]] — [[Darby Huye]]・[[Yuri Shkuro]]・[[Raja R. Sambasivan]] による [[Meta]] のマイクロサービストポロジとリクエストワークフローの初の公開分析。22 か月で 2 倍成長、「不適合」エンティティの存在、[[Canopy]] トレーシング基盤の解説（USENIX ATC 2023） - [[@2024__KDD__Microservice Root Cause Analysis with Limited Observability]] — [[Zhe Xie]] ほか（[[Tsinghua University]]）による限定観測可能性下の RCA 手法 [[LatentScope]]。介入認識モジュールで因果推論を潜在空間上に持ち込み、不完全なメトリクスでも根本原因を特定（KDD 2024） - [[@2023__SIGCOMM__Network-Centric Distributed Tracing with DeepFlow]] — [[Junxian Shen]] ほか（[[Tsinghua University]]/[[Yunshan Networks]]）による eBPF ベースのネットワーク中心トレーシングシステム [[DeepFlow]]。コード修正ゼロ・暗黙のコンテキスト伝搬で分散トレースを実現（SIGCOMM 2023） - [[@2021__ESEC-FSE__Identifying Bad Software Changes via Multimodal Anomaly Detection]] — [[Nengwen Zhao]] ほか（[[Tsinghua University]]/[[China Guangfa Bank]]）による不正ソフトウェア変更検出システム [[SCWarn]]。ビジネス KPI・マシン KPI・ログのマルチモーダル LSTM で F1 0.95、大規模商業銀行で実証（ESEC/FSE 2021） - [[@2022__USENIX ATC__CRISP - Critical Path Analysis of Large-Scale Microservice Architectures]] — [[Zhizhou Zhang]]・[[Milind Chabbi]] ほかによるクリティカルパス分析システム [[CRISP]]。[[Uber]] の 4 万エンドポイントに実投入、TraceAnomaly 比で訓練 27.77 倍・推論 66.85 倍高速化、偽陽性 50% 削減（USENIX ATC 2022） - [[@2023__SOSP__A Cloud-Scale Characterization of Remote Procedure Calls]] — [[Korakit Seemakhupt]]・[[Arvind Krishnamurthy]] ほか（[[Google]]/UW/UCSD）による Google 規模の RPC 特性分析。スループットが年率 30% 増、レイテンシ中央値がミリ秒スケール、障害の多くが非致命的（SOSP 2023） - [[@2024__arXiv__DeepSeek LLM - Scaling Open-Source Language Models with Longtermism]] — [[DeepSeek-AI]] の初代基盤モデル。7B/67B の dense Transformer でデータ品質がスケーリング則の最適配分を左右することを実証。非埋め込み FLOPS/トークン M を新モデルスケール表現として導入。[[HAI-LLM]] フレームワークで 2,048 GPU 訓練（arXiv:2401.02954, 2024） - [[@2024__arXiv__DeepSeek-Coder - When the Large Language Model Meets Programming]] — [[Daya Guo]] ほか（[[DeepSeek-AI]]）によるコード特化 LLM。リポジトリレベルのデータ構築と FIM 学習戦略の体系的最適化により 6.7B モデルで CodeLlama-34B を凌駕。87 言語・2T トークンで訓練（arXiv:2401.14196, 2024） - [[@2024__arXiv__DeepSeek-V3 Technical Report]] — [[DeepSeek-AI]] の 671B MoE モデル。[[Multi-head Latent Attention]]・補助損失なし負荷分散・マルチトークン予測・FP8 混合精度・[[DualPipe]] パイプライン並列により 2,788K H800 GPU 時間（約 557 万ドル）でロススパイクなし訓練（arXiv:2412.19437, 2024） - [[@2025__arXiv__DeepSeek-R1 - Incentivizing Reasoning Capability in LLMs via Reinforcement Learning]] — [[DeepSeek-AI]] の推論特化モデル。SFT なし純粋 RL（R1-Zero）で推論能力の創発を大規模に実証。GRPO + 規則ベース報酬のみで aha モーメント等の高次推論パターンが出現。4 段パイプラインで $294K のフロンティア性能（arXiv:2501.12948, 2025） - [[@2025__arXiv__DeepSeek-V3.2 - Pushing the Frontier of Open Large Language Models]] — [[DeepSeek-AI]] の V3 後継。DSA スパースアテンション・GRPO 4 安定化技術・1,800 以上の合成エージェント環境により、事後学習の計算投資を事前学習コスト 10% 超に引き上げオープンモデルとプロプライエタリモデルの差を大幅に縮小（arXiv:2512.02556, 2025） - [[@2024__arXiv__DeepSeek-VL2 - Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding]] — [[DeepSeek-AI]] の VLM。動的タイリング視覚エンコーダと MoE 言語バックボーンにより活性化パラメータ 4.5B で密モデル 8B 級に匹敵。3 バリアント間のルーティング関数遷移が MoE 設計の過渡的状態を示す（arXiv:2412.10302, 2024） - [[@2025__DeepSeek__DeepSeek-V4 - Towards Highly Efficient Million-Token Context Intelligence]] — [[DeepSeek-AI]] の最新フラグシップ。[[MegaMoE]] ウェーブベースカーネル融合・CSA+HCA ハイブリッド圧縮アテンション（KV キャッシュを BF16 GQA8 比約 2% に削減）・Muon ZeRO ハイブリッドオプティマイザにより 100 万トークンコンテキストの効率的推論を実現（2025） - [[@2004__TDSC__Basic Concepts and Taxonomy of Dependable and Secure Computing]] — [[Algirdas Avizienis]]・[[Jean-Claude Laprie]]・[[Brian Randell]]・[[Carl Landwehr]] による TDSC 創刊号(2004)。[[IFIP WG 10.4]] 25 年間の合意形成の集大成。ディペンダビリティの 6 属性・障害→エラー→失敗の基本連鎖・8 視点 31 障害クラスのタクソノミー・4 達成手段体系を確立。SRE・AIOps・セキュリティ研究の概念的基盤 - [[@2017__NeurIPS__Attention Is All You Need]] — [[Ashish Vaswani]]・[[Noam Shazeer]] ほか（[[Google Brain]]/Google Research/トロント大学）による NeurIPS 2017 論文。再帰・畳み込みを排し自己アテンションのみに基づく [[Transformer]] を提案。WMT 2014 英独 BLEU 28.4、英仏 BLEU 41.8 を 8 GPU・3.5 日で達成し、LLM 時代の基盤アーキテクチャを確立 - [[@2018__OpenAI__Improving Language Understanding by Generative Pre-Training]] — [[Alec Radford]]・[[Ilya Sutskever]] ほか（[[OpenAI]]）による技術報告書(2018)。Transformer デコーダによる教師なし事前学習＋教師あり微調整の二段階転移学習パラダイム(GPT-1)を確立。12 タスク中 9 で SOTA を達成 - [[@2019__OpenAI__Language Models are Unsupervised Multitask Learners]] — [[Alec Radford]]・[[Jeffrey Wu]] ほか（[[OpenAI]]）による技術報告書(2019)。1.5B パラメータの [[GPT-2]] が [[WebText]] で訓練され、ゼロショットで 8 言語モデリングデータセット中 7 で SOTA。モデル規模と性能の対数線形関係を実証 - [[@2020__NeurIPS__Language Models are Few-Shot Learners]] — [[Tom Brown]]・[[Jared Kaplan]] ほか（[[OpenAI]]）による NeurIPS 2020 論文。175B パラメータの [[GPT-3]] が文脈内学習（少数ショット・ワンショット・ゼロショット）により微調整なしで多数の NLP タスクで競争力ある性能を達成。スケーリングと文脈内学習能力の滑らかな関係を実証 - [[@2026__CoNEXT__ChainScope - Balancing Accuracy and Overhead in Non-intrusive Distributed Tracing of Microservices]] — [[Ruipeng Hong]]・[[Gabriele Castellano]]・[[Pengfei Chen]]・[[Massimo Gallo]] ほか（[[Sun Yat-sen University]]/[[Huawei Technologies]]）による CoNEXT 2026 論文。eBPF カーネル内コンテキスト伝搬と IP レベルパケットタギングにより、コード改変なし・HTTPS/TLS 透過の非侵襲型分散トレーシングを実現。1% サンプリング時に精度 100%・CPU 2〜3%・性能低下 4% 未満を達成し、DeepFlow/Beyla を大幅に上回る - [[@2026__arXiv__Agent System Operations - Categorization, Challenges, and Future Directions]] — [[Zexin Wang]]・[[Changhua Pei]] ほか（CNIC CAS/UCAS/ICT CAS/Singapore Management University）による IEEE TSE 掲載論文(arXiv 2026-06-01)。LLM エージェントシステムの異常を Intra-Agent(推論/行動/メモリ/セキュリティ)× Inter-Agent(タスク仕様/オーケストレーション/通信/終了)の 2 軸で体系化し、AgentOps フレームワーク(モニタリング/異常検知/根本原因局所化/解決の 4 段階)を提案する最初の包括的サーベイ - [[@2026__ICML__See More, Forecast Better and Faster - Enhancing Time Series Foundation Models via Inference-Time Plug-and-Play Downsampling]] — [[Longlong Xu]]・[[Zeyan Li]]・[[Dan Pei]] ほか([[Tsinghua University]]/[[ByteDance]]/CNIC CAS)による ICML 2026 論文。学習不要のプラグアンドプレイフレームワーク [[SPRINT]] を提案し、季節成分をパターン複製・トレンドを解像度補間でダウンサンプリング空間にて予測することで、任意の TSFM の精度を平均 +19%・推論時間を最大 16.87 倍・最大メモリを 6.35 倍改善する - [[@2026__arXiv__Which Types of Heterogeneity Matter for Root Cause Localization in Microservice Systems]] — [[Runzhou Wang]]・[[Shenglin Zhang]]・[[Dan Pei]] ほか([[Nankai University]]/[[Tsinghua University]])による arXiv 2026-04 論文。マイクロサービスの RCL においてエンティティレベル異質性(サービス vs ホスト)が障害伝播を非対称クロスレイヤー支配にすることを実証し、半教師あり枠組み [[NexusRCL]] を提案。HD1 A@1 82.50%・HD2 A@1 68.75% を達成し全ベースラインを大幅に上回る(arXiv:2604.26670v1) - [[@2026__arXiv__XWind - A Cross-site Router for Large Language Model Inference Serving at Renewable Energy Farms]] — [[Debopam Bhattacherjee]] ほか [[Microsoft]] による arXiv 2026-05 プレプリント（cs.DC）。風力発電サイトに GPU を配置する [[AI Greenferencing]] 展開モデルを提案し、可変風力電力下で LLM 推論 SLO を維持するクロスサイトルーター [[XWind]] を設計・実装。64 × A100 テストベッドで Max-FLOPS に対し P99 E2E レイテンシを最大 52% 削減、静的ルーティング比 69× 改善を実証（arXiv:2605.23348v1） - [[@2026__応用物理__機械学習の原点 - 統計的機械学習の世界]] — [[赤穂昭太郎]]（[[産業技術総合研究所]]）による応用物理誌「機械学習・AI×応用物理」シリーズ第2回（2026年5月号、Vol.95 No.5 pp.274-279）。深層学習より統計的機械学習（少量データ・ドメイン知識・解釈性）が有効な場面を整理し、線形モデル・スパースモデリング・k-NN・[[アンサンブル学習]]・ベイズモデリング・[[ベイズ最適化]]を概説。応用物理研究者が機械学習へ参入するための基礎講座 - [[@2026__arXiv__UModel - An Agent-Ready Observability Data Modeling Method at Scale]] — [[Changhua Pei]]・[[Gaogang Xie]]・[[Dan Pei]] ほか（CNIC CAS/UCAS/Alibaba/Tsinghua University）による arXiv 2026-06-03 論文。オブザーバビリティをデータ中心からオブジェクト中心へ転換する統一オントロジーフレームワーク [[UModel]] と U-SPL を提案。[[Alibaba Cloud]] 本番 1 年以上・RCA 精度 8% 向上（arXiv:2606.04799v1） - [[@2022__NeurIPS__Chain-of-Thought Prompting Elicits Reasoning in Large Language Models]] — [[Jason Wei]]・[[Denny Zhou]] ほか（[[Google Brain]]）による NeurIPS 2022 論文。プロンプト例示に中間推論ステップの系列（連鎖思考）を加えるだけで LLM の複雑推論能力を大幅に向上させる手法を提案。PaLM 540B が 8 件の CoT 例示のみで GSM8K SOTA を達成。連鎖思考推論は約 100B パラメータ以上の創発的能力(source / paper) - [[@2022__IEEE ACCESS__A Survey on Observability of Distributed Edge & Container-Based Microservices]] — [[Muhammad Usman]]・[[Simone Ferlin]]・[[Anna Brunstrom]]・[[Javid Taheri]]（[[Karlstad University]]）による IEEE ACCESS 2022 論文。分散エッジ・コンテナ化マイクロサービスのオブザーバビリティを網羅的に調査した初のサーベイ。三本柱（ログ/メトリクス/トレース）・SRE ゴールデンシグナル・オブザーバビリティ要件（F*/C* 枠組み）・オープン課題を整理（survey / paper） - [[@2015__CSUR__Performance Anomaly Detection and Bottleneck Identification]] — [[Olumuyiwa Ibidunmoye]]・[[Francisco Hernández-Rodriguez]]・[[Erik Elmroth]]（[[Umeå University]]）による ACM Computing Surveys 2015 サーベイ(Article 4, Vol.48 No.1, DOI:10.1145/2791120)。PADBI(Performance Anomaly Detection and Bottleneck Identification)分野の体系的サーベイ。性能異常を point/collective/contextual/pattern の 4 種に分類し、ボトルネックを resource saturation/contention × single/multiple/shifting で整理。4 検知戦略(シグネチャ/観測/知識/フロー)と統計/ML 手法の分類体系を提供。調査対象 53% が PAD のみ・PADBI 統合は 18%。クラウド固有課題(スケール・マルチテナンシー・動的リソース管理)を明示（survey / paper） - [[@2021__ISSRE__How Long Will it Take to Mitigate this Incident for Online Service Systems]] — [[Weijing Wang]]・Junjie Chen・Lin Yang([[Tianjin University]])・[[Hongyu Zhang]]([[University of Newcastle]])・[[Qingwei Lin]] ほか([[Microsoft]])による IEEE ISSRE 2021 論文(DOI:10.1109/ISSRE52982.2021.00024)。Microsoft 20 大規模システム・4 年分インシデントデータの最初の TTM 実証研究。T3(最終担当チーム確定後)が TTM の平均 70.20% を占めることを初めて定量化。TTMPred(2 段階アテンション付き双方向 GRU + 連続損失関数)が回帰ベースライン比 MAE 25.66% 改善・分類で F 値 19.09%〜153.34% 改善（empirical study / deep learning / incident management / paper） - [[@2023__ISSRE__How to Manage Change-Induced Incidents - Lessons from the Study of Incident Life Cycle]] — [[Yujin Zhao]]・[[Ling Jiang]]・[[Ye Tao]]・[[Songlin Zhang]]・[[Changlong Wu]]・[[Yifan Wu]]・[[Tong Jia]]・[[Ying Li]]・[[Zhonghai Wu]]（[[Peking University]]/[[Alibaba Group]]）による IEEE ISSRE 2023 論文(DOI:10.1109/ISSRE59848.2023.00027)。2 年間・231 件の変更起因インシデントを「導入→検知→緩和」の 3 段で分析。モニター検知は利用者検知の 7.67 倍速い(TTD: 65.6 対 564.0)が 50.6% のインシデントで利用者が先に検知。RbIC は RaIC より TTM を 40.6% 短縮(38.8 対 65.3)。コード変更 54.5%・構成変更 28.1% が主因（empirical study / paper） - [[@2023__ICSE-SEIP__An Empirical Study on Change-induced Incidents of Online Service Systems]] — [[Yifan Wu]]・Bingxu Chai・[[Ying Li]]・Bingchang Liu・Jianguo Li・Yong Yang・Wei Jiang（[[Peking University]]/[[Ant Group]]）による ICSE-SEIP 2023 論文(DOI:10.1109/ICSE-SEIP58684.2023.00027)。Ant Group(3000 以上のマイクロサービス)の 161 件の変更起因インシデントを分析。変更起因インシデントは High/Critical 重篤度が通常の 2.6 倍(13% 対 5%)、TTD 75 パーセンタイルが 26.8 倍長い。4 課題:①不足したモニタリング指標・②不正確な変更モニタリング・③低ビジネストラフィック・④非効率な異常変更箇所特定（empirical study / paper） - [[@2024__ICSE-SEIP__Intelligent Monitoring Framework for Cloud Services - A Data-Driven Approach]] — [[Pooja Srinivas]] ほか [[Microsoft]]（ICSE-SEIP 2024）。791 本番サービス・30,920 モニタからリソースクラス 13 種・SLO タイプ 9 種のオントロジーを構築し、プロトタイプ学習でモニタ推奨を自動化。大多数のクラスで再現率 1.00、ユーザー評価 4.27/5.0 - [[@2024__Microsoft Research Blog__Intelligent Monitoring - Towards AI-Assisted Monitoring for Cloud Services]] — [[Microsoft]] Research Blog（2024-03-19）。ICSE-SEIP 2024 論文の一般向け解説＋Monitor Scorecards（ベイズ統計＋時系列モデリングによるモニタ有効性評価）将来計画を公開 - [[@2023__ESEC-FSE__Detection Is Better Than Cure - A Cloud Incidents Perspective]] — [[Vaibhav Ganatra]] ほか [[Microsoft]]（ESEC/FSE 2023）。Microsoft 300 超サービス・2022 年間の本番インシデント約 950 件を分析し、ミス検知 6 カテゴリタクソノミ（Missing monitor/alert 40.41% が最大）を構築。ミス検知の 27.25% がアウテージに発展し、顧客報告インシデントは TTD 10.7 倍・TTM 3.75 倍と定量化。サービス成熟度が「何を監視すべきか」を、依存関係数が「どう監視すべきか」を決める - [[@2004__OSDI__Correlating Instrumentation Data to System States - A Building Block for Automated Diagnosis]] — [[Ira Cohen]]・[[Moises Goldszmidt]]・[[Terence Kelly]]・[[Julie Symons]]（[[HP Labs]]）・[[Jeffrey S. Chase]]（[[Duke University]]）による OSDI 2004 論文。124 システムメトリクスから TAN（ツリー拡張ナイーブベイズネットワーク）で SLO 違反と相関する少数（3–8 個）のメトリクスの組み合わせを自動特定。balanced accuracy 87–94%、単一メトリクスルールの不十分さを定量化。「相関 ≠ 因果」と「メトリクス帰属（metric attribution）」の先駆的な定式化 - [[@2017__FAST__Chronix - Long Term Storage and Retrieval Technology for Anomaly Detection in Operational Data]] — [[Florian Lautenschlager]]・[[Michael Philippsen]]・[[Andreas Kumlehn]]・[[Josef Adersberger]]（[[QAware GmbH]]/[[Friedrich-Alexander-Universität Erlangen-Nürnberg]]）による USENIX FAST '17 論文（pp. 229–242）。運用データの異常検知に特化したドメイン固有 TSDB [[Chronix]] を提案。DDC（Date-Delta-Compaction）・汎用バイナリデータモデル（メトリクス/ログ/トレース格納可能）・ビルトイン高水準解析関数（outlier/trend/frequency/sax/fastdtw）・コミッショニング方法論により、108.2 GB 実運用データで汎用 TSDB（InfluxDB/OpenTSDB/KairosDB）比ストレージ 20〜68% 削減・データ取得 80〜92% 短縮・解析関数 73〜97% 短縮を達成（paper / storage / time-series / anomaly-detection） - [[@2023__PVLDB__Lindorm TSDB - A Cloud-native Time-series Database for Large-scale Monitoring Systems]] — [[Chunhui Shen]]・[[Dan Pei]]・[[Feifei Li]] ほか（[[Alibaba Group]]/[[Zhejiang University]]/[[Tsinghua University]]）による PVLDB 2023 論文（Vol.16 No.12 pp.3715–3727）。共有なし + 共有ストレージのハイブリッドアーキテクチャ・TSM エンジン・Seriescache・前処理ダウンサンプリング・パイプライン実行エンジン・Lindorm ML（インデータベース ML）を提案。10M 時系列規模で InfluxDB/TimescaleDB 比書き込み 10× 高速、クエリ最大 16× 低レイテンシ、ML 実行 2× 短縮を実証（paper / time-series / distributed / database） - [[@2024__JNCA__A survey on intelligent management of alerts and incidents in IT services]] — [[Qingyang Yu]]・[[Nengwen Zhao]]・[[Dan Pei]] ほか([[Tsinghua University]] / [[BizSeer]])による JNCA 2024 論文(Vol.224, Article 103842)。alert management(correlation・storm handling・determination)と incident management(representation・linking・triage・mitigation・resolution)を統合した AIM アーキテクチャ Fig.5 を提示し、2008-2022 の代表 89 件を体系化。alert と incident を別ライフサイクルとして分離する設計と 3 種 alert determination の直列統合(Fig.7)を将来方向として提示(paper / aiops / survey / alert-management / incident-management) - [[@2011__World Wide Web__An up-to-date survey in web load balancing]] — [[Katja Gilly]]([[Miguel Hernández University]])・[[Carlos Juiz]]・[[Ramon Puigjaner]]([[University of Balearic Islands]])による World Wide Web 2011 サーベイ(DOI:10.1007/s11280-010-0101-5、27p)。2010 年時点のウェブロードバランシング機構を OSI 層別に網羅。L2/L3 コンテンツ非依存(DR・NAT・IPTun)と L7 コンテンツ依存(TCP Hand-off・TCP Splicing・Socket Cloning・TCP Rebuilding 等)のアーキテクチャ、および局所性考慮/非局所性考慮/QoS 考慮の 26 分散方針(Table 3)を体系化。オープン課題: 動的コンテンツのサービス時間予測、監視情報の陳腐化、仮想化対応、エネルギー効率。(web-systems / distributed / load-balancing) - [[@2017__arXiv__A Survey of Distributed Message Broker Queues]] — [[Vineet John]]・[[Xia Liu]]([[University of Waterloo]])による arXiv:1704.00411(2017-04-03, 8p)。[[Apache Kafka]] と [[AMQP]]/[[RabbitMQ]] を 5 ノード Flotilla ベンチで直接対比し、Kafka はスループット優位(SendFile + sequential write + batching)、AMQP はレイテンシ優位(push + 既定非永続化)・信頼性優位という設計対比を経験的に示す(paper / messaging / distributed / survey) - [[@2022__ISSRE__Going through the Life Cycle of Faults in Clouds - Guidelines on Fault Handling]] - [[@2026__arXiv__Position - The Inevitable End of One-Architecture-Fits-All-Domains in Time Series Forecasting]] - [[@2025__KDD__Can Slow-thinking LLMs Reason Over Time - Empirical Studies in Time Series Forecasting]] — [[Mingyue Cheng]]・[[Jiahao Wang]]・[[Daoyu Wang]]・[[Xiaoyu Tao]]・[[Qi Liu]]([[University of Science and Technology of China]])による WSDM 2026 採録論文(DOI:10.1145/3773966.3777931, arXiv:2505.24511, 12p)。訓練不要のスロー思考 LLM([[DeepSeek-R1]] バックボーン)を時系列予測に適用する TimeReasoner を提案し、ETTh1 MSE 5.4 で iTransformer(7.5)・PatchTST 等の深層学習ベースラインを上回る。タイムスタンプ削除で MSE 5.4 → 25.3 の劣化、CoT 過長で精度低下、温度 τ=0.6 がスイートスポット(paper / time-series / llm / reasoning) - [[@2025__NeurIPS__Time-R1 - Post-Training Large Vision Language Model for Temporal Video Grounding]] — [[Renmin University of China]] AIM3 Lab × [[MiLM Plus]]([[Xiaomi]])による NeurIPS 2025 採択論文(35p)。映像言語モデル(LVLM)の時間的映像グラウンディング(TVG)タスクに RLVR(GRPO + tIoU 報酬 + フォーマット報酬)を初適用。2.5K サンプル RL が 339K サンプル(136 倍)の SFT-LoRA を超え、TVGBench で [email protected]=41.8 を達成し Gemini-2.5-Pro(39.1)を上回る。VideoMME も 53.0 → 54.2 に改善(paper / video-understanding / vlm / reinforcement-learning) - [[@2026__ICLR2026__TimeOmni-1 - Incentivizing Complex Reasoning with Time Series in Large Language Models]] — [[Tong Guan]]・Zijie Meng・Dianqi Li・Shiyu Wang・[[Chao-Han Huck Yang]]・[[Qingsong Wen]]・[[Zuozhu Liu]]・[[Sabato Marco Siniscalchi]]・[[Ming Jin]]・[[Shirui Pan]]([[Griffith University]] / [[Zhejiang University]] / [[NVIDIA]] / [[Squirrel Ai Learning]] / [[University of Palermo]] ほか)による ICLR 2026 論文(arXiv:2509.24803, 32p)。TSR-Suite(4 アトミックタスク・23K サンプル)と二段階訓練(SFT + GRPO)による TimeOmni-1(Qwen2.5-7B ベース)を提案。因果発見で GPT-4.1 を ID 40.6%・OOD 28.1% 上回り、ジョイント訓練の能力補完を実証(paper / time-series / llm / reasoning / reinforcement-learning) - [[@2024__arXiv__Towards Time-Series Reasoning with LLMs]] — [[Winnie Chow]]([[Stanford University]])・[[Lauren Gardiner]]([[Apple]])・[[Haraldur T. Hallgrimsson]]([[Apple]])・[[Maxwell A. Xu]]([[University of Illinois Urbana-Champaign]])・[[Shirley You Ren]]([[Apple]])による NeurIPS 2024 Workshop on Time Series in the Age of Large Models 論文(arXiv:2409.11376, 12p)。時系列推論を「知覚 → 文脈化 → 演繹」の 3 段階に分解。テキスト変換による知覚ボトルネックを定式化し、軽量パッチエンコーダ(MLP)+ LoRA + CoT 拡張微調整で 7B モデル(Mistral-7B)が GPT-4o をゼロショット時系列分類で上回る(paper / time-series / llm / multimodal) - [[@2025__arXiv__AlphaCast - A Human Wisdom-LLM Intelligence Co-Reasoning Framework for Interactive Time Series Forecasting]] — [[Xiaohan Zhang]]・[[Tian Gao]]・[[Mingyue Cheng]]・Bokai Pan・Ze Guo・Yaguo Liu・[[Xiaoyu Tao]]・[[Qi Liu]]([[University of Science and Technology of China]])による arXiv 2025-11 プレプリント(20p)。時系列予測を Investigator(文脈準備)→ Generator(推論生成)→ Reflector(反省的検証)のマルチターンエージェントループに再定式化し、訓練不要 LLM(GPT-5・DeepSeek-R1 等)を推論エンジンに使う。特徴量セット・知識ベース・ケースライブラリ・文脈プールの軽量ツールキットで EPF・ETT・Windy Power 等 10 データセットで既存ベースラインを上回る。反省モジュール除去で Sunny Power が非推論ベースラインより悪化し「推論は両刃」を示す(paper / time-series / llm / agentic) — [[Qinwei Ma]]・[[Jingzhe Shi]]（[[Tsinghua University]]）・[[Jiahao Qiu]]（[[Princeton University]]）・[[Zaiwen Yang]]（[[Tsinghua University]]）による arXiv 2026 ポジションペーパー（14p）。時系列予測における汎ドメインアーキテクチャと特定ドメイン SOTA の和解不能な矛盾を論証し、ドメイン特化 NN またはメタラーニング（LLM Scientist）への方向転換を提言（paper / time-series / meta-learning） — [[Xiaoyun Li]]・[[Guangba Yu]](共同第一著者)・[[Hongyang Chen]]・[[Zhekang Chen]]・[[Pengfei Chen]](責任著者)([[Sun Yat-sen University]] / [[Bizseer]])による ISSRE 2022 論文(IEEEXplore 9978764)。三大クラウド(Alibaba・Tencent・Baidu)の 354 件ポストモーテムを 5 か月 3 ラウンドのオープンコーディングで分析し、全障害ライフサイクル(TTD/TTI/TTM/TTR)を初めて一貫して実測。MTTD=16.9 分・MTTM=304.2 分・TTM が TTR の 53% を支配・変更中障害は内部原因 84.7%・設定ミスが最多根本原因(31.6%)・9 種緩和手段分布を定量化。カオスエンジニアリングの 4 欠落注入カテゴリを実証的に特定し 3 群のガイドラインを提示(empirical study / cloud-reliability / fault-lifecycle / paper) - [[@2024__USENIX ATC__SuperBench - Improving Cloud AI Infrastructure Reliability with Proactive Validation]] — [[Yifan Xiong]]・[[Yuting Jiang]]・[[Ziyue Yang]]・[[Lei Qu]] ほか17名([[Microsoft Research]] / [[Microsoft]])による USENIX ATC '24 Best Paper(17p)。AI インフラのハードウェア冗長が生む「グレイ障害」を Azure A100 実データで定量化し(MTBI 17.5h・初回 719.4h → 20 回目 151.7h)、Cox-Time 生存解析 + 貪欲ベンチマーク選択 + CDF 類似度クラスタリングからなるプロアクティブ検証システム [[SuperBench]] を提案。シミュレーションで MTBI 22.61×・検証時間 92.07% 削減、Azure 本番 2 年運用で 24k+ A100 GPU から 10.36% のノードを欠陥として除外。ベンチマーク群は microsoft/superbenchmark で OSS 化(paper / gpu / reliability / aiops) - [[@2022__KDD__Causal Inference-Based Root Cause Analysis for Online Service Systems with Intervention Recognition]] — [[Mingjie Li]]・[[Zeyan Li]]・[[Kanglin Yin]]・[[Xiaohui Nie]]・[[Wenchi Zhang]]・[[Kaixin Sui]]・[[Dan Pei]]([[Tsinghua University]] / BizSeer)による KDD 2022 論文(DOI:10.1145/3534678.3539041)。RCA を Pearl の Causal Hierarchy 第 2 層「介入認識(IR)」タスクとして初めて定式化(Theorem 3.4)し、アーキテクチャ知識ベースの構造グラフ + 回帰仮説検定(RHT) + 子孫調整からなる [[CIRCA]] を提案。Oracle DB の高 AAS 障害 99 件(197 メトリクス)で AC@1=0.404(最良ベースライン NSigma 0.323 比 +25%)・分析時間 0.578 秒を達成。コード公開: github.com/NetManAIOps/CIRCA(paper / aiops / rca / causal-inference / 2022) - [[@2022__NeurIPS__Root Cause Analysis of Failures in Microservices through Causal Discovery]] — [[Azam Ikram]]・[[Saurabh Bagchi]]・[[Murat Kocaoglu]]([[Purdue University]])・[[Sarthak Chakraborty]]・Subrata Mitra・Shiv Kumar Saini([[Adobe Research]])による NeurIPS 2022 論文(pp.31158-31170)。マイクロサービス障害を soft intervention としてモデル化し、F-NODE 近傍の局所学習 + 階層分割統治 Ψ-PC からなる [[RCD]] アルゴリズムを提案。コールグラフ・パラメトリック仮定・過去障害履歴が不要。合成データ 100 ノードで top-1 再現率 98%、500 ノードで 22 秒(対 Ψ-PC 150 分超)、[[Sock Shop]] テストベッド・AWS 本番 3 障害ケースで競合ベースラインを上回る。コード: github.com/azamikram/rcd(paper / aiops / rca / causal-inference / microservices / 2022) - [[@2025__ICLR__Time-MoE - Billion-Scale Time Series Foundation Models with Mixture of Experts]] — [[Xiaoming Shi]]・[[Shiyu Wang]]・[[Yuqi Nie]]([[Princeton University]])・[[Qingsong Wen]]([[Squirrel Ai Learning]])・[[Ming Jin]]([[Griffith University]])ほか([[Xiaohongshu Inc]] / Princeton University / Squirrel Ai Learning / Griffith University)による ICLR 2025 論文(arXiv:2409.16040)。スパース MoE を用いた decoder-only トランスフォーマーで時系列基盤モデルを 2.4B パラメータ(活性化 1.1B)へ初めてスケールアップ。事前学習コーパス [[Time-300B]](9 ドメイン・309B 観測点)を公開。ゼロショット MSE を最良ベースライン比平均 20% 削減、スケーリング則がトークン数・モデルサイズの両軸で時系列予測にも適用できることを実証した(paper / time-series / scaling / mixture-of-experts) - [[@2024__EuroSys__Automatic Root Cause Analysis via Large Language Models for Cloud Incidents]] — [[Yinfang Chen]]・Huaibing Xie・[[Minghua Ma]]・[[Yu Kang]]・[[Supriyo Ghosh]]・[[Xuchao Zhang]]・[[Chaoyun Zhang]]・[[Qingwei Lin]]・[[Saravan Rajmohan]]・[[Dongmei Zhang]]・[[Tianyin Xu]] ほか([[Microsoft]] / [[University of Illinois Urbana-Champaign]] / [[Peking University]] / [[Huazhong University of Science and Technology]] / [[National University of Singapore]])による EuroSys 2024 論文(DOI:10.1145/3627703.3629553、arXiv:2305.15778v4、15p)。LLM 強化オンコールシステム [[RCACopilot]] を提案。アラート種別に紐づくインシデントハンドラ(scope/query/mitigate アクションノードの DAG)で多種ソース(ログ・メトリクス・トレース・スクリプト)から診断情報を自動収集し、GPT-4 で要約 → FastText 埋め込み + 時間重み付き k-NN + few-shot CoT で根本原因カテゴリ予測 + 説明文を生成。Microsoft Transport 1 年分インシデントで Micro-F1=0.766 / Macro-F1=0.533 を達成、Ahmed+ ICSE 2023 を大きく上回る。診断情報収集部は Microsoft 30 超チーム・4 年以上の本番稼働。情報スペクトラム問題(情報過多・情報不足の両端で性能低下)を実証(paper / aiops / rca / llm / incident-management / production / 2024) - [[@2020__VLDB__Monarch - Google's Planet-Scale In-Memory Time Series Database]] — [[Colin Adams]] ほか 13 名 ([[Google LLC]])による PVLDB 2020 論文(PVLDB 13(12):3181–3194, VLDB 2020)。[[Google]] が 2010 年から運用するプラネットスケール・マルチテナント・インメモリ TSDB [[Monarch]] の設計・実装・運用経験を報告。2019 年 7 月時点で約 950 億時系列・750 TB インメモリ・2.2 TB/s 取り込み・毎秒 600 万クエリ。主要技術: リレーショナルデータモデル(Target schema + Metric schema + distribution 型)・辞書順シャーディング・Collection Aggregation(delta + バケット + admission window、平均 36:1)・Field Hints Index(トライグラムインメモリ索引、ゾーン 99.5%・root 75.8% ファンアウト抑制)・クエリプッシュダウン(95% がゾーン完結)。前身 [[Borgmon]] の 4 課題(分散管理・スキーマなし・distribution 型欠如・手動シャーディング)を解決した後継(paper / time-series / distributed / observability / google) - [[@2007__NSDI__X-Trace - A Pervasive Network Tracing Framework]] — [[Rodrigo Fonseca]]・[[George Porter]]・[[Randy H. Katz|Randy Katz]]・[[Scott Shenker]]・[[Ion Stoica]]([[University of California, Berkeley|UC Berkeley]] / [[ICSI]])による NSDI 2007 論文。タスク識別子をインバンドで伝搬し、レポートをアウトオブバンドで収集する 2 原則と、`pushDown()` / `pushNext()` の 2 プリミティブで因果木を完全記述する設計。クロスレイヤー・クロス管理ドメインのトレースを段階展開可能にする。pushNext() 576B で 0.71µs。DNS/3 層 web/I3 オーバーレイで実装。[[Dapper]]・Zipkin・OpenTelemetry の直接の祖(paper / distributed / observability / tracing) - [[@2010__Google__Dapper - A Large-Scale Distributed Systems Tracing Infrastructure]] — [[Benjamin H. Sigelman]]・[[Luiz André Barroso]]・[[Mike Burrows]] ほか([[Google]])による 2010 年 Google テクニカルレポート。低オーバーヘッド + アプリ透過 + 偏在展開の 3 設計目標を、共通ライブラリ計装 + 1/1024 適応サンプリングで両立。Google 本番 2 年超稼働。スパン / トレース木 / アノテーションのデータモデルは OpenTracing・W3C Trace Context・[[OpenTelemetry]] の事実上の標準を確立。トレースデータの開発者向け API 公開が予期しなかった分析ツール群を生んだ点も重要(paper / distributed / observability / tracing / google) - [[@2007__SIGCOMM__Towards Highly Reliable Enterprise Network Services via Inference of Multi-level Dependencies]] — [[Paramvir Bahl]]・[[Ranveer Chandra]]・[[Albert Greenberg]]・[[Srikanth Kandula]]・[[David Maltz]]・[[Ming Zhang (Microsoft Research)|Ming Zhang]]([[Microsoft Research]])による SIGCOMM 2007 論文(Sherlock)。Inference Graph(3 状態 up/troubled/down + 多層依存性)+ パケットトレース共起確率による自動依存性発見 + Ferret 推論で **90.66%** の障害箇所特定精度を達成し、2 層 Shrink の **58.61%** を 30% 上回る。Microsoft 本番ネット 358 コンポーネントで 87% の障害が 16 コンポーネントに集中することを実証。サービス依存性推論ベース fault localization の代表ソース(paper / networking / aiops / fault-localization) - [[@2008__OSDI__Automating Network Application Dependency Discovery - Experiences, Limitations, and New Solutions]] — [[Xu Chen]]・[[Ming Zhang (Microsoft Research)|Ming Zhang]]・[[Z. Morley Mao]]・[[Paramvir Bahl]]([[University of Michigan]] / [[Microsoft Research]])による OSDI 2008 論文(Orion)。パケットヘッダ + タイミング情報のみ(ペイロード解析不要)で「遅延スパイクベース分析」により依存性発見。Sherlock 比偽陽性 10–95% 削減、eXpose 比 94–99% 削減。候補集合を 50–44,000 倍に絞り込む。受動観測ベース依存性発見の発展段階を代表(paper / networking / distributed / observability) - [[@2012__LISA__On the Accurate Identification of Network Service Dependencies in Distributed Systems]] — [[Barry Peddycord III]]・[[Peng Ning]]・[[Sushil Jajodia]]([[NC State University]] / [[George Mason University]])による LISA 2012 論文(NSDMiner 拡張)。NSDMiner の比率ベースランキングを対数ベースに置換して偽陽性を大幅削減、利用頻度の低いサービスを類似クラスタから推論、ロードバランシング/バックアップクラスタの自動検出で出力候補を 25–50% 削減。受動観測ベース依存性発見の系譜の到達点の一つ(paper / networking / distributed-systems / systems-administration) - [[@2017__arXiv__Sieve - Actionable Insights from Monitored Metrics in Microservices]] — [[Jörg Thalheim]] ほか([[TU Dresden]])による Middleware 2017 論文 / arXiv:1709.06686。k-Shape クラスタリングによるメトリクス次元 **10–100 倍削減** + Granger 因果性によるコンポーネント間依存性推定の 2 段プラットフォーム。OpenStack/ShareLatex で実装、**CPU 80% / Storage 90% / Network 50%** オーバーヘッド削減を達成。オートスケーリング + 根本原因分析(RCA)への応用例を提示。マイクロサービス時代の因果ベース RCA の初期基盤(paper / aiops / microservices / monitoring / rca) - [[@2021__USENIX-ATC__Jump-Starting Multivariate Time Series Anomaly Detection for Online Service Systems]] — [[Minghua Ma]] ほか([[Sangfor Technologies]])による USENIX ATC 2021 論文(JumpStarter)。**圧縮センシング(CS)** + 形状ベースクラスタリング + 外れ値耐性サンプリングで**訓練不要・20 分初期化**の多変量時系列異常検知を実現。3 データセット平均 **F1=94.12%** で SOTA を上回る。学習ベース MTSAD の「初期化時間 10–100 日」問題に対する設計的回答(paper / aiops / anomaly-detection / time-series) - [[@2015__TKDE__In-Memory Big Data Management and Processing - A Survey]] — [[Hao Zhang]]・[[Gang Chen]]・[[Beng Chin Ooi]]・[[Kian-Lee Tan]]・[[Meihui Zhang]]([[National University of Singapore]] / [[Zhejiang University]] / [[Singapore University of Technology and Design]])による IEEE TKDE 2015 サーベイ論文(Vol.27 No.7 pp.1920–1948、DOI:10.1109/TKDE.2015.2427795、28p / 290 文献)。インメモリビッグデータ管理を、メモリ階層・NUMA・HTM(Intel TSX)・NVRAM(PCM/STT-MRAM/Memristor)の基盤技術から、H-Store/VoltDB・Hekaton・HyPer/ScyPer・SAP HANA・MemepiC・MongoDB・RAMCloud・Redis 等の代表系、Mammoth・Spark/RDD・Storm 等の処理フレームワークまで網羅的に整理。索引・データレイアウト・並列性・並行性制御・クエリ処理・耐障害性・データオーバーフローの 6 軸で研究機会を提示。「メモリ常駐は必要条件、ロック/WAL/B-tree/バッファ管理など 90% 以上を占める legacy オーバーヘッド除去まで進めて初めて 100 倍が出る」を中心命題とする(paper / database / in-memory / survey) - [[@2023__arXiv__TimeGPT-1]] — [[Azul Garza]]・[[Cristian Challu]]・[[Max Mergenthaler-Canseco]]([[Nixtla]])による arXiv 2023 論文(arXiv:2310.03589)。時系列向け初のファウンデーションモデル TimeGPT を提案。エンコーダ・デコーダ Transformer を 100B 点超の多ドメイン時系列で事前学習し、月次 rMAE 0.727 で全ベースラインを上回り top-3 に入る。推論速度 0.6 ms/系列(統計手法の 1/1000)。コンフォーマル予測による分布仮定不要な予測区間も提供。(paper / time-series / foundation-model) - [[@2026__SREcon26 Americas__The WTF Problem - Developer Experience as a Reliability Property]] — [[Nicole Forsgren]] による SREcon26 Americas 45 分講演。SRE のツール・プロセス摩擦を信頼性のシステム特性として定義し、[[DORA]] + [[SPACE]] を SRE チーム自身の計測に適用する。北極星メトリクスとして [[MTWTF]](アラートから状況理解までの時間)を提案。AI が摩擦を増幅するリスクと、ビジネスケースの作り方まで論じる(slides / sre / developer-experience / dora / space) - [[@2018__SREcon18 Asia__A Theory and Practice of Alerting with Service Level Objectives]] — [[Jamie Wilkinson]]([[Google]])による SREcon18 Asia 2018-06-08 講演スライド。シンプトムベースドアラーティング（symptom = SLO で計測できるもの）の定義、SLI/SLO/SLA 三層・工学的許容差との類比、可用性のリクエスト成功率定義、SLO バーンレートアラート（Fast Burn: `delta(errors[1h]) > budget/burn_period`）の PromQL 実装まで体系化（slides / sre / slo / alerting） - [[@2026__SREcon26 Americas__How We Debug 1000s of Databases with AI]] — [[Annie Zhou]]・[[Sophie Zhang (Databricks)]]([[Databricks]] ストレージプラットフォームチーム)による SREcon26 Americas 2026 講演。MySQL/TiDB を数千インスタンス・70以上のリージョン・3クラウドで運用する Databricks が AI支援デバッグシステム([[Storax]])を本番導入するまでを解説。調査時間最大90%削減。3 教訓: (1)ユーザー共感先行 (2)セントラルファースト+細粒度AC+統一ツールの安全基盤 (3)DSPy インスパイア Signature/Tools/Modules フレームワーク・内部 LLM プロキシによるモデル差し替え。Temporal 承認ゲートで本番 DB 操作を保護（video / sre / aiops / database） - [[@2022__DSN__Characterizing and Mitigating Anti-patterns of Alerts in Industrial Cloud Systems]] — [[Tianyi Yang]]・[[Jiacheng Shen]]・[[Yuxin Su]]・[[Xiaoxue Ren]]・[[Yongqiang Yang]]・[[Michael R. Lyu]]([[The Chinese University of Hong Kong]] + [[Sun Yat-sen University]] + [[Huawei Cloud]])による DSN 2022 論文(arXiv:2204.09670)。Huawei Cloud の 2 年・400 万件超アラート + 18 OCE 調査から 4 個別 + 2 集合のアラートアンチパターンを実証同定。Repeating Alerts を初めて文書化。SOP の有用性「Helpful 22.2% vs Limited Help 77.8%」、QoA(indicativeness/precision/handleability)の自動評価を将来方向に。(paper / aiops / alert-management / cloud-reliability) - [[@2024__ICSE-SEIP__Knowledge-aware Alert Aggregation in Large-scale Cloud Systems - a Hybrid Approach]] — [[Jinxi Kuang]]・[[Jinyang Liu]]・[[Junjie Huang]]・[[Renyi Zhong]]・[[Jiazhen Gu]]・[[Lan Yu]]・[[Rui Tan]]・[[Zengyin Yang]]・[[Michael R. Lyu]]([[The Chinese University of Hong Kong]] + [[Huawei Cloud]])による ICSE-SEIP 2024 論文(arXiv:2403.06485、DOI:10.1145/3639477.3639745)。外部知識 SOP を初めてアラート集約に持ち込むハイブリッド [[COLA]](相関マイニング temporal+spatial + LLM 推論 CoT 2 ラウンド + ICL + P-tuning v2 SFT)。Cloud X(匿名化 Huawei Cloud)で F1 0.901-0.930、本番 4 ヶ月運用、ICL 単体 42-50s/ペアを 5.78-8.94s に圧縮。(paper / aiops / alert-management / llm-rca) - [[@2025__arXiv__Metric Criticality Identification for Cloud Microservices]] — [[Akanksha Singal]]・[[Divya Pathak]]・[[Kaustabha Ray]]・[[Felix George]]・[[Mudit Verma]]・[[Pratibha Moogi]]([[IBM Research]] India + [[IIIT Delhi]])による arXiv 2025 論文(arXiv:2501.03547v2)。Informative Metric Subset Problem(NP 完全)を初定式化し、エントロピー + 相互情報量 + トポロジパス確率調整 + AIMD で SelectKBest/mRMR/Boruta/Max Weighted Clique を上回る coverage を達成する [[KIMetrix]]。教師ラベル不要・SOP 不要・ログ処理不要で QoTD(253 metrics)+ DeathStarBench(180 metrics)で実証、DeathStarBench CPU で C=99.44%。(paper / aiops / observability / microservices) - [[@2014__KDD__Unveiling Clusters of Events for Alert and Incident Management in Large-Scale Enterprise IT]] — [[Derek Lin]]・[[Rashmi Raghu]]・[[Vivek Ramamurthy]]・[[Jin Yu]]・[[Regunathan Radhakrishnan]]([[Pivotal Software]]) + [[Joseph Fernandez]]([[Visa Inc]])による KDD 2014 論文(DOI:10.1145/2623330.2623360)。半構造化アラート(Jaccard + connected components + 正規化グラフカット)と非構造化インシデント(NMF + KD-tree + complete-linkage + マージ精製)の 2 系統独立クラスタリング framework。5M アラート→22K ユニーク + 67K インシデントを Pivotal Greenplum + MADlib で処理、(word, position) タプル可視化で word cloud の構造保持を克服。(paper / aiops / alert-management / clustering) - [[@2019__WWW__Outage Prediction and Diagnosis for Cloud Service Systems]] — [[Yujun Chen]]([[Beihang University]] + [[Microsoft Research]] intern)・Xian Yang・[[Qingwei Lin]]・[[Hongyu Zhang]]([[University of Newcastle]])・[[Feng Gao]]・[[Zhangwei Xu]]・[[Yingnong Dang]]([[Microsoft Azure]])・[[Dongmei Zhang]]・[[Hang Dong]]・Yong Xu・Hao Li・[[Yu Kang]]([[Microsoft Research]] Beijing)による WWW 2019 論文(DOI:10.1145/3308558.3313501)。Bayesian network(FCI アルゴリズム)で信号-アウテージの依存性を学習し、XGBoost + SMOTE でアウテージの発生を予測する [[AirAlert]]。Microsoft 1 年・6 サービス・約 8,000 サンプルで、サービスレベル outage で Simple Spike(F1 7-11%)が崩壊する場面で AirAlert Related F1 53.92-88.78% を達成。(paper / aiops / outage-prediction / bayesian-network) - [[@2020__ICSE-SEIP__Understanding and Handling Alert Storm for Online Service Systems]] — [[Nengwen Zhao]]・[[Junjie Chen]]・[[Dan Pei]] ほか([[Tsinghua University]]/[[Tianjin University]]/[[BizSeer]]/[[China EverBright Bank]])による ICSE-SEIP 2020 論文(DOI:10.1145/3377813.3381363)。アラートストームの初の実証研究で China EverBright Bank の 3 年・300 万件超アラートを分析。EVT(極値理論)ベースの適応的検知で F1>0.9 を達成し、Isolation Forest デノイジング + DBSCAN クラスタリング + 代表アラート選択により調査対象を 98% 以上削減。(paper / aiops / alert-management / alert-storm) - [[@2020__ISSRE__AlertRank - Automatically and Adaptively Identifying Severe Alerts for Online Service Systems]] — [[Nengwen Zhao]]・[[Dan Pei]] ほか([[Tsinghua University]]/[[China Construction Bank]]/[[Stevens Institute of Technology]]/[[BizSeer]])による ISSRE 2020 論文。重要アラート識別をランキング問題として定式化し、XGBoost + 40 次元特徴量(テキスト + 時系列 + KPI 異常)で F1=0.89(rule-based 0.53 比)を達成。Resolution Record の TF-IDF + k-means で連続重要度スコアを自動付与、ソフトウェア変更後のインクリメンタル学習で F1 を 0.68 から 0.88 まで回復。(paper / aiops / alert-management / actionable-alerting) - [[@2023__arXiv__ESRO - Experience Assisted Service Reliability against Outages]] — [[Sarthak Chakraborty]]・[[Shubham Agarwal]]・[[Shiv Saini]] ほか([[University of Illinois Urbana-Champaign]]/[[Adobe Research]]/[[Adobe]]/[[IIT Kanpur]])による arXiv 2023 論文(arXiv:2309.07230v1)。アラートデータと過去の障害レポートを統合した CK グラフを構築し、リアルタイムアラートのみで根本原因と緩和手順を推薦する経験ベース診断 ESRO を提案。クラスタベース推論でベースライン比 +27.2%/+39.0% の Rouge スコア改善、Random Forest によるクラスタ予測で top-1 62%・top-5 72.7%。(paper / aiops / root-cause-analysis / alert-management) - [[@2023__ASE__Dynamic Graph Neural Networks-Based Alert Link Prediction for Online Service Systems]] — [[Yiru Chen]]・[[Chenxi Zhang]]・[[Zhen Dong]]・[[Xin Peng]] ほか([[Fudan University]]/[[Alibaba Group]]/[[Alipay]]/[[Taobao]])による ASE 2023 論文(DOI:10.1109/ASE56229.2023.00177、pp.79-90)。アラートストームをアラート伝播の現象と再定義し、AMDG(Alert-Metric Dynamic Graph)+ 異種 k-GNN + GRU でリンク予測する DyAlert を提案。Alibaba 85 BU・約 3 万サービスの実データで F1 を SOTA 比 +0.259 向上、Precision +41.8%/Recall +10.1%。(paper / aiops / alert-management / graph-neural-network) - [[@2023__JCC__Filtering Alerts on Cloud Monitoring Systems]] — [[Fotios Voutsas]]・[[John Violos]]・[[Aris Leivadeas]]([[École de Technologie Supérieure]])による JCC 2023 論文(DOI:10.1109/JCC59055.2023.00010、pp.34-37)。クラウドモニタリングのアラートフィルタリングをクリック行動ベースの二値分類問題として初定式化。Netdata 10 万サンプル・10 ヶ月で Random Forest が精度 70%・推論 7.3 ms を達成。通常システム 4,000 メトリクス・80〜100 種アラート、本番 10,000〜20,000 メトリクス・数百種の規模感を実測報告。(paper / aiops / alert-management / cloud-monitoring) - [[@2023__ICSE-SEIP__TraceArk - Towards Actionable Performance Anomaly Alerting for Online Service Systems]] — [[Yuqun Zhang]]・[[Saravan Rajmohan]]・[[Qingwei Lin]] ほか([[Southern University of Science and Technology]]/[[Microsoft]] M365)による ICSE-SEIP 2023 論文(DOI:10.1109/ICSE-SEIP58684.2023.00029)。アクショナブルアラートを impact + interpretability の 2 軸で定義し、ExL(排他的レイテンシ)とパス粒度トレース集約 + XGBoost フィードバック機構で実装。Exchange 本番 4 ヶ月で適合率 0.9068(従来 2.38 倍)、ExchangeデータセットでF1=0.5936(AutoEncoder F1=0.3945 を +50.47%)。(paper / aiops / alert-management / actionable-alerting) - [[@2024__CCGRID__AlertRCA - Causality Enhanced Graph Representation Learning for Alert-Based Root Cause Analysis]] — [[Zhaoyang Yu]]・[[Changhua Pei]]・[[Dan Pei]] ほか([[Tsinghua University]]/CNIC CAS/[[Huawei Technologies|Huawei]]/[[eBay]])による CCGRID 2024 論文。アラートイベントのみを入力とするエンドツーエンド RCA 手法 AlertRCA を提案、Alert2Vec(BERT+MLP)+ CPGAT(非対称アテンション因果スコア)+ DAGNN(分散集約)を組み合わせる。実世界 EC データセットで top-1 83.9%/top-3 96.8% を達成、Groot(手作業ルールあり)を上回り、DejaVu 比で top-1 +24.8%/+15.7% 改善。(paper / aiops / root-cause-analysis / alert-management / graph-neural-network) - [[@2024__ICSE-SEIP__Dynamic Alert Suppression Policy for Noise Reduction in AIOps]] — [[Karan Bhukar]]・[[Rohan Arora]]・[[Pooja Aggarwal]] ほか([[IBM Research]] T.J. Watson + India)による ICSE-SEIP 2024 論文(DOI:IEEE 10554731)。教師なし統計手法(移動平均エンベロープ)で X-out-of-Y アラート抑制ポリシーをメトリクス・マイクロサービスごとに自動学習する Dynamic-X-Y を提案。メトリクスで No-Suppression 比 45.8%/Static-X-Y 比 7.4% 正解率改善、TcpRetrans 事例で 61.53% ノイズ削減、教師なし学習が教師あり上界に到達することを実証。(paper / aiops / alert-management / alert-suppression) - [[@2024__ISSRE__Exploring Hierarchical Patterns for Alert Aggregation in Supercomputers]] — [[Yuan Yuan]]・[[Tongqing Zhou]]・[[Yongqian Sun]] ほか([[National University of Defense Technology]]/[[Nankai University]]/National Supercomputer Center in Tianjin)による ISSRE 2024 論文。スーパーコンピュータの「アラート過負荷」(連続的バースト、98 万〜211 万件/130 日)を断続的アラートストームと区別して定義。SuperAgg の 2 段階階層構造(センサ層パターン4カテゴリ + システム層 Apriori 主従関係)で集約率 99.04%/98.64%・精度 99.18%/95.88% を達成、3 ベースライン比で +83.8%/+43.2% 精度向上。(paper / aiops / alert-management / alert-aggregation / hpc) - [[@2025__KDD__Large Language Models can Deliver Accurate and Interpretable Time Series Anomaly Detection]] — [[Jun Liu (UCAS)]]・[[Chaoyun Zhang]]・[[Jiaxu Qian]]・[[Minghua Ma]]・[[Si Qin]]・[[Chetan Bansal]]・[[Qingwei Lin]]・[[Saravan Rajmohan]]・[[Dongmei Zhang]]([[Microsoft]] + [[University of Chinese Academy of Sciences]] + [[Zhejiang University of Technology]])による KDD 2025 論文(DOI:10.1145/3711896.3737239、arXiv:2405.15370)。LLM を直接 fine-tuning なしで TSAD に使う初のフレームワーク [[LLMAD]] を提案。FastDTW ベースの正常/異常履歴 ICL + [[AnoCoT]](判定ルール・8 種異常タイプ・3 段階アラームレベル + 大域 → 局所 → 再評価の段階推論)で、GPT-4 が KPI/WSD/Yahoo 平均 Best F1=0.759 を達成し TFAD(0.725)を上回る。年間運用コスト約 $65.70。5 名の DevOps エンジニア人手評価で usefulness 4.06、Acc(any-hit) 0.79〜0.93。(paper / aiops / anomaly-detection / llm / time-series) - [[@2026__ACL Findings__Time-RA - Towards Time Series Reasoning for Anomaly Diagnosis with LLM Feedback]] — [[Yiyuan Yang]]([[University of Oxford]])・[[Zichuan Liu]]([[Nanjing University]])・[[Lei Song]]・[[Jiang Bian]]([[MSRA]])・[[Qingsong Wen]]†([[Squirrel Ai Learning]])ほかによる ACL 2026 Findings 論文(arXiv:2507.15066)。TSAD を二値識別から生成型推論タスクへ転換する **TIME-RA** タスクを定義。4 モデルプール(GPT-4o/Gemini-2.5/DeepSeek-R1/Llama-3.3-70B)+GPT-4 優先選択・批評による AI フィードバックで実世界 10 ドメイン約 4 万件・単変量 14+多変量 6 カテゴリの **RATs40K** を構築。SFT(LoRA)で Qwen2.5-7B は未見ドメインにもプラグアンドプレイで転用可能、視覚表現は推論一貫性(Thought マッチング)を一貫して向上。(paper / time-series / anomaly-detection / multimodal / benchmark / llm / reasoning / ACL) - [[@2025__VLDB__ChatTS - Aligning Time Series with LLMs via Synthetic Data for Enhanced Understanding and Reasoning]] — [[Zhe Xie]]・[[Zeyan Li]]・[[Xiao He]]・[[Longlong Xu]]・[[Xidao Wen]]・[[Tieying Zhang]]・[[Jianjun Chen]]・[[Rui Shi]]・[[Dan Pei]]([[Tsinghua University]]/[[BNRist]] + [[ByteDance]] + [[BizSeer]])による PVLDB Vol. 18, No. 8, pp. 2385-2398, 2025 論文(DOI:10.14778/3742728.3742735)。時系列を画像同等のネイティブな多変量モダリティとして扱う初の TS-MLLM [[ChatTS]] を提案。属性プール(Trend 4 / Periodicity 7 / Noise 3 / Local Fluctuation 19 種 × 567 メトリクス名)からの合成データのみで Qwen2.5-14B-Instruct を SFT し、[[TSEvol]] で多様な Q&A を量産。GPT-4o(vision/text/agent)を alignment +46.0% / reasoning +25.8% で上回り、入力トークンは 1/40〜1/15。(paper / aiops / llm / time-series / multimodal) - [[@2022__DICOMO__AI時代に向けたクラウドにおける信頼性エンジニアリングの未来構想]] — [[Yuuki Tsubouchi]]・[[Hirofumi Tsuruta]]([[SAKURA Internet]] / [[Kyoto University]])による DICOMO 2022 統一セッション「クラウド」招待講演スライド。SRE・AIOps の現在地から、2040 年代の [[セルフクラフト]]、信頼性・コスト・変更速度の対話的均衡調整、[[Interactive AIOps]] の実験可能性・解釈性へ至る信頼性エンジニアリング構想（slides / sre / aiops） ### 2026-06-18 分散深層学習の通信・スケジューリング・ネットワーク基盤論文 14 本一括 - [[@2015__SIGCOMM__Congestion Control for Large-Scale RDMA Deployments]] — [[Yibo Zhu]]・[[Daniel Firestone]]・[[Chuanxiong Guo]]・[[Jitendra Padhye]]（[[Microsoft]] / [[Mellanox]]）ほかによる SIGCOMM 2015 論文。PFC の輻輳拡散を解決するレート制御型エンドツーエンド輻輳制御プロトコル [[DCQCN]] を提案。QCN と DCTCP を融合し NIC ハードウェアに実装、流体モデルでパラメータを最適化。スパインスイッチの PAUSE メッセージを 600 万件→約 3000 件に削減し、3 階層 Clos テストベッドで検証。(paper / networking / rdma / congestion-control) - [[@2016__SIGCOMM__RDMA over Commodity Ethernet at Scale]] — [[Chuanxiong Guo]]・[[Jitendra Padhye]]（[[Microsoft]]）ほかによる SIGCOMM 2016 論文。RoCEv2 を全データセンタへ Layer-3 IP 上に大規模展開した初の体系的報告。DSCP ベース PFC で VLAN 制約を脱却し、PFC デッドロック・トランスポートライブロック・NIC PFC ストーム・スローレシーバーの 4 安全課題を発見・解決。RDMA Pingmesh で 99 パーセンタイルレイテンシ 90 µs（TCP 700 µs）を実証。(paper / networking / rdma / datacenter) - [[@2008__ISCA__Technology-Driven, Highly-Scalable Dragonfly Topology]] — [[John Kim]]・[[William J. Dally]]・[[Steve Scott]]・[[Dennis Abts]]による ISCA 2008 論文。グループ(仮想ルータ)導入で実効ラジックスを高め、グローバルホップ数を最大 1 回に削減する [[Dragonflyトポロジ]] を提案。フラット化バタフライ比 20%・折り畳み Clos 比 52% のコスト削減。UGAL-LCR による間接適応ルーティングの遅延問題解決。(paper / networking / hpc / interconnect) - [[@2009__IEEE-Micro__Cost-Efficient Dragonfly Topology for Large-Scale Systems]] — [[John Kim]]・[[William J. Dally]]・[[Steve Scott]]・[[Dennis Abts]]による IEEE Micro 2009 論文。ISCA 2008 の Dragonfly を拡張し、選択的仮想チャネル分離とクレジット往復レイテンシの 2 手法を組み合わせて間接適応ルーティングの限界を克服。16K ノード以上でフラット化バタフライ比 20%・折り畳み Clos 比 52%・3D トーラス比最大 60% のコスト削減を実証。(paper / networking / hpc / interconnect) - [[@2018__SC__Harnessing GPU Tensor Cores for Fast FP16 Arithmetic to Speed up Mixed-Precision Iterative Refinement Solvers]] — [[Azzam Haidar]]・[[Jack Dongarra]]（[[University of Tennessee]] / [[University of Manchester]]）ほかによる SC 2018 論文。FP16 テンソルコアを用いた混合精度反復精密化により FP64 精度の解を最大 4× 高速に取得。テンソルコアの FP32 蓄積が数値安定性を向上、GMRES 前処理で条件数制約を κ∞(A) < 10^8 まで緩和。(paper / hpc / gpu / mixed-precision / linear-algebra) - [[@2019__NSDI__Tiresias - A GPU Cluster Manager for Distributed Deep Learning]] — [[Juncheng Gu]]・[[Mosharaf Chowdhury]]・[[Kang G. Shin]]（[[University of Michigan]]）ほかによる NSDI 2019 論文。ジョブ所要時間が不明な状況で 2DAS（二次元アテインドサービス）スケジューラにより GPU 数×経過時間の積を優先度指標に用い、YARN-CS 比で平均 JCT 最大 5.5 倍改善。MLFQ 式離散化キューでプリエンプションコストを抑制。(paper / distributed / gpu-scheduling) - [[@2020__NSDI__Themis - Fair and Efficient GPU Cluster Scheduling]] — [[Kshiteej Mahajan]]・[[Aditya Akella]]・[[Amar Phanishayee]]・[[Shivaram Venkataraman]]ほかによる NSDI 2020 論文。ML ジョブのギャングスケジューリング必要性と配置感度が DRF/LAS の公平性保証を破壊することを示し、仕上がり時間公平性(finish-time fairness)と部分割り当てオークションで公平性を 2.25 倍以上改善しつつクラスタ効率も向上。(paper / distributed / scheduling / gpu) - [[@2022__NSDI__Accelerating Collective Communication in Data Parallel Training across Deep Learning Frameworks]] — [[Joshua Romero]]（[[Oak Ridge National Laboratory]] / [[NVIDIA]]）ほかによる NSDI 2022 論文。Horovod のコーディネータ・ワーカー制御プレーンの O(N) ボトルネックを応答キャッシュとビットベクタ積集合でバイパスし、6000 GPU で既存比 2× の性能向上。27,600 GPU（Summit 全体）で 0.93 の線形近似スケーリングと 1.54 エクサフロップス（FP16）を達成。(paper / distributed / collective-communication) - [[@2022__SC__HammingMesh - A Network Topology for Large-Scale Deep Learning]] — [[Torsten Hoefler]]・[[Daniele De Sensi]]・[[Steve Scott]]（[[ETH Zürich]] / [[Microsoft]]）ほかによる SC 2022 論文。DL の通信パターンをトーラス状（直交ハミルトン閉路の集合）でモデル化し、2 次元並列化に完全帯域分離を提供しつつ汎用グローバル帯域も維持する [[@2022__SC__HammingMesh - A Network Topology for Large-Scale Deep Learning|HammingMesh]] トポロジを提案。Fat-Tree の均一全二分帯域に対し通信局所性特化で低コスト化。(paper / networking / hpc / distributed) - [[@2023__arXiv__Rail-only - A Low-Cost High-Performance Network for Training LLMs with Trillion Parameters]] — [[Weiyang Wang]]・[[Manya Ghobadi]]（[[MIT]]）ほかによる arXiv 2023 論文。LLM 訓練の通信パターンが疎でありトラフィックの 99% 超が同一レール内に留まる観察から、スパイン層を除去した Rail-only アーキテクチャを提案。スイッチ・トランシーバ削減でコスト 38〜77%・消費電力 37〜75% 削減しつつ訓練性能を維持。(paper / networking / distributed / llm-training) - [[@2023__IEEE Computer__Datacenter Ethernet and RDMA - Issues at Hyperscale]] — [[Torsten Hoefler]]（[[ETH Zürich]] / [[Hewlett Packard Enterprise|HPE]] / [[Broadcom]] / [[Google]] / [[Microsoft]]）ほか産学連合による IEEE Computer 2023 論文。RoCE の 8 つの構造的欠陥（PFC 過大バッファ・輻輳ツリー・Go-back-N・輻輳制御の相互不干渉性・ヘッダオーバーヘッド・スマートスタック不対応・セキュリティ・リンク信頼性）を体系化し、TCP/RoCE は 10 年以内に次世代 Ethernet に置き換わると予測。(paper / networking / rdma / roce) - [[@2024__ICSE__An Empirical Study on Low GPU Utilization of Deep Learning Jobs]] — [[Yanjie Gao]]（[[Microsoft Research]]）ほかによる ICSE 2024 論文。400 件の実ジョブから 706 件の低 GPU 利用率問題を分析。最多はホスト-GPU データ転送の非効率(27.90%)、バッチサイズ不適切(25.64%)、チェックポイント(16.43%)の順。84.99% は少数のコード修正で解消可能。スケジューラ改善とジョブコード改善は直交する課題。(paper / gpu / empirical-study / deep-learning) - [[@2024__SIGCOMM__RDMA over Ethernet for Distributed AI Training at Meta Scale]] — [[Adithya Gangidi]]・[[James Hongyi Zeng|Hongyi Zeng]]（[[Meta]]）ほかによる SIGCOMM 2024 論文。24,000 GPU の RoCE クラスタで Llama 3 を訓練した大規模事例報告。DCQCN は集合通信に適合せず受信側駆動のトラフィック許可制御へ転換。ルーティングを ECMP→フローレットスイッチングへ段階的に改善し、NCCL のデフォルト性能を 2 倍以上改善。(paper / networking / rdma / distributed-training) - [[@2024__SC-W 2024__Benchmarking Ethernet Interconnect for HPC AI workloads]] — [[Lorenzo Pichetti]]・[[Daniele De Sensi]]（[[University of Trento]] / [[Sapienza University of Rome]] / [[Huawei Technologies|Huawei]] / [[CINECA]]）ほかによる SC-W 2024 論文。32 KiB 以上の大メッセージで Ethernet と InfiniBand の帯域差は 4% 未満、AllToAll・AllReduce でも 3% 未満。レイテンシでは InfiniBand が約 1.4× 優位。Ethernet が HPC/AI インターコネクトとして InfiniBand に肉薄する定量的根拠を提示。(paper / networking / hpc / benchmark / ethernet) ### 2026-06-17 分散深層学習の訓練系基盤論文 14 本一括 - [[@2018__OSDI__Ray A Distributed Framework for Emerging AI Applications]] — [[Philipp Moritz]]・[[Robert Nishihara]]・[[Ion Stoica]]（[[University of California, Berkeley]]）ほかによる OSDI 2018 論文。タスク並列とアクターモデルを統合する分散フレームワーク [[Ray]] を提案。動的タスクグラフ、グローバル制御ストア (GCS)、ボトムアップ分散スケジューラにより、1.8 ミリ秒の遅延で毎秒 100 万タスク以上を処理し、強化学習ワークロードで既存特化フレームワークを凌駕。(paper / distributed / task-parallel / actor-model) - [[@2019__arXiv__Megatron-LM Training Multi-Billion Parameter Language Models Using Model Parallelism]] — [[Mohammad Shoeybi]]・[[Mostofa Patwary]]・[[Bryan Catanzaro]]（[[NVIDIA]]）ほかによる arXiv 2019 論文。層内テンソル並列化を提案し、MLP と自己注意の行列分割で通信を AllReduce 2 回に抑制。83 億パラメータの Transformer を 512 V100 GPU で 15.1 PetaFLOPs（理論ピーク 76%）に到達。(paper / distributed / tensor-parallelism) - [[@2019__NeurIPS__GPipe Easy Scaling with Micro-Batch Pipeline Parallelism]] — [[Yanping Huang]]・[[Quoc V. Le]]（[[Google Brain]]）ほかによる NeurIPS 2019 論文。マイクロバッチパイプライン並列化ライブラリ [[GPipe]] を提案。再マテリアライゼーションとの組み合わせで 6 億パラメータ AmoebaNet を 8 倍に拡大し ImageNet 84.4% top-1 を達成。bubble 比率 O(K−1)/M で M（マイクロバッチ数）増加により無視可能に。(paper / distributed / pipeline-parallelism) - [[@2019__SOSP__PipeDream Generalized Pipeline Parallelism for DNN Training]] — [[Deepak Narayanan]]・[[Matei Zaharia]]（[[Stanford University]] / [[Microsoft Research]]）ほかによる SOSP 2019 論文。1F1B パイプラインスケジュールと重み隠蔽（weight stashing）を組み合わせた [[PipeDream]] を提案。GPipe 比でメモリ使用量を最大 2 倍削減し、データ並列比で VGG-16 を 5.3 倍高速化。(paper / distributed / pipeline-parallelism) - [[@2020__KDD__DeepSpeed System Optimizations Enable Training Deep Learning Models with Over 100 Billion Parameters]] — [[Jeff Rasley]]・[[Samyam Rajbhandari]]・[[Yuxiong He]]（[[Microsoft]]）ほかによる KDD 2020 チュートリアル概要。[[DeepSpeed]] ライブラリの概要と [[ZeROオプティマイザ]] を紹介。100〜200 億パラメータモデルを当時最良比 10 倍高速に訓練でき、BERT 事前訓練を 1024×V100 で 44 分（従来比 34% 短縮）に達成。(paper / distributed / deepspeed) - [[@2020__OSDI__HiveD Sharing a GPU Cluster for Deep Learning with Guarantees]] — [[Hanyu Zhao]]（[[Peking University]]）ほかによる OSDI 2020 論文。マルチテナント GPU クラスタで「[[共有異常]]」を発見・定式化し、[[Virtual Private Cluster]] + バディセル割り当てで安全性を保証する [[HiveD]] を提案。2,232 GPU クラスタでプリエンプション 55% 削減・断片化最大 20% 改善。(paper / distributed / gpu-scheduling) - [[@2020__SC__ZeRO Memory Optimizations Toward Training Trillion Parameter Models]] — [[Samyam Rajbhandari]]・[[Jeff Rasley]]・[[Yuxiong He]]（[[Microsoft]]）ほかによる SC 2020 論文。[[ZeROメモリ最適化]] の Stage 1〜3 を提案。オプティマイザ状態 / 勾配 / パラメータを GPU 間で分割し、モデル並列なしで 1000 億パラメータ訓練を可能にし、スーパーリニアなスループットスケーリングを実証。(paper / distributed / memory-optimization) - [[@2021__SC__Efficient Large-Scale Language Model Training on GPU Clusters Using Megatron-LM]] — [[Deepak Narayanan]]・[[Matei Zaharia]]（[[Stanford University]] / [[Microsoft Research]]）ほかによる SC 2021 論文。パイプライン・テンソル・データの 3 種類並列を組み合わせる [[PTD-P]] を提案。1 兆パラメータモデルを 3072 A100 GPU で 502 petaFLOP/s（MFU 52%）で訓練可能と実証。インターリーブスケジュールで bubble 比率を 1/v に削減。(paper / distributed / 3d-parallelism) - [[@2023__arXiv__FP8-LM Training FP8 Large Language Models]] — [[Houwen Peng]]・[[Han Hu]]（[[Microsoft Azure]] / [[Microsoft Research]]）ほかによる arXiv 2023 論文。FP8 での LLM 事前訓練を初めて体系的に検証。forward に FP8、backward に FP16/BF16、勾配に FP8 + 精度補償を適用し、GPT-175B でメモリ使用量 42% 削減・訓練 64% 高速化。(paper / distributed / mixed-precision) - [[@2023__MLSys__Reducing Activation Recomputation in Large Transformer Models]] — [[Vijay Korthikanti]]・[[Mohammad Shoeybi]]・[[Bryan Catanzaro]]（[[NVIDIA]]）ほかによる MLSys 2023 論文。[[選択的活性化再計算]] と [[シーケンス並列化]] を提案。530B パラメータモデルで活性化メモリを 5 倍削減しつつ再計算オーバーヘッドは既存手法の 3 分の 1 に抑制。(paper / distributed / activation-recomputation) - [[@2023__VLDB__PyTorch FSDP Experiences on Scaling Fully Sharded Data Parallel]] — [[Yanli Zhao]]（[[Meta]]）ほかによる VLDB 2023 論文。PyTorch FSDP の設計と産業規模運用を報告。FlatParameter による通信集約、後退プリフェッチで GPT-175B 18% スループット向上、レートリミッターで T5-11B 最大 5× 向上。[[ZeROパラメータシャーディング]] と同等の手法を PyTorch ネイティブに実装。(paper / distributed / data-parallelism) - [[@2024__APNet__Understanding Communication Characteristics of Distributed Training]] — [[Wenxue Li]]・[[Kai Chen (HKUST)]]（[[iSING Lab]] / [[Hong Kong University of Science and Technology|HKUST]]）ほかによる APNet 2024 論文。分散訓練ワークロードの通信特性を実測・分類。3D 並列化で TP 内 AllReduce が支配的（帯域の 55〜85%）、DP の AllReduce バースト性が高く、PP は帯域消費が低いが遅延に敏感。(paper / distributed / communication) - [[@2024__NSDI__Cassini Network-Aware Job Scheduling in Machine Learning Clusters]] — [[Sudarsanan Rajasekaran]]・[[Manya Ghobadi]]・[[Aditya Akella]]（[[MIT]] / [[UT Austin]]）ほかによる NSDI 2024 論文。[[ネットワーク対応スケジューリング]] を ML クラスタに導入する [[Cassini]] を提案。GPU 配置とネットワークフロースケジューリングを統合し、JCT を最大 1.6 倍改善。(paper / distributed / gpu-scheduling / network) - [[@2025__arXiv__FFTrainer Fast Failover in Large Language Model Training with Almost Free State Management]] — [[Bohan Zhao]]・[[Wei Xu]]（[[Tsinghua University]]）ほかによる arXiv 2025 論文。[[FFTrainer]] を提案。訓練ネットワークの遊休帯域を利用したゼロオーバーヘッドチェックポイント（< 3%）と checkpoint razor（サイズ 1/10 以下圧縮）で反復ごとのチェックポイントを実現し、障害復旧時間を数十分から数十秒に短縮。(paper / distributed / fault-tolerance) ### 2026-06-19 JANOG56 スライド - [[@2025__JANOG56__AI ML基盤における800GbEスイッチ導入とその挑戦]] — [[小障子尚太朗]]・[[疋田紅樹]]([[サイバーエージェント]] CIU)による JANOG56 Day2 講演(2025-07-31)。400G/800G 混在 Rail-Optimized GPU インターコネクト構築事例。NCCL_CROSS_NIC=0 によるリング経路最適化、Ingress interface hashing + DLB によるマルチベンダー Lossless チューニング、SN-MT コネクタで 4 倍密度のパッチパネルを実現。TOP500 国内 15 位(世界 132 位)を達成。(slides / networking / gpu-cluster / interconnect) ### 2026-06-20 クラスタリング基礎論文 3 本 - [[@1996__KDD__A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise]] — [[Martin Ester]]・[[Hans-Peter Kriegel]]・[[Jörg Sander]]・Xiaowei Xu（University of Munich）による KDD 1996 論文。密度ベースのクラスタ定義（核点・密度到達可能性・密度接続）に立脚した DBSCAN を提案。クラスタ数の事前指定不要で任意形状のクラスタを発見し、CLARANS に対し 100 倍以上の効率を実証。(paper / clustering / spatial-databases) - [[@2013__PAKDD__Density-Based Clustering Based on Hierarchical Density Estimates]] — [[Ricardo J.G.B. Campello]]・[[Davoud Moulavi]]・[[Jörg Sander]]（University of Alberta）による PAKDD 2013 論文。DBSCAN の全解を単一パラメータ mpts で階層的に列挙する HDBSCAN を提案。相対超過質量に基づくクラスタ安定性尺度と最適フラット分割抽出アルゴリズムを導入。(paper / clustering / density-based) - [[@2016__SIGMOD Record__k-Shape - Efficient and Accurate Clustering of Time Series]] — [[John Paparrizos]]・[[Luis Gravano]]（Columbia University）による SIGMOD 2015（SIGMOD Record 2016 再録）論文。正規化相互相関に基づく形状ベース距離 SBD と Rayleigh 商最大化によるセントロイド計算を組み合わせた k-Shape を提案。48 データセットでスケーラブル手法中唯一の最高精度を達成。(paper / clustering / time-series) ### 2026-06-20 マイクロサービス・データベース RCA 基礎論文 10 本一括 - [[@2013__SIGMETRICS__Root Cause Detection in a Service-Oriented Architecture]] — [[Myunghwan Kim]]・[[Roshan Sumbaly]]・[[Sam Shah]]（[[Stanford University]] / [[LinkedIn]]）による SIGMETRICS 2013 論文。コールグラフ上のパーソナライズドランダムウォーク（MonitorRank）を提案し、サービス依存グラフの相関比例遷移で根本原因をランク付けする最初の手法を示した。(paper / aiops / rca) - [[@2014__CNSM__Mining Temporal Lag from Fluctuating Events for Correlation and Root Cause Analysis]] — [[Chunqiu Zeng]]・[[Tao Li]]（[[Florida International University]]）・[[Larisa Shwartz]]（[[IBM Research|IBM]]）ほかによる CNSM 2014 論文。イベント間の変動する時間遅れをマイニングし、隠れた時間依存を発見する LTD アルゴリズムを提案。(paper / aiops / event-correlation) - [[@2018__CCGrid__CloudRanger - Root Cause Identification for Cloud Native Systems]] — [[Ping Wang]]・[[Pengfei Chen]]（[[Peking University]] / [[IBM Research China]]）ほかによる CCGrid 2018 論文。PC アルゴリズムで因果グラフを構築し、二次ランダムウォークで根本原因を特定する CloudRanger を提案。MonitorRank の拡張。(paper / aiops / rca) - [[@2019__ISSRE__FluxRank - A Widely-Deployable Framework to Automatically Localizing Root Cause Machines for Software Service Failure Mitigation]] — [[Ping Liu]]・[[Dan Pei]]（[[Tsinghua University]]）ほかによる ISSRE 2019 論文。サービス障害時にマシンレベルの根本原因を特定する FluxRank を提案。異常検知・特徴選択・相関ランキングの 3 段構成で Baidu 本番に展開。(paper / aiops / rca) - [[@2019__WWW__ε-Diagnosis - Unsupervised and Real-time Diagnosis of Small-window Long-tail Latency in Large-scale Microservice Platforms]] — [[Huasong Shan]]（[[JD.com]]）ほかによる WWW 2019 論文。マイクロサービスのテイルレイテンシ違反を小窓リアルタイムで診断する ε-Diagnosis を提案。ε 統計量による教師なし異常検知。(paper / aiops / microservice-diagnosis) - [[@2020__IPCCC__FluxInfer - Automatic Diagnosis of Performance Anomaly for Online Database System]] — [[Ping Liu]]・[[Dan Pei]]（[[Tsinghua University]]）ほかによる IPCCC 2020 論文。DB 性能異常の根本原因 KPI を重み付き無向依存グラフ（WUDG）+ PageRank で特定する FluxInfer を提案。(paper / aiops / database-diagnosis) - [[@2020__WWW__AutoMAP - Diagnose Your Microservice-based Web Applications Automatically]] — [[Minghua Ma]]・[[Dan Pei]]（[[Tsinghua University]]）ほかによる WWW 2020 論文。異常行動グラフと前方・自己・後方ランダムウォークによるマイクロサービス自動診断ツール AutoMAP を提案。(paper / aiops / microservice-diagnosis) - [[@2021__CloudIntelligence__MicroDiag - Fine-grained Performance Diagnosis for Microservice Systems]] — [[Li Wu]]・[[Johan Tordsson]]・[[Odej Kao]]（[[TU Berlin]] / [[Umeå University]]）ほかによる CloudIntelligence 2021 論文。サービスとマシン粒度の性能異常診断を因果推論で行う MicroDiag を提案。(paper / aiops / microservice-diagnosis) - [[@2022__ICWS__TS-InvarNet - Anomaly Detection and Localization based on Tempo-spatial KPI Invariants in Distributed Services]] — [[Zijun Hu]]・[[Pengfei Chen]]（[[Sun Yat-sen University]]）ほかによる ICWS 2022 論文。KPI ペア間の不変条件崩壊に基づく異常検知・箇所特定手法 TS-InvarNet を提案。トポロジ不要・292KB の軽量設計。(paper / aiops / anomaly-detection) - [[@2023__arXiv__PyRCA - A Library for Metric-based Root Cause Analysis]] — [[Chenghao Liu]]・[[Steven C. H. Hoi]]（[[Salesforce AI]]）ほかによる arXiv 2023 論文。AIOps 向け RCA のオープンソースライブラリ PyRCA を提案。因果グラフ構築からスコアリングまでを統合。(paper / aiops / rca) - [[@2024__FSE__BARO - Robust Root Cause Analysis for Microservices via Multivariate Bayesian Online Change Point Detection]] — [[Luan Pham]]・[[Huong Ha]]・[[Hongyu Zhang]]（[[RMIT University]] / [[Chongqing University]]）による FSE 2024 論文。多変量 BOCPD(Adams & MacKay 2007 × Xuan & Murphy 2007)で異常変化点を検知し、RobustScorer(中央値・IQR ベースノンパラメトリック仮説検定)で根本原因メトリクスをスコアリングするエンドツーエンド RCA フレームワーク BARO を提案。Online Boutique/Sock Shop/Train Ticket の 3 ベンチマークで既存手法を一貫して上回り、異常検知時刻の誤差への頑強性を実証。(paper / fse / aiops / rca / microservices / change-point-detection) ### 2026-06-23 Europe 2031 ingest - [[europe2031-ai|Europe 2031]] — [[ARQ Foundation]] 主執筆（Daan Juijn ほか計8名）。AI 開発格差によるヨーロッパ周縁化を 2025〜2031 年スパンで描く政策シナリオ・ナラティブ。米欧コンピュート比 12.4→15.7 倍、デジタル主権規制の逆説を中心テーマに置く。(source / web / policy-scenario / AI政策 / 地政学) ### 2026-06-23 Conductor (ICLR 2026) - [[@2026__ICLR__Learning to Orchestrate Agents in Natural Language with the Conductor]] — [[Stefan Nielsen]]・[[Edoardo Cetin]]・[[Yujin Tang]]（[[Sakana AI]]）ほかによる ICLR 2026 論文。強化学習（GRPO）で訓練した7B ConductorがGPQA Diamond 87.5%・LiveCodeBench 83.93%でGPT-5を超えSOTAを達成。自然言語で任意のマルチエージェント協調戦略を記述・学習する新手法。(paper / llm / multi-agent / reinforcement-learning) ### 2026-06-23 JustDiag (arXiv 2026) - [[@2026__arXiv__JustDiag! A Diagnostic Justification Engine for Accountable Root Cause Analysis]] — [[Tingzhu Bi]]・[[Xinrui Jiang]]・[[Xun Zhang]]・[[Pengcheng Su]]・[[Congjie He]]・[[Jinglin Li]]・[[Ping Wang]]・[[Meng Ma]]([[Peking University]] / [[University of Edinburgh]] / [[Beijing University of Posts and Telecommunications]])による arXiv 2026 論文。説明責任ある RCA のための診断的正当化エンジン JustDiag を提案。証拠・発見・競合仮説・矛盾・次の確認事項を明示的なプロセス状態として維持し、Outcome Score 51.0→57.7 / Process Score 44.0→50.5(対 DJ なし制御群)を達成。(paper / aiops / rca / accountability) ### 2026-06-23 SRE NEXT 2023 Runbook スライド - [[@2023__SpeakerDeck__Runbookに何を書き、どのようにアラートを振り分けるか]] — [[Sohei Iwahori]]([[GREE, Inc]])による SRE NEXT 2023 発表資料。エスカレーション先向け Runbook を「アラートの背景・文脈・判断材料」を残す仕組みとして整備し、アラート追加時に通知チャンネル・対応タイミング・スコープ・対応 Runbook を明示させるガイドラインを提示。(slides / sre / alert-management / runbook) ### 2026-06-23 mABC (EMNLP Findings 2024) - [[@2024__EMNLP Findings__mABC - Multi-Agent Blockchain-inspired Collaboration for Root Cause Analysis in Micro-Services Architecture]] — [[Wei Zhang (Beihang)]]・[[Hongcheng Guo]]（[[Beihang University]] / [[Cloudwise]] Research）ほかによる EMNLP Findings 2024 論文。7 専門エージェントと blockchain-inspired 投票でマイクロサービス RCA を行う mABC を提案。GPT-4-Turbo ベースで ReAct を平均 +8.4 ポイント上回り、マルチエージェント役割分担がモデル規模を超える性能向上をもたらすことを実証。(paper / aiops / rca / multi-agent / llm) ### 2026-06-23 Cognitive Apprenticeship in Practice (SREcon23 Americas) - [[@2023__SREcon23 Americas__Cognitive Apprenticeship in Practice with Alert Triage Hour of Power]] — [[Paige Cruz]]（[[Chronosphere]]）による SREcon23 Americas 発表。Alert Triage Hour of Power の設計・運用・学びを共有し、認知的徒弟制の 6 段階（Modeling→Coaching→Scaffolding→Articulation→Reflection→Exploration）との対応を示す。KEEP/TUNE/DELETE の集団判定によるアラート衛生と、オンコールスキルの体系的伝達を両立する実践。(slides / sre / on-call / alert-management / cognitive-apprenticeship) ### 2026-06-23 Dark Sky Camping (SREcon22 Americas) - [[@2022__SREcon22 Americas__Dark Sky Camping - Reducing Alert Pollution with Modern Observability Practices]] — [[Kristin Smith]]（[[Campspot]] DevOps Services リード）による SREcon22 Americas 発表。パンデミック期の急成長でアラート増設が逆効果（アラートポリューション）になった事例と、Honeycomb + OpenTelemetry + SLO への移行による回復を、光害のアナロジーで説明。OpenTelemetry 自動計装は 4 時間で完了、SLO 導入では営業チームとの早期コミュニケーション不足が組織的摩擦を生んだ教訓。(slides / sre / alert-management / observability / slo) ### 2026-06-23 Monitoring Cloudflare's Planet-Scale Edge Network (SREcon17 Europe) - [[@2017__SREcon17 Europe__Monitoring Cloudflare's Planet-Scale Edge Network]] — [[Matt Bostock]]（[[Cloudflare]]）による SREcon17 Europe 発表。116 PoP のエニーキャストエッジネットワークを Nagios から Prometheus へ移行した 18 か月の経験。各 PoP に独立 Prometheus を配置しコアへフェデレーションで集約するアーキテクチャ、症状ベースアラーティングの組織的推進、PagerDuty ドリルテスト。(video / sre / prometheus / monitoring / alerting) ### 2026-06-23 Anomaly Detection in Infrequently Occurred Patterns (SREcon17 Americas) - [[@2017__SREcon17Americas__Anomaly Detection in Infrequently Occurred Patterns]] — [[Dong Wang]]（[[Baidu]]）による SREcon17 Americas 発表。中国の祝日（太陰暦で毎年日付が変動）のトラフィック異常検知で従来手法が破綻する問題に対し、日次トラフィック CDF の k-means クラスタリングとリアルタイム比率補正の 2 段階手法を本番投入。(slides / sre / anomaly-detection / baidu) ### 2026-06-23 Introduction to Alibaba Monitoring System (SREcon18 Asia) - [[@2018__SREcon18 Asia__Introduction to Alibaba Monitoring System]] — [[Ren Xinchi]]（[[Alibaba Group]] GOC）による SREcon18 Asia 発表。4 層モニタリング構造でビジネスレイヤを最重要と位置づけ、5 ゴールデンエレメントと CMDB [[Hammurabi]] でビジネス KPI・優先度・担当者を一元管理。変更相関（70% が変更起因）と次元分析で迅速な障害復旧を実現。(video / sre / monitoring / alibaba) ### 2026-06-24 OncallX (ASE 2025) - [[@2025__ASE__LLM-Powered Multi-Agent Collaboration for Intelligent Industrial On-Call Automation]] — [[Ruowei Fu]]・[[Shenglin Zhang]]（[[Nankai University]]）/ Yang Zhang・[[ByteDance]] ほかによる ASE 2025 論文。LLM × マルチエージェント協調でオンコール自動化を実現する [[OncallX]] を提案。ユーザー意図強化（RAG + ClarifyAgent 多ターン対話）・木探索マルチエージェント QA（OCEAgent + 専門エージェント群）・KG 拡張チケットトリアージの 3 モジュール構成。ByteDance 本番 2 か月で対応 21 秒（789 倍高速）・トリアージ 4 秒（50 倍高速）を達成。(paper / aiops / llm / multi-agent / on-call) ### 2026-06-26 VCCL (arXiv 2026) - [[@2026__arXiv__An Efficient, Reliable and Observable Collective Communication Library in Large-scale GPU Training Clusters]] — [[Mingjun Zhang]]・Xiaohe Hu ほか([[Infrawaves]] / [[Beihang University]] / [[Tsinghua University]] ほか)による arXiv 2026 論文。NCCL を置き換える大規模 GPU 訓練向け集合通信ライブラリ VCCL を提案。①SM-free P2P(CPU スレッド+コピーエンジン、カーネル起動ゼロ)、②プライマリバックアップ QP(NIC 障害透過的吸収)、③スライディングウィンドウ RDMA モニタ(O(μs) 異常検知)の三機構で訓練スループット平均 4.00%/最大 5.28% 向上・GPU 待機時間約 90% 削減を 24K GPU 本番で達成。(paper / distributed / gpu-training / collective-communication / rdma / fault-tolerance) ### 2026-06-27 AIOps RCA/FI/OpsQA 7 papers batch ingest - [[@2024__ICWS__G-Cause - Parameter-free Global Diagnosis for Hyperscale Web Service Infrastructures]] — Xinrui Jiang ほか（清華大学 / Huawei Cloud）。ハイパースケール Web 基盤のパラメータフリー全体診断フレームワーク。因果グラフと障害伝播モデルを用いた根本原因箇所特定。(paper / aiops / rca / causal-graph) - [[@2024__KDD__FaultInsight - Interpreting Hyperscale Data Center Host Faults]] — Tingzhu Bi ほか（Microsoft / Tsinghua University）。ハイパースケールデータセンターのホスト障害を解釈可能に診断するフレームワーク。(paper / aiops / fault-diagnosis / datacenter) - [[@2024__ISSRE__LoFI - Demystifying and Extracting Fault-indicating Information from Logs for Failure Diagnosis]] — Zhihan Jiang ほか（CUHK / WeBank）。ログからの障害指示情報抽出。スパン予測モデルで障害関連ログセグメントを抽出。(paper / aiops / log-analysis / fault-diagnosis) - [[@2025__ASE__iKnow - an Intent-Guided Chatbot for Cloud Operations with Retrieval-Augmented Generation]] — Guangba Yu ほか（SYSU / CUHK）。意図誘導型クラウド運用チャットボット。RAG ベースの OpsQA。(paper / aiops / opsqa / rag) - [[@2024__ISSRE__SparseRCA - Unsupervised Root Cause Analysis in Sparse Microservice Testing Traces]] — Zhenhe Yao ほか（清華大学 / Ant Group / CAS / ByteDance）。テスト環境の疎トレースに対する教師なし RCA。排他レイテンシ分解 + パーソナライズド PageRank。A@1=66.1%, A@5=88.1%。(paper / aiops / rca / microservice / testing) - [[@2024__DSN-S__Fault Localization Using Interventional Causal Learning for Cloud-Native Applications]] — Saurabh Bagchi ほか。介入的因果学習によるクラウドネイティブアプリケーションの障害箇所特定。CausalBench ベンチマーク提案。(paper / aiops / fault-localization / causal-learning) - [[@2024__ISSRE__Guardian of the Resiliency - Detecting Erroneous Software Changes Before They Make Your Microservice System Less Fault-Resilient]] — Guanglei He ほか。マイクロサービスの障害耐性を劣化させるソフトウェア変更を事前検知。ResilienceGuardian。(paper / aiops / microservice / resilience / change-detection) ### 2026-06-26 SREはサイバネティクスの夢をみるか (IOTS2025) - [[@2025__IOTS2025__SREはサイバネティクスの夢をみるか]] — [[坪内佑樹]]（[[さくらインターネット研究所]]）による IOTS2025 招待講演。SRE を[[サイバネティクス]]的に再解釈し、フィードバックループ・セカンドオーダー・創発の 3 概念で利用者・情報システム・開発運用者の総体を捉えるモデルを提示。博士論文のテレメトリスケーリング 3 貢献を俯瞰し、[[なめらかなシステム]]・[[セルフクラフト]]・[[自動化の皮肉]]を経由して AI 時代の SRE 像を論じる。(slides / sre / systems-theory / cybernetics) ### 2026-06-25 Symptom-based Alerting for Machine Learning (SREcon23 EMEA) - [[@2023__SREcon23 EMEA__Symptom-based Alerting for Machine Learning]] — [[Lina Weichbrodt]]（ML フリーランス・コンサルタント、元 [[Zalando SE|Zalando]]）による SREcon23 EMEA 発表。SRE の症状ベースアラーティングを ML サービスに転用し、出力側から逆順に 3 段階の監視優先度（ユーザー影響 → 応答分布 → 入力データ）を割り当てるフレームワークを提示。30 以上の ML ユースケース運用経験に基づく。(slides / sre / ml-monitoring) ### 2026-06-26 再帰化への認知的転回 (ペパボテックカンファレンス 2022) - [[@2022__ペパボテックカンファレンス__再帰化への認知的転回]] — [[三宅悠介]]（[[GMOペパボ]]）によるペパボテックカンファレンス(2022-03-11)発表。「再帰化」すなわちサービスがユーザインタラクションのフィードバックを取り込んで自己改修するプロセスを、「関数の設計から系の設計への認知的転回」として定式化し、[[なめらかなシステム]]との接続を論じた。(slides / systems-design / machine-learning / なめらかなシステム) ### 2026-06-26 とあるSREの博士「過程」 (SRE NEXT 2025) - [[@2025__SRE NEXT 2025__とあるSREの博士「過程」]] — [[坪内佑樹]]（[[さくらインターネット研究所]]、[[Kyoto University|京都大学]]博士）による SRE NEXT 2025 IN TOKYO（2025-07-11）発表。SRE として博士課程に進学した動機、3 つの個別研究(HeteroTSDB / Transtracer / MetricSifter)を "Scaling Telemetry Workloads" として体系化した経緯、「作る側になりたい」→「積み重ねていきたい」へのメンタルモデル転換を語った。(slides / sre / phd / telemetry) ### 2026-06-26 なめらかなシステムと運用維持の終わらぬ未来 (DICOMO2025) - [[@2025__DICOMO2025__なめらかなシステムと運用維持の終わらぬ未来]] — [[三宅悠介]]（[[GMOペパボ]]）による DICOMO2025 IOT 統一テーマセッション招待講演(2025-06-27)。「なめらかなシステム」を 2018 年定義から 7 年ぶりに再定義（仮）し、τέλος(目的)の転回・エフェクチュエーション・AI エージェントネットワークによる意味の翻訳と関係性の媒介を構想した。(slides / systems-design / なめらかなシステム / effectuation) ### 2026-06-27 The Morning Paper on Operability (blog.acolyer 2016) - [[@2016__blog.acolyer__The Morning Paper on Operability]] — [[Adrian Colyer]]（Accel / 元 Pivotal CTO）による講演記事。The Morning Paper の 400+ 論文レビューから運用性に関わる知見を横断集約。Hamilton の「80% は設計に起因」、Mystery Machine、Failure Sketching、Delta Debugging、HDD、DEMi、FDD、Cook の How Complex Systems Fail を 4 段階モデル（設計→可視化→デバッギング→フィードバック）で構成。(article / operability / sre / debugging) ### 2026-06-26 デバッギング・性能解析・フィードバック 6 論文一括 ingest - [[@2002__IEEE TSE__Simplifying and Isolating Failure-Inducing Input]] — [[Andreas Zeller]]・Ralf Hildebrandt（Universität des Saarlandes / DeTeLine）による IEEE TSE 2002 論文。ddmin アルゴリズム（障害誘発入力の 1-最小簡略化）と dd アルゴリズム（1-最小障害誘発差分の分離）を提案。GCC 755→77 文字、Mozilla 896→1 行 HTML に簡略化。自動デバッギングの基礎的業績。(paper / debugging / testing) - [[@2006__ICSE__HDD - Hierarchical Delta Debugging]] — [[Ghassan Misherghi]]・[[Zhendong Su]]（UC Davis）による ICSE 2006 論文。デルタデバッギングを木構造入力に拡張。入力の構文木をレベルごとに ddmin 適用し、平坦な ddmin 比でテスト回数を桁違いに削減。XML・CSS・SQL への事例研究。(paper / debugging / testing) - [[@2025__TOSEM__A Survey on Failure Analysis and Fault Injection in AI Systems]] — [[Guangba Yu]]・[[Pengfei Chen]]・[[Roberto Natella]]・[[Michael R. Lyu]] ほか（SYSU / Naples / CUHK）。AI システムの6層にわたる障害分析(FA)と障害注入(FI)を142本の論文から体系化した初の包括的サーベイ。各層の FA/FI ギャップを定量化。(paper / survey / fault-injection / aiops) - [[@2014__OSDI__The Mystery Machine - End-to-end Performance Analysis of Large-scale Internet Services]] — [[Michael Chow]]・[[David Meisner]]・[[Jason Flinn]]・[[Thomas F. Wenisch]]（University of Michigan / Facebook）による OSDI 2014 論文。Facebook のエンドツーエンド性能解析ツール。既存トレーシング（Dapper / X-Trace）の計装負担なしに、UberTrace ログから因果関係を仮説検証で自動推定。クリティカルパス・slack 解析でページロード遅延を 300ms 以上削減。(paper / performance-analysis / distributed-tracing) - [[@2015__SOSP__Failure Sketching - A Technique for Automated Root Cause Diagnosis of In-Production Failures]] — [[Baris Kasikci]]・[[Benjamin Schubert]]・[[George Candea]]（EPFL / Cristian Zamfir @ Google）による SOSP 2015 論文。Gist は本番環境の障害を協調解析で「failure sketch」（障害の近似ルートコーズ）に要約する手法。ハードウェアウォッチポイント活用で性能オーバーヘッド 2.4%。11 件の実バグで 8 件を完全診断。(paper / debugging / root-cause-analysis) - [[@2015__Onward!__Runtime Metric Meets Developer - Building Better Cloud Applications using Feedback]] — [[Jürgen Cito]]・[[Philipp Leitner]]・[[Harald C. Gall]]（University of Zurich）ほかによる Onward! 2015 論文。フィードバック駆動開発（FDD）のビジョン。ランタイムメトリクスを開発者の IDE に直接統合し、パフォーマンス意識の喪失（performance-awareness gap）を埋める。CloudWorkBench によるベンチマーク自動化の実装。(paper / software-engineering / devops / feedback) - [[@2016__NSDI__Minimizing Faulty Executions of Distributed Systems]] — [[Colin Scott]]・Aurojit Panda・[[Scott Shenker]]（UC Berkeley / ICSI）ほかによる NSDI 2016 論文。デルタデバッギングを分散システム実行に拡張する DEMi。外部イベント（障害注入）と内部イベント（メッセージ送受信）を区別し、スケジュール探索で最小化。Raft・Spark・Akka の 7 バグで実行イベント 1~2 桁削減。(paper / distributed-systems / debugging / testing) - [[@2025__YAPC Fukuoka 2025__SREのためのテレメトリー技術の探究]] — [[坪内佑樹]]（[[さくらインターネット研究所]]）YAPC::Fukuoka 2025 ゲストセッション（2025-11-14）。テレメトリー技術探究 12 年間を 5 章構成で総括。博士論文コアコンセプト Scaling Telemetry Workloads と今後 4 方向（SDGs / AI for SRE / Observability for AI Systems / Controllability）。(slides / sre / telemetry) - [[@2019__SREcon19Americas__Running Excellent Retrospectives - Talking for Humans]] — [[Courtney Eckhardt]]（[[Heroku]]）・[[Lex Neva]]（[[Fastly]]）による SREcon19 Americas（2019-03-26）90 分チュートリアル。ファシリテーターの3仕事（ファシリテーション・生産的会議運営・ユーモア失敗回避）、言語レベルの blame 回避（you/why/always/never/should 禁止）、Miller の法則、ローカル合理性、Lake Washington 浮橋事例、Conway's Law の帰結を体験型形式で伝える。(slides / sre / postmortem / facilitation / human-factors) - [[@2019__SREcon19 Asia__Retrospectives for Humans (a crash course)]] — [[Courtney Eckhardt]]（[[Heroku]] / Salesforce）による SREcon19 Asia/Pacific（2019-06-12）発表。ポストモーテム会議でのファシリテーション言語を言語学（Miller's Law・denotation/connotation・implication/presupposition）から体系化。contributing factor discovery・「Why/You→How/What 変換」・ユーモアのリスク・Conway's Law 接続。(slides / sre / postmortem / facilitation / human-factors) - [[@2019__SREcon19 Asia__A Tale of Two Postmortems - A Human Factors View]] — [[Tanner Lund]]（Microsoft Azure PRSE）による SREcon19 Asia/Pacific 発表。Dekker(2015)の4目的枠組み(認識論的・予防的・道徳的・実存的)を導入し、「ヒューマンエラーは分析の行き止まり」「規範的言語=後知恵バイアス+非難」と従来型ポストモーテムを批判。Human Factors/Resilience Engineering 流の個別インタビュー→デブリーフィング手法を対案として示す。(slides / sre / postmortem / human-factors) - [[@2016__SREcon16Europe__Accident Models in Post Mortems]] — [[Will Gallego]]・[[Nathan Hoffman]]・[[Miriam Lautner]]（[[Etsy]]）によるSREcon16 Europe（2016年7月、ダブリン）2部構成チュートリアル。事故モデル系譜（Bad Apples/ドミノ/スイスチーズ）・ヒューマンエラー批判・安全性の創発的特性・ブレーム認識・デブリーフィング7カテゴリ問いかけ手法。(slides / sre / postmortem / accident-models) - [[@2019__SREcon19Asia__Getting More out of Postmortems and Making Them Less Painful to Do]] — [[Ashar Rizqi]]（[[Blameless]]）SREcon19 Asia/Pacific 発表。300 社以上の事例からポストモーテム成功の6要素（所有権・コンテキスト & KD・期日内完了・AI 完了追跡・ブレームレス言語・再参照性）を体系化。各要素の困難な理由と解決策をケーススタディ形式で提示。再参照性は今も未解決問題として残ると認める。(slides / sre / postmortem) - [[@2015__SREcon15__What Brought Us Down - Outage Trend Analysis at Google]] — [[Sue Lueder]]（[[Google]] SRE Program Manager）、SREcon 2015。全プロダクション障害横断 GQM 分析プログラム・8 フェーズインシデントタイムライン・9 カテゴリ根本原因・4 次元重大度フラグ・3 方向修正機会を公開。(slides / sre / incident-management) - [[@2023__SREcon23Americas__Turning an Incident Report into a Design Issue with TLA+]] — [[Finn Hackett]]（UBC）・[[Markus A. Kuppe]]（MSFT）SREcon23 Americas（2023-03-22）発表。Azure CosmosDB の 28 日間インシデントを事例に、インシデントレポートを TLA+ フォーマルモデルへと変換するワークフローを提示。Session Consistency のトークン共有不備が根本原因。(slides / sre / formal-verification / distributed-systems) - [[@2023__SREcon23Americas__Far from the Shallows]] — [[Courtney Nash]]（[[Verica]]）SREcon23 Americas（2023-03-23）発表。Duration/MTTR・Severity・Root Cause という慣習的指標を「shallow data」として批判し、インシデントストーリー・Near Misses・Rasmussen の Safety Boundaries を代替的分析枠組みとして提示。The Void（1 万件超の公開インシデントレポート DB）を出典とする。(slides / sre / postmortem / incident-management / human-factors) #### インシデントキーメトリクスによるインシデント対応の改善 (SRE Kaigi 2025) (2026-06-28) - [[@2025__SRE Kaigi 2025__インシデントキーメトリクスによるインシデント対応の改善]] — [[Narimichi Takamura]]（[[Topotal]] CEO / SRE）、SRE Kaigi 2025（2025-01-26）発表。MTTR がモンテカルロシミュレーション（10 万回）で改善評価指標として統計的に機能しないことを実証し、TTX メトリクス（11 種類）の実践的定義と [[Waroom]] での自動収集実装を提示。(slides / sre / incident-management / metrics) #### Human Factors in the Age of AI Ops (SREcon26 Americas) (2026-06-28) - [[@2026__SREcon26Americas__Human Factors in the Age of AI Ops]] — [[Eddie Redick]]（[[CTC Ops]]）SREcon26 Americas（2026-03-25、Seattle）発表。16%/68%/62% の信頼パラドックス・Trust Triangle（Logic/Empathy/Authenticity）・Trust Spectrum（Observe/Advise/Assist/Partner）・"Commanding the Chaos" フレームワーク・AI Ops 80/20 の法則（80% 業務再設計）を提示。アラート疲労を「システム問題」として再フレーミング。(slides / sre / aiops / human-factors / trust) #### The Ironies of AI² (SREcon26 Americas) (2026-06-28) - [[@2026__SREcon26Americas__The Ironies of AI²]] — [[J Paul Reed]]（[[Chime]]）SREcon26 Americas（2026-03-25、Seattle）発表。Bainbridge（1983）の自動化のアイロニー6項をAI時代に拡張し、Joint Cognitive System 5特性（Autonomy・Authority・Directed Attention・Redirectability・Interpredictability）でインシデント対応中のAI利用を評価。匿名インシデント事例3件・ETO（効率性‐徹底性トレードオフ）・看護師実験（AI誤り多時に96〜120%性能悪化、AI説明のみ条件で緩和）を提示。(video / sre / human-factors / incident-response / ai-automation) #### The Power of Stories (SREcon26 Americas) (2026-06-28) - [[@2026__SREcon26Americas__The Power of Stories]] — [[Lorin Hochstein]]（[[Airbnb]]）SREcon26 Americas クロージングキーノート。インシデントストーリーが箇条書きより記憶に定着する理由、有用なストーリーの 2 条件(anomalous + immutable / Gelman & Basbøll)、ポストモーテムの narrative description 重視、逸脱の正常化(Vaughan/Challenger)の SRE への接続、Airbnb「Once Upon an Incident」の実践を論じた。(video / sre / incident-management / postmortem / human-factors) #### Incident Metrics in SRE (O'Reilly, 2021) (2026-06-28) - [[@2021__OReilly__Incident Metrics in SRE]] — [[Štěpán Davidovič]]（[[Google]] SRE）、O'Reilly レポート（2021-03-19）。モンテカルロシミュレーション（10 万回）と 3 社の実インシデントデータ・Google 社内データを用いて MTTR を批判的に評価。中央値・幾何平均・パーセンタイルを含む代替統計でも問題が解決しないことを示し、問いに合わせたメトリクス・ユーザースタディ・SLI/SLO を代替として提案。(paper / sre / incident-management / metrics) #### Postmortem as a textbook (SpeakerDeck, 2023-02-09) (2026-06-28) - [[@2023__SpeakerDeck__Postmortem as a textbook]] — [[KATO Toshiya]]（[[LINE株式会社]] Embedded SRE）、みんなで学ぶポストモーテム Lunch LT（Findy、2023-02-09）。ポストモーテムを「他チームが学べる教材」にするためのSRE主導執筆会議手法を報告。5つの構造的省略問題を特定し、全体共有前30分のSRE主導執筆会議で解決。品質向上と共有会議時短を同時達成。(slides / sre / postmortem / incident-management) #### 縮約，網羅，減算：科学者の仕事とは何か (認知科学 2021) (2026-06-28) - [[@2021__認知科学__縮約，網羅，減算：科学者の仕事とは何か]] — [[岡ノ谷一夫]]（[[東京大学]]）、認知科学 Vol.28 No.2 pp.236–241（2021-06-01）。池上高志「生命としての認知科学」へのコメンタリー。縮約(次元圧縮・個体発生的)・網羅(仮説なし包括計測・2000年代以降)・減算(Uexküll 環世界的選択的遮断・系統発生的)を三項対立で整理し、認知科学は縮約と減算の並行処理にならざるを得ないと結論づける。(paper / cognitive-science / philosophy-of-science) #### Data Center Networking 基盤論文 5 本 (2026-06-29) - [[@2008__SIGCOMM__A Scalable Commodity Data Center Network Architecture]] — [[Mohammad Al-Fares]] ほか（[[Amin Vahdat]]、UCSD）、SIGCOMM 2008。安価な商用スイッチによる k-ary Fat-Tree トポロジで full bisection bandwidth を実現。二段経路探索で転送表エントリをスイッチあたり k 以内に抑制。27,648 ホスト・従来比 77% コスト削減。(paper / networking / datacenter) - [[@2009__SIGCOMM__VL2 - A Scalable and Flexible Data Center Network]] — [[Albert Greenberg]] ほか（Microsoft Research）、SIGCOMM 2009。Clos トポロジと Valiant Load Balancing で uniform high capacity を実現。IP-in-IP カプセル化とディレクトリサービスでネットワーク仮想化。(paper / networking / datacenter) - [[@2010__NSDI__Hedera - Dynamic Flow Scheduling for Data Center Networks]] — [[Mohammad Al-Fares]] ほか、NSDI 2010。ECMP のハッシュ衝突によるエレファントフロー帯域損失（最大 60.8%）を動的フロースケジューリングで解決。Simulated Annealing で最適比 96% の二分帯域幅達成。(paper / networking / datacenter) - [[@2009__SIGCOMM__PortLand - A Scalable Fault-Tolerant Layer 2 Data Center Network Fabric]] — [[Radhika Niranjan Mysore]] ほか、SIGCOMM 2009。PMAC アドレスとファブリックマネージャで L2 セマンティクスを維持しつつスケーラブルなデータセンターファブリックを実現。65ms 障害収束。(paper / networking / datacenter) - [[@2010__SIGCOMM__Data Center TCP (DCTCP)]] — [[Mohammad Alizadeh]] ほか、SIGCOMM 2010。ECN マーキング割合から輻輳度を推定し段階的ウィンドウ調整。TCP コード変更 30 行でデータセンターの Incast・キュー蓄積・バッファ圧迫を同時解決。(paper / networking / datacenter / congestion-control) #### Spanner: Google's Globally Distributed Database (OSDI 2012 / TOCS 2013) (2026-06-28) - [[@2013__TOCS__Spanner - Google's Globally Distributed Database]] — [[James C. Corbett]] ほか([[Google]], 2013)。OSDI 2012 論文の TOCS 拡張版。世界規模の外部一貫性のある分散トランザクションを実現する最初のシステム。TrueTime API(GPS + 原子時計による不確実性区間)を使った commit wait で外部一貫性を数学的に保証。ε 通常 4ms、commit wait ≥ 2ε。ディレクトリが配置・移動の単位。スナップショットトランザクションはロックフリー。F1(Google 広告バックエンド)が最初のクライアント。(paper / distributed / database / systems) #### Memory in the Age of AI Agents (arXiv 2025) (2026-06-29) - [[@2025__arXiv__Memory in the Age of AI Agents]] — [[Yuyang Hu]] ほか 47 名（[[National University of Singapore]] 等、2025-12-18）。LLM ベースエージェントのメモリシステムを形態(Forms)・機能(Functions)・動態(Dynamics)の 3 軸で統一的に分類する 107 ページのサーベイ。トークンレベル・パラメトリック・潜在メモリの 3 形態、事実・経験・作業メモリの 3 機能、形成・進化・検索の 3 動態を体系化。300 以上の文献を整理し 7 つのフロンティアを提示。(paper / agent-memory / llm / survey) #### Project Silica: Towards Sustainable Cloud Archival Storage in Glass (SOSP 2023) (2026-06-29) - [[@2023__SOSP__Project Silica - Towards Sustainable Cloud Archival Storage in Glass]] — [[Antony Rowstron]] ほか 57 名([[Microsoft]], 2023)。溶融石英ガラス媒体を基盤とした初のクラウドアーカイバルストレージシステム Silica の設計・プロトタイプ実証。フェムト秒レーザー書き込み + 偏光顕微鏡読み出しの WORM 媒体、1000 年超耐久性でスクラビング・リフレッシュ不要。論理パーティション分割型シャトル管理で輻輳を 10% 以内に抑制し SP 対比 20〜90% 省電力。30 MB/s ドライブで IOPS ワークロードの SLO を達成。(paper / storage / cloud / systems / sustainability) #### Case Study: Implementing SLOs for a New Service (SREcon19 Americas) (2026-06-29) - [[@2019__SREcon19Americas__Case Study - Implementing SLOs for a New Service]] — [[Arnaud Lawson]]（[[Squarespace]] Senior SRE）、SREcon19 Americas（2019-03-25）。Ceph Object Storage への SLO 実装 6 ステップ（SLI 種別決定・SLI 定義・計測方法選択・SLI 収集・エラーバジェット導出・公開）を解説。可用性 99.9%・レイテンシ p90<300ms/p99<2000ms・耐久性 99.999999% の 3 種 SLO と Go プローバーによる能動的計測実装を含む。(slides / sre / slo / srecon) #### Quantifying Empathy Through Service Level Objectives (SREcon18 Asia/Pacific, 2018) (2026-06-29) - [[@2018__SREcon18Asia__Quantifying Empathy Through Service Level Objectives]] — [[Ketan Gangatirkar]]（[[Indeed]] VP of Engineering – Job Seeker）、SREcon18 Asia/Pacific（2018 年）。SLO 設計を「共感の数値化」として捉え直し、ユーザー幸福の 6 フレーバー（#ARFCAapBof）と S 字曲線による痛みのしきい値特定の 5 ステップフレームワークを提示。152 ページスライド + YouTube 自動字幕トランスクリプト。(slides / sre / slo / user-empathy) #### How to SRE When Everything is Already on Fire (SREcon19 EMEA) (2026-06-30) - [[@2019__SREcon19EMEA__How to SRE When Everything is Already on Fire]] — [[Alex Hidalgo]]・[[Alex Lee]]（[[Squarespace]] SRE）、SREcon19 EMEA（2019-10）。ELK スタックの連続インシデントを SRE 7 原則（アラート精選・SLI/SLO/エラーバジェット・オブザーバビリティ強化・環境改善・ICS 適用・ポストモーテム・反復改善）で転換した実録。SLO 定義の翌日エラーバジェット枯渇で「全力対処の許可」を得た事例・37 時間インシデントでの ICS 引き継ぎ実践・シャード数 2,200 → 推奨上限 600 の根本原因特定を含む。105 ページ PDF。transcript なし。(slides / sre / alerting / slo / incident-management / postmortem) #### The Map Is Not the Territory: How SLOs Lead Us Astray, and What We Can Do about It (SREcon19 EMEA) (2026-06-30) - [[@2019__SREcon19EMEA__The Map Is Not the Territory - How SLOs Lead Us Astray, and What We Can Do about It]] — [[Narayan Desai]]（[[Google]] SRE）、SREcon19 EMEA（2019-10-03、Dublin）。SLO の 4 ユースケース（Ongoing / Design / Incident Response / Bounding the Tail）分類、暗黙的仮定の明示化（独立リクエスト・均一重要度・均一エラー）、テール管理への SLO 不適用論（サンドバッギング問題）、SLO Algebra の未解決問題を論じる。45 分動画 + 自動字幕 transcript。(video / sre / slo / srecon) #### Not All Minutes Are Equal: The Secret behind SLO Adoption Failure (SREcon23 Americas) (2026-06-30) - [[@2023__SREcon23Americas__Not-All-Minutes-Are-Equal]] — [[Troy Koss]]・[[Michael Goins]]（[[Capital One]]）、SREcon23 Americas（2023-03-23）。時間スライス SLO とイベントベース SLO の比較を軸に SLO 採用失敗の構造的原因を解説。採用ロードマップ 6 段階（Study → Experiment → Fix → Understand Signals → Fanfare & Action → Scale）、Default SLO 式、エラーバジェットシグナルの読み方を提示。40 ページ PDF。transcript なし（Whisper 失敗・YouTube 429）。(slides / sre / slo / error-budget / srecon) #### HPC Downtime Budgets: Moving SRE Practice to the Rest of the World (SREcon16 Europe) (2026-06-30) - [[@2016__SREcon16Europe__HPC Downtime Budgets]] — [[Cory Lueninghoener]]（[[Los Alamos National Laboratory]]）、SREcon Europe 2016（2016-07-12、Dublin）。エラーバジェット概念を HPC（約 36,000 ノード・110 PB Lustre）に適応。四半期 30 時間のダウンタイム予算をバーンダウンチャートで可視化し、計画メンテ・施設工事・落雷・専用ユーザー時間・技術的負債解消の 5 用途に活用。Wolf クラスタ一晩停止で四半期予算を使い果たした事例が核心。SRE 普及はコミュニティ形成の課題と論じる。37 ページ + YouTube 自動字幕 transcript。(slides / sre / hpc / error-budget / srecon) #### Run, Walk, Crawl, or How We Failed Our Way to SLO Readiness (SREcon25 EMEA) (2026-06-30) - [[@2025__SREcon25EMEA__Run Walk Crawl or How We Failed Our Way to SLO Readiness]] — [[Rob Durst]]（[[Spring Health]]）、SREcon25 EMEA（2025-10-08、ダブリン）。ハイパーグロース・スタートアップにおける SLO 導入 4 度の挑戦と失敗、「SLO 準備度チェックリスト」4 条件と「信頼性イニシアチブ・フレームワーク」を提示。SLO 導入は社会技術問題であり socio 側が律速という主張が核心。51 ページ PDF。transcript なし。(slides / sre / slo / srecon) #### Measuring Availability the Player Focused Way (SREcon25 Americas) (2026-06-30) - [[@2025__SREcon25Americas__Measuring Availability the Player Focused Way - How Riot Games Changed Its Availability Culture]] — [[Maxfield Stewart]]（[[Riot Games]] Technical Director: Live Operations）、SREcon25 Americas（2025-03）。ゲームサービスの可用性をサービス稼働率ではなく「プレイヤー分（Player Minutes = SUM(CCU per minute)）の中断割合」で計測し、Player Journey（Connecting / Purchasing / Play）× P1-P4 優先度の組み合わせを共通言語として導入。CEO OKR 強制と月次レポートで文化定着を実現し、可用性 97-98% → 99%、Live Ops モラルスコア 1.5 → 4.3 を達成した 50 ページ PDF。transcript なし。(slides / sre / slo / gaming / srecon) #### X-lifecycle Learning for Cloud Incident Management using LLMs (FSE 2024) (2026-06-30) - [[@2024__FSE__X-lifecycle Learning for Cloud Incident Management using LLMs]] — [[Drishti Goel]]・[[Fiza Husain]]・[[Anjaly Parayil]]・[[Aditya Singh]]・[[Supriyo Ghosh]]・[[Xuchao Zhang]]・[[Chetan Bansal]]・[[Saravan Rajmohan]] ほか（[[Microsoft]]）。FSE 2024 Companion（ESEC/FSE '24、DOI:10.1145/3663529.3663861）。SDLC の複数段階にわたるデータ（サービス依存関係・機能説明）を LLM プロンプトに補完する X-lifecycle アプローチを実証。IC3(Teams バックエンド)の 353 インシデント・260 モニタで、InC DEP(インコンテキスト例 5 件 + 上流サービス説明)が BLEU +5〜38%・NUBIA +54.67% を達成。モニタ SLO 分類でサービス説明補完が accuracy 0.75→0.79。(paper / aiops / incident-management / llm / rca / microsoft) #### Keys to SRE (SREcon14, 2014) (2026-07-01) - [[@2014__SREcon14__Keys to SRE]] — [[Ben Treynor Sloss]]（[[Google]] VP Engineering）、SREcon14（2014-06-26）。SRE 創設者が「13 のキー」を SRE Book より 2 年早く初めて公開整理した基調講演。エラーバジェット・「ローンチオンブラック」ルール・運用 50% キャップ・5% 開発オンコール・移植可能性・Wheel of Misfortune・無責非難のポストモーテムが原型形態で提示されている。YouTube 自動字幕 transcript（~55 分 / 3303 秒）。映像フレーム未取得。(video / sre / error-budget / postmortem / srecon) #### Incident Management and Chatops @ Netflix Feat Scorebot (SREcon16, 2016) (2026-07-01) - [[@2016__SREcon16__Incident Management and Chatops @ Netflix Feat Scorebot]] — [[Al Tobey]]（[[Netflix]] SRE）、SREcon16（2016-03-16）。2015 年 12 月生まれの Go 製チャットボット Scorebot による ChatOps インシデント管理自動化。Hipchat → Slack 移行後の実践。bookmarking・presence・after-hours・secrets の 4 機能設計。代表フレーム 12 枚・音声取得済み・Whisper transcript 処理中。(video / sre / chatops / incident-management / netflix / srecon) #### Incident Response @ FB, Facebook's SEV Process (SREcon16 Europe, 2016) (2026-07-01) - [[@2016__SREcon16__Incident Response @ FB, Facebook's SEV Process]] — [[Gareth Eason]]（[[Facebook]] プロダクションレビュー(EMEA)運営者）、SREcon16 Europe（2016-07、Dublin）。「発見者=オーナー」原則・SEV1 意図的過大分類バイアス・IMOC の非技術的調整役割定義(blame umbrella / human mutex)・二段階レビューの3つの質問・メトリクスゲーミング警告・canary インシデント事例。代表フレーム6枚+YouTube自動字幕transcript。(video / sre / incident-management / facebook / srecon) #### Incident Response in Unfamiliar Sociotechnical Systems (SREcon20 Americas, 2020) (2026-07-01) - [[@2020__SREcon20Americas__Incident Response in Unfamiliar Sociotechnical Systems]] — [[Morgan Collins]]（[[Salesforce]] Principal SRE）、SREcon20 Americas（バーチャル開催、2020-12-07〜09）。ICS の起源(FIRESCOPE)・民間企業向け再編されたICS組織図・COVID-19下の組織間(inter-organizational)インシデント対応の課題・「Warm Blanket Fallacy」(熟練ICでも不慣れな連携では通用しない)を提示。16スライド。transcript なし。(slides / sre / incident-management / incident-commander / ics) #### When Systems Flatline—Enhancing Incident Response with Learnings from the Medical Field (SREcon21, 2021) (2026-07-01) - [[@2021__SREcon21__When Systems Flatline - Enhancing Incident Response with Learnings from the Medical Field]] — [[Sarah Butt]]（[[Salesforce]] SRE）、SREcon21（バーチャル開催、2021-10-14）。医療分野のアルゴリズム誘導意思決定(ACLS)・迅速安定化(ATLS)・標準化チェックリスト(WHO 手術チェックリスト)の3コンセプトを SRE インシデント対応に応用する提案。14スライド + 音声書き起こし。(slides / sre / incident-management / medical-analogy / srecon) #### Dashboards and Runbooks: Scrapbooking for Engineers (SREcon22 Asia/Pacific, 2022) (2026-07-01) - [[@2022__SREcon22APAC__Dashboards and Runbooks - Scrapbooking for Engineers]] — [[Colin Douch]]（[[Cloudflare]] Observability Platform Team Tech Lead）、USENIX SREcon22 Asia/Pacific（2022-12-07、シドニー）。ダッシュボード・ランブックの汎用化しすぎ／特化しすぎの二極化を「エンジニアのスクラップブッキング」と呼び、ランブックの3クラス(自動化可能/自由記述/無価値)分類・良いランブックの本質的な一時性・composability(Jsonnet/Pulumi)・SLI/SLO・discoverability/explorability への移行を提案。USENIX ページはログイン必須のため YouTube 上の同一動画から自動字幕 transcript と代表フレーム20枚を取得。(video / sre / dashboard / runbook / observability / srecon) #### Epic Incidents of History: The 1979 NORAD Nuclear Near Miss (SREcon23 Americas, 2023) (2026-07-01) - [[@2023__SREcon23Americas__Epic Incidents of History - The 1979 NORAD Nuclear Near Miss]] — [[Nick Travaglini]]（[[Honeycomb.io]] Technical Customer Success Manager）、USENIX SREcon23 Americas（2023-03-21、サンタクララ）。1979年 NORAD 核近接ミス事件を題材に、単一の根本原因ではなく Walker・Woods・Rayo の「複数の系統的寄与要因」の視座から、Vannevar Bush 主導の軍産学複合体("Iron Triangle")・SAGE・NORAD 427M システムへ至る計算機史とClosed World思考の圧力を分析。オペレーターのローカル合理性による誤警報看破の経緯を描く。34ページ + YouTube 自動字幕フォールバック transcript。(slides / sre / incident-management / human-factors / history-of-computing) #### Incident Commanders (SREcon23 Americas, 2023) (2026-07-01) - [[@2023__SREcon23Americas__Incident Commanders]] — [[Vanessa Huerta Granda]]・[[Emily Ruppe]]（[[Jeli]]）、USENIX SREcon23 Americas（2023年3月頃）。IC(Incident Commander)とインシデントアナリストを「似て非なる別々のスキルセット」と定義し、「指示を出さない・壊れたものを直さない」IC の核心と「事件がなぜそのように起きたかを調査する」アナリストの核心を対比。「インシデントのサイクル」ライフサイクル図・IC が事後検証も担うと社会技術的要因を見落とすリスク・IC の別名(Facilitator/Conductor/Sociotechnical Troubleshooter)を提示。代表フレーム12枚(全視聴確認済み) + YouTube 英語字幕。(video / sre / incident-management / incident-commander / srecon) #### If I Can Do It on an Ambulance, You Can Do It in an Office: Scalable Incident Response Using ICS (SREcon23 Americas, 2023) (2026-07-01) - [[@2023__SREcon23Americas__If I Can Do It on an Ambulance - Scalable Incident Response Using ICS]] — [[Thai Wood]]（元 EMT、[[Resilience Roundup]] 主宰の独立コンサルタント）、USENIX SREcon23 Americas（2023-03-23、Santa Clara, CA）。ICS(Incident Command System)全体ではなく最小限の「種」から始めるアプローチを提案し、「3つの帽子」(Organizer/Connector/Expert)モデルを対応に必須の core needs として再定義。「ランブックは安全を買えない(you cannot document your way to safety)」というランブック批判と、ゲームデイ・テーブルトップ演習による practice の重要性を主張。YouTube 自動字幕 transcript(34分) + 代表フレーム12枚。(video / sre / incident-management / incident-commander / runbook / srecon) #### The World Blew Up But We're All Okay: Managing a massive-scale incident at Datadog (SREcon23 EMEA, 2023) (2026-07-01) - [[@2023__SREcon23EMEA__The World Blew Up but We're All Okay - How We Managed a Massive-scale Incident at Datadog]] — [[Laurent Bernaille]]・[[Laura de Vesine]]（[[Datadog]]）、USENIX SREcon23 EMEA。2023年3月8日、Ubuntu の自動セキュリティ更新が誘発した systemd/networkd の経路フラッシュにより AWS・GCP・Azure 複数リージョンで Kubernetes ノードが同時多発的に接続不能になった大規模インシデントの技術的根本原因と、500人超・単一 Zoom 通話に14時間で493人参加という規模の組織的インシデント対応を発表。76ページ + Whisper 音声文字起こし(584行)。(slides / sre / incident-management / kubernetes / datadog / multi-cloud / srecon) #### The Incident Is The Way: Using Your Incidents to Win Reliability Investment (SREcon23 EMEA, 2023) (2026-07-01) - [[@2023__SREcon23EMEA__The Incident Is The Way - Using Your Incidents to Win Reliability Investment]] — [[Niall McCarthy]]（[[Afterpay]] エンジニアリングリーダー）、USENIX SREcon23 EMEA（2023-10-11、ダブリン）。マイクロサービス単位でなくユーザー視点の「ケイパビリティ」でシステムをマッピングする実践、インシデント対応にエンジニアリング以外の組織を「関連性」基準で巻き込む実践、可用性でなく正しさ(correctness)で害を定義する実践、意図でなく結果(consequence)で重大度を判断する実践の4つのホームワークを、インシデントを信頼性投資獲得の機会に変える方法として提示する15分のライトニングトーク。YouTube 自動字幕 transcript + 代表フレーム22枚。(video / sre / incident-management / reliability-investment / srecon) #### Hard Choices, Tight Timelines: A Closer Look at Tradeoff Decisions during Incidents (SREcon24 Americas, 2024) (2026-07-01) - [[@2024__SREcon24Americas__Hard Choices, Tight Timelines - A Closer Look at Tradeoff Decisions during Incidents]] — [[Laura Maguire]]（Trace Cognitive Engineering/OSU）・[[Courtney Nash]]（The VOID）、USENIX SREcon24 Americas（2024-03-19）。インシデント対応中のトレードオフ意思決定を組織階層をまたいで分析し、The Void データベースに欠けている「意思決定の推論過程」を vignette 法で補完。上級リーダー・マネジメント層・対応者という階層ごとに重視する軸が異なる skip-level tradeoff を提示。Datadog 実例(p.13)・役割別比較表(p.19)・組織図(p.43)・コスト便益分布表(p.46)を含む全61ページ。(slides / sre / incident-management / tradeoff / human-factors) #### Storytelling as an Incident Management Skill (SREcon24 Americas, 2024) (2026-07-01) - [[@2024__SREcon24Americas__Storytelling as an Incident Management Skill]] — [[Laura de Vesine]]（[[Datadog]] シニアスタッフエンジニア）、USENIX SREcon24 Americas（2024-03-20、サンフランシスコ）。Joseph Campbell の「英雄の旅」に代表される人物中心の物語形式を明示的に退け、因果の論理で出来事が連鎖する narrative を組み立てる技能が、オンコール準備・対応中の協調的ストーリーテリング・ポストモーテム作成のすべてを支えると論じる。「舞台設定→ドラマの追加→出来事の連鎖→対応の説明→修正計画」の5段階からなる「エンゲージングなポストモーテム」構成を提示。トラブルシューティングの経緯より出来事の連鎖を残すことを選ぶ理由(人間は直せないがシステムは直せるかもしれない)を明言。18ページ + Whisper 音声文字起こし。(slides / sre / incident-management / postmortem / srecon) #### The Critical Resource Is You: Practical Destressing for On-Call Engineers (SREcon26 Americas, 2026) (2026-07-01) - [[@2026__SREcon26Americas__The Critical Resource Is You - Practical Destressing for On-Call Engineers]] — [[Beth Adele Long]]（[[Continuous Re-integration]] / [[Adaptive Capacity Labs]]）、USENIX SREcon26 Americas（2026-03-24）。オンコール業務の慢性ストレス(ページャーを持つこと)と急性ストレス(インシデント対応)を ANS(自律神経系)の観点から分析し、Ordinary Mind / Sensory Mind の 2 モードと、身体知性に根ざした 4 つの実践ツール——Body Scan・Breath・Movement・Boredom——を提示。「ストレスは単なる負荷であり良くも悪くもない、健全なストレスはキャパシティを拡大する」という再フレーミングで締めくくる。43ページ、transcript なし。(slides / sre / on-call / stress-management / human-factors / srecon) #### Your System Has Recovered from an Incident, but Have Your Developers? (SREcon18 Americas, 2018) (2026-07-01) - [[@2018__SREcon18Americas__Your System Has Recovered from an Incident, but Have Your Developers]] — [[Jaime Woo]]（元 [[Shopify]] テクノロジーコミュニケーション責任者）、USENIX SREcon18 Americas（2018-03-27）。インシデント後のエンジニアの心理的回復を医師・コメディアン・オリンピアンの知見から論じる。Shopify の本番エンジニア 40 名の調査データ(42.5% がインシデント後に強いストレスを報告、80% がピアサポートをほぼ受けていない)を軸に、「人間向けのインシデントレスポンス」の設計を促す。39ページ、transcript なし。(slides / sre / incident-management / human-factors / post-incident / srecon) #### Epistemology of Incident Management (SREcon26 Americas, 2026) (2026-07-01) - [[@2026__SREcon26Americas__Epistemology of Incident Management]] — [[Jack Kingsman]]（[[Atlassian]] シニア SRE）、USENIX SREcon26 Americas（2026-03）。Google SRE Book の Incident Loop を 5 フェーズ（検知/宣言・生存/トリアージ・検査・診断・テスト/処置）に体系化し直し、証拠 2×2 マトリクス・3 種の探索パターン（Linear/Binary/Induced-Change）・仮説 3 条件（testable/relevant/specific）・テスト 6 基準（作用・相互排他・交絡排除・測定可逆・リスク管理・最小介入）を提案。"Incidents are all about knowledge" で締めくくる。49ページ + YouTube 英語自動字幕 transcript。CC-BY 4.0。(slides / sre / incident-management / troubleshooting / epistemology / srecon) #### Retrieval as Reasoning: Self-Evolving Agent-Native Retrieval via LLM-Wiki (arXiv, 2026) (2026-07-02) - [[@2026__arXiv__Retrieval as Reasoning]] — [[Haoliang Ming]] ほか（WeChat/Tencent）、arXiv 2026-05-26。Retrieval-as-Reasoning パラダイムを提唱し、文書を双方向リンク付き Wiki ページにコンパイル・エージェントが推論と連動して検索を制御する LLM-Wiki を実装。Error Book による自己修正機構を導入。HotpotQA・MuSiQue・2WikiMultiHopQA で SOTA（LightRAG 比 +2.0〜+8.1 F1）。(paper / nlp / rag / information-retrieval / multi-hop-qa / agentic) #### Machine Learning Fleet Efficiency: Improving TPU Systems at Scale with ML Productivity Goodput (MLSys 2026) (2026-07-02) - [[@2026__MLSys2026__Machine Learning Fleet Efficiency - Improving TPU Systems at Scale with ML Productivity Goodput]] — [[Arissa Wongpanich]] ほか（[[Google]]）、MLSys 2026 Industry Track（2026-05）。Capacity・Occupancy・Duty Cycle といった従来指標が ML フリートの「有用な仕事」を測れないことを指摘し、ML Productivity Goodput（MPG = Scheduling Goodput × Runtime Goodput × Program Goodput）を提案。Google TPU 本番フリートで全ジョブサイズ SG > 95%・非同期チェックポイント・AoT コンパイル・通信計算オーバーラップを実証。Program Goodput は roofline 効率でなく予測ステップ時間を分母に取ることでオペレーター融合余地を可視化する。(paper / distributed / machine-learning / systems-for-ml / tpu) #### POSTER: Vedrfolnir: RDMA Network Performance Anomalies Diagnosis in Collective Communications (SIGCOMM Posters and Demos 2025) (2026-07-06) - [[@2025__SIGCOMM__POSTER - Vedrfolnir - RDMA Network Performance Anomalies Diagnosis in Collective Communications]] — [[Yuxuan Chen]] ほか([[Menghao Zhang]] 対応著者、[[Beihang University]])、SIGCOMM Posters and Demos 2025。集合通信における RDMA NPA 診断システム Vedrfolnir。アルゴリズム分解→待機グラフ構築→ステップ認識型適応検知→マルチソースデータ融合の3段構成。[[Hawkeye]] 比 98% テレメトリ削減を NS3 評価で確認。(paper / networking / distributed / rdma / collective-communication) #### Beyond Throughput: Performance and Energy Insights of LLM Inference Across AI Accelerators (IPDPS 2026) (2026-07-06) - [[@2026__IPDPS__Beyond Throughput - Performance and Energy Insights of LLM Inference Across AI Accelerators]] — [[Giacomo Brunetta]] ほか（[[University of Illinois Chicago]] + [[Argonne National Laboratory]]）、IEEE IPDPS 2026。6 GPU(NVIDIA A100/H100/GH200, AMD MI250/MI300X, Intel Max 1550) + 2 データフローアクセラレータ(Cerebras CS-3, SambaNova SN40L) × 14 LLM の大規模比較実験。スループット・レイテンシ・TTFT・ITL・エネルギー効率を測定。(paper / aiinfra / llm / gpu / hpc / inference) #### AgentTether: Graph-Guided Diagnosis and Runtime Intervention for Reliable LLM Agent Operations (arXiv, 2026) (2026-07-13) - [[@2026__arXiv__AgentTether - Graph-Guided Diagnosis and Runtime Intervention for Reliable LLM Agent Operations]] — [[Chenyu Zhao]]・[[Shenglin Zhang]] ほか([[Nankai University]] / [[Tsinghua University]] / [[Microsoft]])、arXiv 2026-07-07。LLM エージェントの失敗実行を Transition Unit のグラフ(Critical Transition Graph)で診断し、保護付き実行時介入で修正を維持する実行時修復フレームワーク AgentTether。τ-bench 261 タスクで Banking の初回失敗タスクを Qwen3.7-max 59.04%・GPT-5.4 65.12% 修復(Blind retry 比 +26.02pp 全体)。根本原因は症状の中央値 4 ステップ上流にあり(最大 26)、一度きりの診断は再実行中に減衰する(tool-call ステップ 13 で追従率 50% を割る)ことを実証。(paper / agent / aiops / agent-repair / graph-rca) #### Integrating Large Language Models into Security Incident Response (USENIX SOUPS 2025) (2026-07-13) - [[@2025__SOUPS__Integrating Large Language Models into Security Incident Response]] — [[Diana Kramer]]・[[Lambert Rosique]]・[[Ajay Narotam]]・[[Elie Bursztein]]・[[Patrick Gage Kelley]]・[[Kurt Thomas]]・[[Allison Woodruff]]([[Google]] / [[DataPhant]])、USENIX SOUPS 2025(2025-08-11)。Gemini 1.5 Flash による自律的なセキュリティインシデント要約は人間要約に61%対39%で劣後(完全性35%・事実性42%の欠陥率)する一方、人間がAI下書きを編集する協働(AI支援)要約は人間単独の要約より77%対11%で優位。18名のセキュリティアナリスト・50件の実インシデント(クラウド侵入/コインマイニング/認証情報漏洩/マルウェア/フィッシング)による4段階実験。(paper / security / incident-response / llm / human-ai-collaboration) #### Large Language Models Can Provide Accurate and Interpretable Incident Triage (ISSRE 2024) (2026-07-13) - [[@2024__ISSRE__Large Language Models Can Provide Accurate and Interpretable Incident Triage]] — [[Zexin Wang]]・[[Jianhui Li]]・[[Minghua Ma]] ほか([[Microsoft]] / [[Chinese Academy of Sciences]])、ISSRE 2024(2024-10, pp.523-534)。LLM でログからキーワードを抽出しインシデントを担当チームへ割り当てるシステム COMET。AutoExtractor による生ログ絞り込み+ドメイン知識プロンプトによるキーワード抽出+FastText 埋め込み類似検索。Microsoft の2クラウドサービスに6ヶ月以上本番展開し、精度(ACC@1)30%改善・TTM 35%短縮。ログ・要約よりキーワードの方がトリアージ入力表現として優れることを比較実験で実証。(paper / aiops / incident-management / incident-triage / llm) #### Collaborative Knowledge Distillation and Reinforcement Learning for Automated Ticket Triage in Large-Scale Production Systems (TOSEM投稿版) (2026-07-13) - [[@2026__nkcs.iops.ai__Collaborative Knowledge Distillation and Reinforcement Learning for Automated Ticket Triage in Large-Scale Production Systems]] — [[Ruowei Fu]] ほか([[ByteDance]] / [[Nankai University]])、TOSEM投稿版(2026)。知識蒸留+自己強化+DPOによるSLMファインチューニングでチケットトリアージを行うCoTriage。3モジュール構成で大規模本番評価。同著者陣の先行研究OncallXとは対照的な知識蒸留路線。(paper / aiops / ticket-triage / llm / knowledge-distillation / reinforcement-learning) #### Debugging the Debuggers: Failure-Anchored Structured Recovery for Software Engineering Agents (arXiv, 2026) (2026-07-13) - [[@2026__arXiv__Debugging the Debuggers - Failure-Anchored Structured Recovery for Software Engineering Agents]] — [[Chenyu Zhao]]・[[Shenglin Zhang]] ほか([[Nankai University]])、arXiv 2026-06-05。ソフトウェアエンジニアリングエージェント向けの失敗基点構造化回復フレームワーク PROBE。診断精度改善(+43.58pt)が回復率改善(+12.45pt)を大きく上回る「diagnosis–recovery gap」を実証。AIOpsLab上でケーススタディ。(paper / agent / aiops / software-engineering) #### Can Language Models Go Beyond Coding? Assessing the Capability of Language Models to Build Real-World Systems (2026-07-13) - [[@2026__nkcs.iops.ai__Can Language Models Go Beyond Coding - Assessing the Capability of Language Models to Build Real-World Systems]] — [[Chenyu Zhao]] ほか([[Nankai University]] / [[Peking University]] / [[Tsinghua University]] / [[Microsoft]])。クロスISAビルド修復ベンチマーク Build-bench。エージェント型ツール利用なしでは GPT-5 成功率6.13%、反復ループ環境下で63.19%(10.3倍)に到達することを実証。(paper / aiops / software-engineering / llm-agent / build-repair / cross-isa) #### Bridging the Delay: Lag-Aware Spatio-Temporal Causal Inference for Microservice Root Cause Analysis (FSE Companion 2026) (2026-07-13) - [[@2026__FSE Companion__Bridging the Delay - Lag-Aware Spatio-Temporal Causal Inference for Microservice Root Cause Analysis]] — [[Junhua Kuang]] ほか([[Nankai University]] / [[Alibaba Group]] / [[Tsinghua University]])、FSE Companion '26。マイクロサービス障害伝播の81.5%が非同期(2分以上の遅延)であることを本番データで示し、時間ラグを明示的にモデル化するLagRCAを提案。(paper / aiops / root-cause-analysis / causal-inference / microservices) #### LLM-Assisted Joint Ticket and Log Analysis for Incident Triage in Intelligent and Connected Vehicles (ASE'26投稿版) (2026-07-13) - [[@2026__ASE__LLM-Assisted Joint Ticket and Log Analysis for Incident Triage in Intelligent and Connected Vehicles]] — [[Ruowei Fu]] ほか([[Nankai University]])、ASE'26投稿版(InsightTriage)。Huawei/ICV(車載)ドメイン向けチケット+ログ統合トリアージ。ログ検索器除去でWeighted F1が19.2%低下するアブレーションでログを一次証拠とする設計の有効性を実証。(paper / aiops / incident-management / llm / log-analysis) #### FoundRoot: Towards Foundation Model for Root Cause Analysis via Structured Deep Thinking (ICSE '26) (2026-07-13) - [[@2026__ICSE__FoundRoot - Towards Foundation Model for Root Cause Analysis via Structured Deep Thinking]] — [[Zhe Xie]] ほか([[Tsinghua University]] / [[ByteDance]] / [[Nankai University]])、ICSE '26。構造化深層思考(メトリクススキャン→伝播分析→リフレクション→ランキング)を warm-up SFT + DAPO で LLM に内在化し、ゼロショット RCA 4データセット全てで MRR 4.5%〜48.6%改善。(paper / aiops / root-cause-analysis / llm / reinforcement-learning) #### Aloha: Localizing Batch Failures in Large-scale Cloud Systems via Contrast Analysis and Human-in-the-Loop Agent (FSE Companion '26) (2026-07-13) - [[@2026__FSE Companion__Aloha - Localizing Batch Failures in Large-scale Cloud Systems via Contrast Analysis and Human-in-the-Loop Agent]] — Shenglin Zhang・[[Yujia Wu]]・[[Jinghuan Ren]] ほか([[Nankai University]] / [[Microsoft]])、FSE Companion '26。対照分析ベースのバッチ障害診断で「アルゴリズムでなくusability gapが実務障壁」と指摘し、CONANをACC@5で0.9370対0.6963、診断時間を約10時間から約0.5時間に短縮。(paper / aiops / fault-localization / contrast-analysis / human-in-the-loop) #### When LLMs Listen to Experts: Accurate Failure Diagnosis in Operating Systems (ICSE-SEIP '26) (2026-07-13) - [[@2026__ICSE-SEIP__When LLMs Listen to Experts - Accurate Failure Diagnosis in Operating Systems]] — [[Yongxin Zhao]] ほか([[Nankai University]] / [[Alibaba Group]] / [[Tsinghua University]])、ICSE-SEIP '26。OScope は Knowledge Aligner による症状記述の意味的整合とチャンク単位検証で、Alibaba本番OS障害診断AC@5=0.901・平均診断時間112分→1.5分を達成。(paper / aiops / operating-system / failure-diagnosis / llm) #### PerfScout: An Adaptive Workload Generator in Software Performance Testing (ICSE-SEIP '26) (2026-07-13) - [[@2026__ICSE-SEIP__PerfScout - An Adaptive Workload Generator in Software Performance Testing]] — [[Yongqian Sun]] ほか([[Nankai University]] / [[BizSeer]] / [[Huawei Cloud]] / [[Tsinghua University]])、ICSE-SEIP '26。SPOT・ADF/KPSS・PPOを統合した性能テストワークロード生成の全自動化フレームワーク。Huawei Cloudに9か月間本番デプロイされ代表ケースで87%のテスト時間短縮を実証。(paper / aiops / performance-testing / reinforcement-learning) #### A Comprehensive Benchmark and Empirical Study of Trace Anomaly Detection (IEEE TSC 2025) (2026-07-13) - [[@2025__TSC__A Comprehensive Benchmark and Empirical Study of Trace Anomaly Detection]] — Yongqian Sun ほか([[Nankai University]])、IEEE Transactions on Services Computing, 2025。トレース異常検知の初の横断ベンチマーク TADBench。全データセット横断で一貫最良のアルゴリズムは存在せず、決定木でアルゴリズムを推奨。(paper / aiops / trace-analysis / anomaly-detection / benchmark) #### From Chaos to Clarity: Log-based Kernel Panic Root Cause Analysis for Large-Scale Cloud Services (FCS 2025) (2026-07-13) - [[@2025__FCS__From Chaos to Clarity - Log-based Kernel Panic Root Cause Analysis for Large-Scale Cloud Services]] — [[Tianyu Cui]] ほか([[Nankai University]] / [[ByteDance]])、FCS 2025。カーネルパニックRCAをスパースログ抽出とログ間長距離依存の2課題に分解。ByteDance本番20,000件データでLogKGを15.5〜20.3pt F1上回り6ヶ月超本番デプロイ。(paper / aiops / log-analysis / kernel-panic / graph-neural-network) #### Bridging Edge and Cloud: A Knowledge-Enhanced Framework for Efficient Time Series Anomaly Detection (IEEE TSC 2025) (2026-07-13) - [[@2025__TSC__Bridging Edge and Cloud - A Knowledge-Enhanced Framework for Efficient Time Series Anomaly Detection]] — Shenglin Zhang ほか([[Nankai University]] / [[Alibaba Cloud]])、IEEE Transactions on Services Computing, 2025。RefinedEdge は多変量時系列異常検知モデルをエッジ配置可能な水準(0.15Mパラメータ未満)まで圧縮しつつクラウド訓練モデルに匹敵・凌駕する精度を達成。(paper / aiops / time-series / edge-computing / knowledge-distillation) #### A Survey of DevOps Concepts and Challenges (ACM Computing Surveys, 2019) (2026-07-14) - [[@2019__ACM CSUR__A Survey of DevOps Concepts and Challenges]] — [[Leonardo Leite]]・[[Carla Rocha]]・[[Fabio Kon]]・[[Dejan Milojicic]]・[[Paulo Meirelles]]([[University of São Paulo]] / [[University of Brasília]] / [[Hewlett Packard Labs]] / [[Federal University of São Paulo]])、ACM Computing Surveys, 2019。50本のcore paperにGrounded Theory的手法を適用し、DevOps概念をprocess/people/delivery/runtimeの4カテゴリからなるconceptual frameworkとして体系化し、既存DevOps SLRがdelivery/runtime(技術的含意)を軽視していたことを指摘。(paper / devops / survey / conceptual-framework) #### OpenRCA 2.0: From Outcome Labels to Causal Process Supervision (arXiv, 2026) (2026-07-14) - [[@2026__arXiv__OpenRCA 2.0 - From Outcome Labels to Causal Process Supervision]] — [[Aoyang Fang]]・[[Pinjia He]] ら([[The Chinese University of Hong Kong, Shenzhen]])、arXiv:2606.27154, 2026。既知の障害注入介入を使う段階的因果ラベリング PAVE で、根本原因サービスだけでなく検証済みの因果伝播経路まで持つ初の cross-system RCA ベンチマーク OpenRCA 2.0(TrainTicket・OTel Demo・Hotel Reservation、500 インスタンス)を構築。11 の最先端 LLM を評価すると厳密一致 EM は 20.7% にとどまり、正しいサービスを言い当てる AnySvc(76.0%)と検証済み経路で裏づける Path Reachability(61.5%)の 14.5pp のギャップを「grounding されていない診断(ungrounded diagnosis)」と定義。Edge F1(43.4%)が Node F1(62.2%)を全モデルで下回ることも示す。(paper / aiops / microservice / rca-benchmark / causal-discovery) #### The Anatomy of a Large-Scale Hypertextual Web Search Engine (Computer Networks, 1998) (2026-07-15) - [[@1998__Computer Networks__The Anatomy of a Large-Scale Hypertextual Web Search Engine]] — [[Sergey Brin]]・[[Lawrence Page]]([[Stanford University]])、Computer Networks and ISDN Systems 30 (1998) 107-117 / WWW7 1998。2,400万ページ規模の Web 検索エンジンプロトタイプ Google を報告し、リンク構造由来のページ重要度指標 PageRank とアンカーテキスト索引化を核とした設計・アーキテクチャ・実測ストレージ/クロール性能を詳述する、検索エンジンとしての Google の創業論文。(paper / information-retrieval / web / ranking) #### Valet: Efficient Data Placement on Modern SSDs (SoCC '25) (2026-07-15) - [[@2025__SoCC__Valet - Efficient Data Placement on Modern SSDs]] — Devashish R. Purandare・Peter Alvaro・Avani Wildani・Darrell D. E. Long・Ethan L. Miller([[UC Santa Cruz]] / [[Emory University]] / [[Cloudflare]] / [[Pure Storage]])、ACM Symposium on Cloud Computing (SoCC '25)。LD_PRELOAD ベースの userspace シムレイヤー Valet を提案し、アプリケーション・ファイルシステム・カーネルを一切変更せずに RocksDB・MongoDB・CacheLib へ affinity/lifetime ベースの配置ヒントを注入。f2fs に対し2〜6倍のスループット、最大6倍低いテールレイテンシを達成し、アプリケーション固有ソリューション zenfs に匹敵する性能と広い適用性を両立。(paper / storage / ssd / zns / shim-layer) #### Recursive Self-Improvement (LessWrong, 2008) (2026-07-15) - [[@2008__LessWrong__Recursive Self-Improvement]] — [[Eliezer Yudkowsky]]、LessWrong(2008-12-01)。「AI go FOOM」論の中心的論証を提示する一次資料。因果を5層(metacognitive/cognitive/metaknowledge/knowledge/object level)に分解し、AIが自身の記憶検索アルゴリズムを改善する課題を与えられた瞬間にmetacognitive層とobject層が同一化する「真の再帰」を定義。複雑な最適化連鎖を再帰で自己に畳み込むと理論上「横ばいか爆発かのどちらか」になるはずだと論じ、ソフトテイクオフには「正確に都合の良い収穫逓減則」という狭い条件が必要と主張する。(article / ai-safety / rsi / foom / takeoff) #### Can Large Language Models Generate Observability-Aware Code? (arXiv, 2026) (2026-07-15) - [[@2026__arXiv__Can Large Language Models Generate Observability-Aware Code?]] — [[Yongliang Tao]] ほか([[Chongqing University]] / [[Microsoft]])、arXiv:2607.05785, 2026-07-07。コーディングエージェント生成コードのオブザーバビリティを、18リポジトリ1,223インスタンスのソースレベル復元(Position F1・KeyBag F1)と、200個のagent生成マイクロサービス・1,615件の注入障害による実行時評価(Fault Signals Rate 4.95〜13.99%)の2軸で実証。エージェントは配置(where)より診断意味論(what)の再現が体系的に弱く、explicit instructionは生成量を増やすが質を下げるQuantity over Quality現象を確認。軽量observability skillの効果は限定的。(paper / aiops / coding-agents / observability) #### AI 2040: Plan A — The Deal (AI Futures Project, 2026) (2026-07-16) - [[@2026__AI Futures Project__AI 2040 - Plan A - The Deal]] — [[AI Futures Project]]([[Daniel Kokotajlo]] ほか)。「AI 2027」の続編となる政策シナリオ文書(90ページ)。米中が超知能開発への無謀な競争を回避する国際的取り決め「Plan A」——研究の完全透明化・コンピュート宣言・訓練一時停止・相互確証コンピュート破壊(MACD)——によって超知能到達を2040年まで先送りする成功シナリオを年表形式で描く。代替プランB(Sabotage)/C(Slowdown)/D(Race)/S(Shutdown)との比較、中国による秘密裏AGI計画の検知確率分析(Appendix D)、著者ら自身の卓上演習で繰り返し再現された最悪の失敗モード(欠陥のある安全性ケースの承認、Appendix L)を含む。(paper / ai-safety / ai-governance / scenario-planning) #### LLM高速化(勉強会) (SpeakerDeck, 2026) (2026-07-16) - [[@2026__SpeakerDeck__LLM高速化(勉強会)]] — [[SuperHotDog]]、SpeakerDeck(全50ページ)。KVCache・FlashAttention・Super Sequence + Continual Batching・PagedAttention・Speculative Decoding といったアルゴリズム的高速化、CUDA/Triton/CuTe による実装、GQA・MLA・Sliding Attention・Linear Attention のアーキテクチャ的工夫、量子化(Mixed Precision Accumulation・Ozaki Scheme)、Nsight Compute/Systems によるプロファイリング、CUDAGraph、vLLM の内部構造とコントリビュート方法までを一気通貫で扱う勉強会資料。Qwen2.5-0.5B-Instruct のハンズオンで Transformers 推論(5.97 tokens/sec)から vLLM 推論(94.84 tokens/sec)への 15.88 倍高速化を実演する。(slides / llm-inference / gpu / kv-cache) #### A New Golden Age for Computer Architecture (CACM, 2019) (2026-07-17) - [[@2019__CACM__A New Golden Age for Computer Architecture]] — [[John L. Hennessy]]・[[David A. Patterson]]([[Stanford University]] / [[University of California, Berkeley]])、Communications of the ACM, Vol. 62 No. 2, 2019-02。2017年ACM Turing賞受賞記念講演(Turing Lecture)のCACM掲載版。IBM System/360からRISC-Vまでの命令セットアーキテクチャ(ISA)の歴史を振り返り、Moore の法則・Dennard スケーリングの終焉により汎用プロセッサの性能向上率が年3%まで低下すると分析した上で、ドメイン固有アーキテクチャ(DSA、Google TPU v1 が汎用CPU比29倍高速・80倍超のエネルギー効率を実証)・オープンISA(RISC-V)・アジャイルなハードウェア開発の3つを次の10年の黄金時代の道筋として提示する。(paper / computer-architecture / risc / dsa / risc-v) #### ContextPilot: Fast Long-Context Inference via Context Reuse (MLSys 2026) (2026-07-18) - [[@2026__MLSys2026__ContextPilot - Fast Long-Context Inference via Context Reuse]] — Yinsicheng Jiang・Yeqi Huang ほか([[University of Edinburgh]])、第9回 MLSys Conference 2026(Oral)、arXiv:2511.03475。完全一致 prefix caching の低再利用率と近似 KV マッチングの精度劣化というトレードオフを、コンテキストブロック単位の整列・重複排除・優先順位注釈で回避し、精度をほぼ落とさずにプリフィルレイテンシを最大3倍削減。DeepSeek-R1(671B)・エッジデバイスまで幅広く評価。(paper / llm-inference / kv-cache / rag) #### The Too-Much-Talent Effect: Team Interdependence Determines When More Talent Is Too Much Versus Not Enough (Psychological Science, 2014) (2026-07-18) - [[@2014__PsychSci__The Too-Much-Talent Effect - Team Interdependence Determines When More Talent Is Too Much or Not Enough]] — Roderick I. Swaab・Michael Schaerer・Eric M. Anicich・Richard Ronay・Adam D. Galinsky([[INSEAD]] / [[Columbia University]] / [[Vrije Universiteit Amsterdam]])、Psychological Science, Vol. 25 No. 8, 2014-08、DOI: 10.1177/0956797614537280。サッカー(FIFA)・バスケットボール(NBA)・野球(MLB)のアーカイバルデータから、トップタレント比率とチーム成績の関係がタスク相互依存性の高いスポーツ(サッカー・バスケ)では逆U字型に転じ、低いスポーツ(野球)では単調増加のままであることを実証。NBAの play-by-play データではチーム内コーディネーションの低下が媒介変数であることも統計的に立証。(paper / organizational-behavior / team-performance / sports-analytics) #### LLM生成テキストの統計的検知: TF-IDF+SVMによるAIGC分類器の構築 (2026-07-20) - [[AI生成テキスト分類器]] — [[lyc8503]] の個人ブログ記事。パープレキシティベースの検知(失敗)から `TF-IDF` + `LinearSVC` による文単位分類器 [[AITextDetector]] へ移行し、7 LLM分の二値分類器の多数決で約85%の文単位精度、未知モデルにも約70%以上の検知率を達成。実データでの低偽陽性率(0.04%@閾値60%)と、Lofterトレンド記事の32.22%がAI生成疑いという実測結果、翻訳往復・脱AI感プロンプトの限定的な回避効果を報告。(source / article / AI生成テキスト検知 / TF-IDF / テキスト分類) #### Adversarial dynamical systems characterize when data-driven learning succeeds or fails (Nature Communications, 2026) (2026-07-20) - [[@2026__NatCommun__Adversarial dynamical systems characterize when data-driven learning succeeds or fails]] — [[Matthew J. Colbrook]]・[[Igor Mezić]]・[[Alexei Stepanenko]]([[University of Cambridge]] / [[UC Santa Barbara]])、Nature Communications (2026) 17:5397。敵対的力学系の構成によりKoopman作用素スペクトル学習の不可能性(測度保存性・連続性の法が揃わない限り単一極限アルゴリズムは50%超の確率で収束不可)を証明する一方、条件が揃えば誤差保証つき最適アルゴリズムを構成し、可解性複雑性指標(SCI)で問題の複雑性を完全分類。北極海氷濃度データで隠れた減衰モードを検出し、IceNet・SEAS5を低コストで上回る長期予測を実証。(source / paper / dynamical-systems / koopman-operator / computability) #### FailSafe: High-performance Resilient Serving (arXiv, 2025 / MLSys 2026 Oral) (2026-07-20) - [[@2025__arXiv__FailSafe - High-performance Resilient Serving]] — Ziyi Xu([[Shanghai Jiao Tong University]])・[[Zhiqiang Xie]]・[[Swapnil Gandhi]]・[[Christos Kozyrakis]]([[Stanford University]])、arXiv:2511.14116(2025-11-18、cs.DC、Under Review)。MLSys 2026 Oral(改題後 "RaidServe")。テンソル並列 LLM サービングの耐障害システム。Cyclic KVCache Placement・Hybrid Attention・Fine-Grained Load-Aware Routing による計算・メモリ均衡と、プロアクティブ KVCache バックアップ・FFN シャーディング可換性を利用したオンデマンド重み復旧による183倍高速な復旧を実現。8×H100 で標準的な障害対応比最大2倍のスループット。(paper / llm-serving / fault-tolerance / tensor-parallelism) #### In-House LLM Serving at Netflix (Netflix TechBlog, 2026) (2026-07-20) - [[@2026__Netflix TechBlog__In-House LLM Serving at Netflix]] — Liping Pengほか([[Netflix]] AI Platform)、2026-07。既存のJVMベース統合サービングシステムとModel Scoring Service(MSS)/[[Triton Inference Server]]の上でLLM推論を内製運用する事例。2026年夏に[[TensorRT-LLM]]から[[vLLM]]へpaved-pathエンジンを切り替え(判断基準は性能でなく運用適合性)、TritonのvLLMバックエンド採用とバージョン整合の運用課題、OpenAI互換API追加、Red-Black/Versionedデプロイ戦略、vLLM V0→V1移行によるlogits processorのバッチレベル化([[制約付きデコーディング]])を報告。(source / article / llm-inference / serving / netflix / vllm / triton) #### Niyama: Breaking the Silos of LLM Inference Serving (arXiv, 2025 / ASPLOS 2026) (2026-07-20) - [[@2025__arXiv__Niyama - Breaking the Silos of LLM Inference Serving]] — [[Kanishk Goel]]・[[Jayashree Mohan]]・[[Nipun Kwatra]]・[[Ravi Shreyas Anupindi]]・[[Ramachandran Ramjee]]([[Microsoft Research]] India)、arXiv:2503.22562(2025-03-28、cs.LG/cs.AI/cs.DC)。改題後 "QoServe" として ASPLOS 2026 採録。既存 LLM サービングの interactive/batch サイロ分割を廃し、複数 QoS クラスを同一レプリカ上で co-schedule する QoS 駆動スケジューリングシステム Niyama を提示。動的チャンキング(デッドラインスラック活用)・ハイブリッド優先度付け(EDF/SRPF 線形補間)・積極的降格(過負荷時の選択的リクエスト降格)の 3 技術により、SOTA サイロ構成比で GPU 必要台数を最大 32% 削減し、極限負荷下で SLO 違反を一桁削減。[[Sarathi-Serve]] のスケジューラを拡張して実装。(paper / llm-serving / scheduling / qos) #### DuckDB: an Embeddable Analytical Database (SIGMOD '19) (2026-07-20) - [[@2019__SIGMOD__DuckDB - an Embeddable Analytical Database]] — [[Mark Raasveldt]]・[[Hannes Mühleisen]]([[CWI]])、SIGMOD '19 Demonstration track、4ページ、DOI 10.1145/3299869.3320212。SQLiteのような組み込みデータベースがOLTP向け設計のためOLAP性能に乏しいという課題を受け、パーサ(libpg_query)・コストベースオプティマイザ・ベクトル化解釈実行エンジン・HyPer由来のシリアライザブルMVCC・DataBlocksストレージから成る、ゼロから組み込み分析用途向けに設計されたデータベースDuckDBを提示。前身[[MonetDBLite]]の非purpose-built性が開発動機であることと、JIT不採用による移植性重視を報告。SQLite・MonetDBLite・HyPerとの対決を想定したTPC-Hデモンストレーション構成(teaser/drilldownシナリオ)を提案する。(paper / database / olap / embedded-database) #### Welcome & Setup (Design and Implementation of DuckDB Internals, Lecture 1) (DiDi Course, 2026) (2026-07-20) - [[@2026__DuckDB__Welcome & Setup (DiDi Course, Lecture 1)]] — [[Torsten Grust]]([[Universität Tübingen]])が担当する15週構成の講義シリーズ「Design and Implementation of DuckDB Internals(DiDi)」第1回スライド。講義全体の射程(データ表現、SQLからのクエリプラン生成、データ構造とアルゴリズム、CPUアーキテクチャとの関係、並列性、耐障害性)を概観する導入回。[[DuckDB]]がSQLiteのようなDBMSプロセス分離アーキテクチャを取らずクライアントと同一プロセスに組み込む「zero copy」設計であること、2019年6月初リリースの比較的新しいDBMSであること、名称がHannes Mühleisenの飼っていたアヒルWilburに由来することを紹介する。(slides / database / olap / embedded-database) #### The Query Performance Spectrum (DiDi Course #2, 2026) (2026-07-20) - [[@2026__DiDi__The Query Performance Spectrum]] — [[Torsten Grust]]([[Universität Tübingen]])によるDiDi講義第2回。TPC-H `lineitem` テーブル(SF=1、6+百万行・720MB)の`quantity`列合計という単純クエリを、awk・Python・C(getline/mmap/mmap+マルチスレッド)・SQL([[DuckDB]])の7実装で実測比較し、実行時間がawk 1.60秒からC+mmap+マルチスレッド0.04秒まで40倍以上変動することを示す。システムコール削減・SWARビット演算・マルチスレッド化(T=12コアで18.8 GB/s、DRAM帯域21 GB/sに接近)というDBMS内部最適化を段階的に提示する。(slides / database / olap / performance-engineering) #### Managing Memory + Grouped Aggregation (DiDi Course #3, 2026) (2026-07-20) - [[@2026__DiDi__Managing Memory + Grouped Aggregation]] — [[Torsten Grust]]([[Universität Tübingen]])によるDiDi講義第3回。[[DuckDB]]のメモリ管理(ホストRAM80%既定利用、非ページ/ページ割り当て・ベーステーブルバッファリングの統合管理、German Strings表現)と、ハッシュベースグループ集約(`HASH_GROUP_BY`/`PERFECT_HASH_GROUP_BY`、線形プロービング、スレッドローカル事前集約Phase 1とパーティション単位集約Phase 2の2段階設計)を扱う。(slides / database / olap / memory-management) #### Sorting Large Tables (DiDi Course #4, 2026) (2026-07-20) - [[@2026__DiDi__Sorting Large Tables]] — [[Torsten Grust]]([[Universität Tübingen]])によるDiDi講義第4回。[[DuckDB]]の大規模テーブルソートを二相マージソート戦略・キー正規化・並列マージの3点で解説。フェーズ➊でソートキーを固定長へ正規化(uint64_t比較)しVergesort/Ska Sort/Pattern-defeating QuickSortでランを生成、フェーズ➋でT-way mergeする。直近の大規模書き換えはv1.4.0(2025年9月)。(slides / database / olap / sorting) #### The ART of Indexing (DiDi Course #5, 2026) (2026-07-20) - [[@2026__DiDi__The ART of Indexing]] — [[Torsten Grust]]([[Universität Tübingen]])によるDiDi講義第5回。[[DuckDB]]が実装する2種類のインデックス、Zonemap(min-maxインデックス、行グループ122,880行単位)とAdaptive Radix Tree(ART、値のビット列に基づく自己組織化探索木)を扱う。ARTはspan=8bitでNode4/16/48/256の4種類の内部ノード型を使い分け、遅延展開とパス圧縮(悲観的/楽観的)で木高と空間を削減する。(slides / database / olap / indexing) #### Query Execution Plans and Pipelining (DiDi Course #6, 2026) (2026-07-20) - [[@2026__DiDi__Query Execution Plans and Pipelining]] — [[Torsten Grust]]([[Universität Tübingen]])によるDiDi講義第6回。[[DuckDB]]がSQLを木構造の実行プラン(演算子ノード、2048行データチャンクのエッジ)へ変換し、自明に並列な演算子(FILTER・PROJECTION)とパイプラインブレーカーとなるシンク演算子(HASH_GROUP_BY、Sink→Combine→Finalizeの3フェーズ)を対比しながらパイプラインへ分解する仕組みを扱う。パイプライン依存関係とパイプライン駆動ループの疑似コードをTPC-Hクエリで解説する。(slides / database / olap / query-execution) #### Vectorized Query Execution (DiDi Course #7, 2026) (2026-07-20) - [[@2026__DiDi__Vectorized Query Execution]] — [[Torsten Grust]]([[Universität Tübingen]])によるDiDi講義第7回。[[DuckDB]]のデータ単位(vector・data chunk・morsel)、ベクトル物理表現(FLAT/CONSTANT/DICTIONARY/SEQUENCE)、super-specificコード生成と組み合わせ爆発回避のためのunified representation+テンプレート、DuckDB 1.4実ソースでの比較式評価トレース(`ExpressionExecutor`→`BinaryExecutor::ExecuteGenericLoop`)、コンパイラのtight loop生成(SIMD化・`__restrict__`)、分岐予測ミスペナルティ(約15サイクル)を扱う。(slides / database / olap / simd / vectorization) #### Query Rewriting and Optimization (DiDi Course #8, 2026) (2026-07-20) - [[@2026__DiDi__Query Rewriting and Optimization]] — [[Torsten Grust]]([[Universität Tübingen]])によるDiDi講義第8回。[[DuckDB]]のクエリオプティマイザを扱い、v1.5で30以上の最適化パス(式簡約・述語並べ替え・フィルタプッシュダウン等、fixpoint反復なしの一方向適用)、結合順序最適化(カタラン数で爆発する結合木探索空間へのMoerkotte & NeumannのDPhyp動的計画法適用)、クエリ非相関化(Neumann & KemperのUnnesting Arbitrary Queriesに基づくDEPENDENT_JOINの系統的書き換え)をTPC-Hクエリで解説する。(slides / database / olap / query-optimization) #### 30分でわかるデータ指向アプリケーションデザイン (Data Engineering Study #18, 2023) (2026-07-20) - [[@2023__DataEngineeringStudy__30分でわかるデータ指向アプリケーションデザイン]] — 『データ指向アプリケーションデザイン』監訳者[[Taro L. Saito]]による講演。原著出版(2017年)から5年間の発展を、データ形式(Parquet/Dremel)・インデックス構造(B-Tree/LSMツリー)・分散トランザクション(Amazon Aurora)・[[導出データ]](dbt、Delta Lake/Iceberg/Hudi)・SQLの役割拡大(F1、Trino)・SLO(2023年Elon Muskツイート未配信問題)という原著の枠組みに沿って再構成する。(slides / database / distributed-systems) #### LLM hallucinations in the wild: Large-scale evidence from non-existent citations (arXiv, 2026) (2026-07-20) - [[@2026__arXiv__LLM hallucinations in the wild]] — [[Zhenyue Zhao]]・[[Yihe Wang]]ほか([[Cornell University]]・[[Tsinghua University]]・[[University of California, Berkeley]] Haas School of Business)。arXiv・bioRxiv・SSRN・PubMed Centralの参照1億1,100万件を監査し、LLM登場前後の unmatched 引用率の差分から2025年単年で146,932件のハルシネーション引用を推定。汚染は多数の論文への薄い拡散パターンであり、既存のモデレーション・査読は大半を捕捉できていない。(paper / llm / hallucination / science-of-science) #### Aurora DSQL: Scalable, Multi-Region OLTP (arXiv, 2026) (2026-07-20) - [[@2026__arXiv__Aurora DSQL - Scalable, Multi-Region OLTP]] — [[Marc Brooker]]・Marc Bowes・Mike Hershey・Zak van der Merwe・James Morle・Matthys Strydom([[Amazon Web Services]])。Query Processor・Adjudicator・Journal・Crossbar・Storage に分離した disaggregated アーキテクチャを持つサーバーレス SQL データベース。MVCC による座標不要読み取りと OCC による書き込みを組み合わせ、コミット時のみクロスリージョン座標する設計により、2リージョン構成で SELECT p99 約2ms・COMMIT p99 約30msを実測。Journal 間の2-of-3イレイジャーコーディングでレイテンシ分散と可用性を同時に改善する。(paper / database / distributed / oltp) #### Using Lightweight Formal Methods to Validate a Key-Value Storage Node in Amazon S3 (SOSP, 2021) (2026-07-20) - [[@2021__SOSP__Using Lightweight Formal Methods to Validate a Key-Value Storage Node in Amazon S3]] — [[James Bornholt]]ほか([[Amazon Web Services]] / ETH Zurich / University of Washington)。[[Amazon Web Services]] S3 の新しいキーバリューストレージノード [[ShardStore]] を、実装と同じ言語(Rust)で書かれた参照モデル・property-based testing・stateless model checking(Loom / Shuttle)で検証する軽量形式手法アプローチを報告する。本番投入前に機能的正しさ5件・クラッシュ整合性5件・並行性6件の計16件の不具合を検出し、検証アーティファクトの保守を段階的に非専門エンジニアへ引き継いだ。(paper / storage / formal-methods / distributed) #### The Snowflake Elastic Data Warehouse (SIGMOD, 2016) (2026-07-20) - [[@2016__SIGMOD__The Snowflake Elastic Data Warehouse]] — Benoit Dageville・Thierry Cruanes・Marcin Zukowski ほか([[Snowflake Computing]])。ストレージ(Amazon S3)とコンピュート(Virtual Warehouse)を疎結合サービスへ分離した「マルチクラスタ・シェアードデータ・アーキテクチャ」を導入した産業論文。テーブルファイルの不変性を核に、MVCCベースのSnapshot Isolation・時間旅行・クローン・全サービスのステートレス化によるオンラインアップグレードを同一設計原理から導出。VARIANT型・自動スキーマ推論・列指向格納による半構造化データのELT処理を約10%オーバーヘッドで実現し、4階層(root/account/table/file)の鍵階層でエンドツーエンド暗号化する。(paper / database / distributed / cloud) #### MapReduce: Simplified Data Processing on Large Clusters (OSDI, 2004) (2026-07-20) - [[@2004__OSDI__MapReduce - Simplified Data Processing on Large Clusters]] — [[Jeffrey Dean]]・[[Sanjay Ghemawat]]([[Google]], Inc.)。map/reduce の2関数だけで大規模クラスタ上の並列分散計算を記述できるプログラミングモデルとその耐障害実装を提案した基盤論文。master による中央集権スケジューリング・タスク再実行による耐障害性・[[Google File System]] の局所性を活用したデータ配置最適化・straggler 緩和のためのバックアップタスク機構を特徴とする。2004年8月時点で月29,423ジョブ・入力3,288TBの規模で本番稼働し、Google の検索インデックス生成システムの書き換え(コード量約1/5に削減)に使用された。BSP データフロー型タスク並列フレームワークの起源。(paper / distributed-systems / task-parallel) #### Dremel: Interactive Analysis of Web-Scale Datasets (VLDB, 2010) (2026-07-20) - [[@2010__VLDB__Dremel - Interactive Analysis of Web-Scale Datasets]] — Sergey Melnik ほか([[Google]], Inc.)。ネストデータに対する列指向ストレージ(repetition level / definition level)とウェブ検索由来の多段サービス木を組み合わせ、兆行規模テーブルへの集計クエリを数秒で実行する対話的クエリシステム。MapReduceを置き換えず補完する設計思想を明示し、3000ノード規模の実験でMR-on-recordsに対し87TBに対し約0.5TBしか読まず実行時間を2桁短縮する。(paper / database / olap / distributed) #### Mach: A Pluggable Metrics Storage Engine for the Age of Observability (CIDR, 2022) (2026-07-21) - [[@2022__CIDR__Mach - A Pluggable Metrics Storage Engine for the Age of Observability]] — [[Franco Solleza]]・[[Andrew Crotty]]・[[Suman Karumuri]]・[[Nesime Tatbul]]・[[Stan Zdonik]]([[Brown University]]・[[Carnegie Mellon University]]・[[Slack Technologies]]・Intel Labs・MIT)。オブザーバビリティ用メトリクスに特化したプラガブルストレージエンジン Mach。複数の独立ライタースレッドが疎結合(mutex 協調なし)に振る舞うアーキテクチャで、単一ノード最大480M f64/秒の書き込み(既存手法比約10倍)・空間次元で100万ソースまでのスケーリング・既存手法比最大3倍の読み取りスループットを予備実験で示した(CIDR 2022)。(paper / database / time-series / observability) #### Don't Predict, Prioritize: Rethinking GPU Reliability Assessment (KDD '26 V.2, arXiv 2026) (2026-07-21) - [[@2026__arXiv__Don't Predict, Prioritize - Rethinking GPU Reliability Assessment]] — Difeng Ma・[[Changhua Pei]]ほか(Computer Network Information Center, [[Chinese Academy of Sciences]] / [[University of Chinese Academy of Sciences]] / [[StepFun]] / [[Tsinghua University]])。GPU の Double Bit Error・GPU Lost 障害が時系列テレメトリからは本質的に予測不能であることを 5 モデル横断で実証し、ホスト単位のリスクランキングへ再定式化する Learning-to-Rank モデル HeaRank を提案。本番クラスタで AUC 0.834、上位 5% リスクノードで将来障害の 64% を捕捉(既存 Health Score システムは 21%)し、6 ヶ月の本番展開で月あたり約 5 万ドルの GPU 時間節約を試算した。(paper / aiops / hpc / gpu-reliability)