index - yuuk1's Digital Garden

# Wiki Index Last updated: 2026-07-20 | Total pages: 3020+ | Sources ingested: 542 Navigation: [[overview]] | [[hot]] | [[log]] | [[concepts/_index]] | [[entities/_index]] | [[sources/_index]] ### 2026-07-20 ingest-paper | LLM hallucinations in the wild: Large-scale evidence from non-existent citations (arXiv 2026) - [[@2026__arXiv__LLM hallucinations in the wild]](source 新規) — Zhenyue Zhao・Yihe Wangほか4名(Cornell University・UCLA・Tsinghua University・UC Berkeley Haas School of Business、arXiv 2605.07723、2026-05-08)。arXiv・bioRxiv・SSRN・PubMed Centralの論文250万本・参照1億1,100万件を監査し、LLM登場前のマッチ失敗率をベースラインとした差分推定でハルシネーション引用を定量化。2025年単年で少なくとも146,932件、2024年半ばから急伸(arXiv 0.39%・bioRxiv 0.21%・SSRN 1.91%・PMC 0.27%、いずれも2025年8月時点)。汚染は少数の重度汚染論文ではなく多数の論文への薄い拡散パターンであり、ハルシネーション引用を出す著者(hallucination citers)は2022年以前は低生産性だったが2025年にはその格差が解消(生産性1.3〜3.1倍増)。ハルシネーション引用は実在著者に一致した場合、高生産性・高被引用・男性名の著者に不均衡に功績を帰属。arXivモデレーションはハルシネーション引用の78.8%を通過させ、bioRxiv→PMC出版移行後も85.3%が残存する。科学分野の新規ソースとして本wikiに初のscience-of-science系ハルシネーション研究を導入。 - Concepts (新規): [[LLMのハルシネーション]] - Entities (新規): [[Zhenyue Zhao]], [[Yihe Wang]], [[Toby Stuart]], [[Mathijs De Vaan]], [[Paul Ginsparg]], [[Yian Yin]] - Entities (更新): [[Cornell University]], [[University of California, Berkeley]], [[Tsinghua University]] ### 2026-07-18 ingest-paper | OpsMem: Dual-Memory Reasoning with Cross-Memory Resonance for Failure Diagnosis (arXiv 2026) - [[@2026__arXiv__OpsMem - Dual-Memory Reasoning with Cross-Memory Resonance for Failure Diagnosis]](source 新規) — Yongqian Sunほか9名(Nankai University・Tsinghua University・Huawei Technologies、arXiv 2607.11357、2026-07-13)。失敗診断のための短期記憶(STM、診断状態のグラフ)と長期記憶(LTM、運用経験のグラフ)を cross-memory resonance(CMR)で結合するデュアルメモリフレームワーク。STM は GoS(Luo+, ICML 2026)の belief-state 抽象化を踏襲し、STM 更新のたびに CMR が関連 LTM 部分グラフを再活性化する。Huawei の実運用マイクロサービス障害 120 件データセットで ReAct・GoS・GoS+VectorRAG/GraphRAG/LinearRAG の全ベースラインを上回り(最強ベースライン比 Match +6.66〜25.00pt、Relevant +3.33〜13.33pt)、LTM consolidation による自己進化(診断を重ねるほど性能向上)も実証した。 - Concepts (更新): [[エージェントメモリ]]、[[仮説駆動RCA]]、[[LLMによる根本原因分析]] - Entities (新規): [[OpsMem]], [[Rongchen Gao]], [[Qingyi Guo]], [[Yaoliang Wu]] - Entities (更新): [[Yongqian Sun]], [[Yu Luo]], [[Wenwei Gu]], [[Shenglin Zhang]], [[Dan Pei]], [[Qiuai Fu]], [[Nankai University]], [[Tsinghua University]], [[Huawei Technologies]] ### 2026-07-18 ingest-paper | MLCommons Chakra: Advancing Performance Benchmarking and Co-design using Standardized Execution Traces (MLSys 2026 Oral) - [[@2026__MLSys2026__MLCommons Chakra - Advancing Performance Benchmarking and Co-design using Standardized Execution Traces]](source 新規) — Srinivas Sridharan・Tushar Krishnaほか29名(NVIDIA / Georgia Institute of Technology / AMD / Meta / Keysight / MLCommons ほか、arXiv 2605.11333、MLSys 2026 Oral)。分散AI/MLワークロードの性能挙動を記述する標準グラフ表現Chakra Execution Trace(ET)と、Trace Linker/Converterによるホスト・デバイストレース統合、trace analysis/replay/simulation-emulationの3用途からなるMLCommons公認エコシステムを提示。40以上の企業・組織が参加するワーキンググループとして標準化されており、ASTRA-simやKeysight AI DCB等に実装されている。vLLM統合によりMoEトークンルーティングの不均衡・KVキャッシュオフロードコスト・Prefill-Decode分離間のper-layer KV転送レイテンシもトレースベースで定量化した。 - Concepts (新規): [[実行トレース]] - Concepts (更新): [[Prefill-Decode分離]]、[[KVキャッシュ管理]] - Entities (新規): [[MLCommons Chakra]], [[MLCommons]], [[Georgia Institute of Technology]], [[Tushar Krishna]], [[Srinivas Sridharan]], [[ASTRA-sim]] - Entities (更新): [[NVIDIA]], [[AMD]], [[vLLM]] ### 2026-07-15 ingest-paper | Scalable and Energy-Efficient AI: System-Level Profiling of NVIDIA GPU Clusters for Distributed LLM Training (AI, MDPI) - [[@2026__AI__Scalable and Energy-Efficient AI - System-Level Profiling of NVIDIA GPU Clusters for Distributed LLM Training]](source 新規) — [[Muhammad Ali Shafique]]ほか(Kansas State University / Johnson Controls / Florida Atlantic University / Lawrence Berkeley National Laboratory, *AI* 2026, 7(7), 232)。シングルノード8×NVIDIA H100と8×NVIDIA B200を、5種のLLM(7B〜32B)と3種のVLMのDDP訓練で比較した実証研究。B200はTFLOPs/GPU最大32%向上・訓練時間最大15%短縮を達成する一方、TFLOPs/kWとtokens-per-kilojouleでは全LLMでH100を下回る「計算-エネルギー不整合」を実測。施設規模モデリングでは高負荷5000ノードでB200が年間+$4.26M のエネルギーコスト超過となることを示した。 - Concepts (新規): [[GPUエネルギー効率]] - Concepts (更新): [[@2026__IPDPS__Beyond Throughput - Performance and Energy Insights of LLM Inference Across AI Accelerators]]との横断的知見(GPUエネルギー効率ページに集約) - Entities (新規): [[Muhammad Ali Shafique]], [[Imran Latif]], [[Hayat Ullah]], [[Alex C. Newkirk]], [[Arslan Munir]], [[Kansas State University]], [[Johnson Controls]], [[Florida Atlantic University]], [[Lawrence Berkeley National Laboratory]] ### 2026-07-15 ingest-paper | Speculations Concerning the First Ultraintelligent Machine (Advances in Computers, 1965) - [[@1965__AdvComput__Speculations Concerning the First Ultraintelligent Machine]](source 新規) — [[I. J. Good]](Trinity College, Oxford / Atlas Computer Laboratory, 1965)。あらゆる知的活動で人間を凌駕する「ウルトラ知能機械」を定義し、機械が自らより優れた後継機械を設計できることから「知能爆発」が不可避に生じると初めて明示的に定式化した思弁的モノグラフ。Hebb の細胞集成体理論を修正した「サブアセンブリ理論」により、通信理論の「再生」・統計的情報検索・意味論を統一的に説明する試みが本体の大半を占める。実験なし。 - Concepts (更新): [[知能爆発]](原論文出典を追加し、Good/Yudkowsky の役割分担を横断的知見に追記)、[[Recursive Self-Improvement]](起源論文を出典に追加) - Entities (更新): [[I. J. Good]](本人の一次論文を追加、「未ingest」注記を解消) ### 2026-07-15 ingest | Recursive Self-Improvement (LessWrong) - [[@2008__LessWrong__Recursive Self-Improvement]](source 新規) — [[Eliezer Yudkowsky]](LessWrong, 2008-12-01)。「AI go FOOM」論の中心的論証。因果の5層分解(metacognitive/cognitive/metaknowledge/knowledge/object level)、「自分のソースコード書き換え」と「農業の発明」の区別、微分方程式による再帰の比喩、「複雑な最適化連鎖を再帰で畳み込むと横ばいか爆発かのどちらかになるはず」という理論的主張を提示する一次資料。 - Concepts (新規): [[知能爆発]], [[テイクオフ速度論争]], [[リソースオーバーハング]] - Concepts (更新): [[Recursive Self-Improvement]] - Entities (新規): [[Eliezer Yudkowsky]], [[Robin Hanson]], [[I. J. Good]] ### 2026-07-15 ingest | Harness Engineering for Self-Improvement (Lil'Log) - [[@2026__Lil'Log__Harness Engineering for Self-Improvement]](source 新規) — [[Lilian Weng]](Lil'Log, 2026-07-04)。再帰的自己改善(RSI)の近未来的経路を、モデル重みの直接書き換えではなく訓練パイプラインとデプロイシステム(ハーネス)の改善による間接的ループと位置づけ、ワークフロー自動化・ファイルシステムを永続メモリとする設計・サブエージェント委譲の3パターン、ACE/MCE(コンテキストのプレイブック化)、Meta-Harness/Self-Harness/AHE(ハーネスコード自体の自己進化)、ADAS/AFlow/AlphaEvolve(進化的探索)を横断整理する。 - Concepts (新規): [[Recursive Self-Improvement]], [[ハーネス自己進化]], [[進化的探索によるエージェント設計]] - Concepts (更新): [[Harness Engineering]], [[コンテキストエンジニアリング]] - Entities (新規): [[Lilian Weng]] - Entities (更新): [[Andrej Karpathy]](autoresearch リポジトリへの言及を追記) ### 2026-07-14 ingest-slides | 言語モデルの内部機序：解析と解釈 (NLP2025 チュートリアル) - [[@2025__SpeakerDeck__言語モデルの内部機序：解析と解釈]](source 新規) — [[Benjamin Heinzerling]]・[[横井祥]]・[[小林悟郎]](理化学研究所・東北大学・国立国語研究所)、言語処理学会第31回年次大会(NLP2025)チュートリアル1(2025-03-10)。内部表現の解析(プロービング、SAE)・計算過程の解析(注意パターン観察、Logit Lens、Circuit Analysis)・言語と世界の対応づけ(解釈)という3段階フレームワークと、その前提「局所性・一対一対応」への懐疑的検討を扱う。全144ページ、transcript なし。 - Concepts (新規): [[SAE]], [[活性化パッチング]], [[言語モデルのプロービング]] - Concepts (更新): [[機構的解釈性]], [[プラトン的表現仮説]], [[モデル表現収束]], [[ロジットレンズ]], [[帰納ヘッド]], [[アテンションヘッド]] - Entities (新規): [[Benjamin Heinzerling]], [[横井祥]], [[小林悟郎]], [[理化学研究所]], [[東北大学]], [[国立国語研究所]] - Entities (更新): [[Anthropic]] ### 2026-07-14 ingest | The Origins of DevOps: What's in a Name? - [[@2018__devops.com__The Origins of DevOps - What's in a Name]](source 新規) — Steve Mezak、devops.com 2018-01-25。DevOps という語の起源(Agile Infrastructure BoF・Velocity 2009 Flickr発表・Devopsdays創設)を時系列で辿り、2010年の米国初Devopsdays開催と2013年『The Phoenix Project』出版によるDevOps概念の普及過程を補足する。[[@2026__mizzy.org__DevOpsとは何だったのか]] と起源の事実関係が独立に一致する。(article / devops / history) - Concepts (更新): [[DevOps]] - Entities (新規): [[Paul Hammond]], [[Gene Kim]], [[Kevin Behr]], [[George Spafford]] - Entities (更新): [[Patrick Debois]], [[Andrew Clay Shafer]], [[John Allspaw]] ### 2026-07-14 ingest | DevOpsとは何だったのか - [[@2026__mizzy.org__DevOpsとは何だったのか]](source 新規) — [[Gosuke Miyashita]](mizzy)、mizzy.org 2026-07-13。DevOps という語の起源(devopsdays・CAMS)から、モノの名前への消費、小文字devopsの試み、Infrastructure as Code/CI/CD/ChatOps/DORA への分解、そして同じ現象がSREにも起きつつあるという指摘までを辿る。(article / devops / sre / history) - Concepts (新規): [[DevOps]] - Concepts (更新): [[SRE]], [[DORA]], [[プラットフォームエンジニアリング]], [[ChatOps]] - Entities (新規): [[Patrick Debois]], [[John Willis]], [[Andrew Clay Shafer]], [[Gosuke Miyashita]] - Entities (更新): [[John Allspaw]] ### 2026-07-13 ingest | Failure is inevitable - Rethinking Reliability at Datadog - [[@2025__Datadog Engineering Blog__Failure is inevitable - Learning from a large outage and building for reliability in depth at Datadog]](source 新規) — [[Laura de Vesine]]・[[Rob Thomas]]・[[Maciej Kowalewski]]（Datadog Engineering Blog, 2025-10-15）。2023 年 3 月大規模障害後のグレースフルデグレーデーション設計転換を報告。スクエアウェーブ障害パターン・8 設計原則・30% インシデント削減。(article / sre / reliability / graceful-degradation) - Concepts (新規): [[グレースフルデグレーデーション]] - Concepts (更新): [[インシデント管理]], [[ソフトウェア耐障害性]] - Entities (新規): [[Rob Thomas]], [[Maciej Kowalewski]] - Entities (更新): [[Datadog]], [[Laura de Vesine]] ### 2026-07-13 ingest-slides | Oncall: An Equal-Opportunity Waste of Time (SREcon22 EMEA) - [[@2022__SREcon22EMEA__Oncall - An Equal-Opportunity Waste of Time]](source 新規) — [[Dave O'Connor]]（[[Twilio]] VP Engineering、元 Google SRE 16 年）、SREcon22 EMEA 2022-10-25。オンコールの「toxic exceptionalism」批判と SRE 価値命題の再定義。(slides / sre / oncall / organization) - Concepts (更新): [[SRE組織変革]] - Entities (新規): [[Dave O'Connor]], [[Twilio]] ### 2026-07-13 ingest | 6 Reasons You Don't Need an SRE Team - [[6 Reasons You Don't Need an SRE Team]](source 新規) — [[Gerro Wadat]]（2004年Google在籍）。SREモデルの盲目的採用を批判する論考。カーゴカルトSRE・不明確なチャーター・恐怖反応としての採用・責任転嫁の4パターンが導入失敗の典型。(article / sre / organization / anti-pattern) - Concepts (新規): [[カーゴカルトSRE]] - Concepts (更新): [[SRE]] - Entities (新規): [[Gerro Wadat]] ### 2026-07-10 ingest-paper | Failure Trends in a Large Disk Drive Population (FAST 2007) - [[@2007__FAST__Failure Trends in a Large Disk Drive Population]](source 新規) — [[Eduardo Pinheiro]], [[Wolf-Dietrich Weber]], [[Luiz André Barroso]]([[Google]])、FAST 2007。Google 本番 HDD 10 万台超の大規模障害傾向研究。温度・使用率の弱相関と SMART 予測限界を定量化した歴史的基礎文献。(paper / storage / reliability / hardware / smart) - Concepts (新規): [[ハードディスク信頼性]] - Concepts (更新): [[データセンター信頼性]], [[障害予測]] - Entities (新規): [[Eduardo Pinheiro]], [[Wolf-Dietrich Weber]] - Entities (更新): [[Luiz André Barroso]] ### 2026-07-08 ingest-paper | Benchmarking the Overhead of Distributed Tracing Agents (ICPE 2026) - [[@2026__ICPE__Benchmarking the Overhead of Distributed Tracing Agents]](source 新規) — [[David Georg Reichelt]] ほか(Lancaster University Leipzig / Christian-Albrechts-Universität zu Kiel)。7 種の Java トレーシングエージェントを MooBench で統一比較。Kieker 最速(133.92 ns/depth)、OpenTelemetry 業界標準のわりに遅い(315.28 ns/depth)、Pinpoint/Scouter はスパン損失バグ。根本原因: 過度なメタデータ管理・ArrayBasedContext コピー。(paper / distributed-tracing / observability / performance-engineering / benchmarking) - Concepts (新規): [[トレーシングオーバーヘッド]] - Concepts (更新): [[分散トレーシング]], [[継続的プロファイリング]] - Entities (新規): [[David Georg Reichelt]], [[Wilhelm Hasselbring]], [[MooBench]], [[Kieker]] ### 2026-07-07 ingest-paper | VAST AI Operating System (VAST Data 2025) - [[@2025__VAST Data__VAST AI Operating System]](source 新規) — [[VAST Data]]。DASE アーキテクチャ(CNode + DBox + NVMe-oF)を基盤とした AI OS の技術白書。DataStore・DataBase・DataSpace・DataEngine・InsightEngine・AgentEngine を統合。Event Broker が Kafka 比 6 倍スループット/ブローカを主張(ベンダー値)。(whitepaper / storage / ai-infrastructure / rag / distributed) - Concepts (新規): [[DASEアーキテクチャ]] - Concepts (更新): [[コンピュートストレージ分離]], [[分散メッセージブローカ]] - Entities (更新): [[VAST Data]] ### 2026-07-06 ingest-paper | ARGUS: Production-Scale Tracing and Performance Diagnosis for over 10,000-GPU Clusters (arXiv 2026) - [[@2026__arXiv__ARGUS - Production-Scale Tracing and Performance Diagnosis for over 10,000-GPU Clusters]](source 新規) — [[Jiasheng Zhou]] ほか(Tencent)。10,000 GPU 超の本番 LLM 訓練クラスター向け 3 層独立計装トレーシング・段階的診断システム。2% 未満オーバーヘッド、KDE 3,700 倍圧縮、6 ヶ月超本番デプロイ。(paper / aiops / gpu / distributed / llm-training) - Concepts (更新): [[LLM学習モニタリング]], [[GPU観測性]], [[ストラグラー]] - Entities (新規): [[Jiasheng Zhou]] - Entities (更新): [[Tencent]] ### 2026-07-06 ingest-paper | KRCA: An Efficient Root Cause Analysis System in Hyper-Scale Microservice Systems via Agentic AI (ASE '26) - [[@2026__ASE__KRCA - An Efficient Root Cause Analysis System in Hyper-Scale Microservice Systems via Agentic AI]](source 新規) — [[Jiamin Jiang]] ほか([[Nankai University]] / [[Kuaishou Technology]] / 清華大学)。20万超マイクロサービスのハイパースケール RCA: API ドリルダウン + スケルトン因果グラフ + マルチエージェント協調。AC@1=0.88/0.79 (ベースライン比+31%/+32%)、本番77.3%診断時間短縮。(paper / aiops / rca / microservice / multi-agent) - Concepts (更新): [[根本原因分析]], [[LLMによる根本原因分析]], [[因果発見]] - Entities (新規): [[Jiamin Jiang]] - Entities (更新): [[Yongqian Sun]], [[Dan Pei]], [[Kuaishou Technology]] ### 2026-07-06 ingest-paper | A Multi-Dataset Benchmark for Evaluating LLM Agents in Microservice Failure Diagnosis (arXiv 2026) - [[@2026__arXiv__A Multi-Dataset Benchmark for Evaluating LLM Agents in Microservice Failure Diagnosis]](source 新規) — [[Yuanhong Cai]] ほか（CNIC/CAS・南開大学・Alibaba Cloud・清華大学）。推論プロセス評価パラダイムと2データセット（AIOps2025 400件・RCA100 103件）。大規模競技（合計6,093チーム）で検証済み。(paper / aiops / benchmark / llm / rca) - Concepts (更新): [[RCA評価設計]], [[SRE Benchmark]] - Entities (新規): [[Yuanhong Cai]] ### 2026-07-06 ingest | 博士論文を書くということ（北村匡平） - [[博士論文を書くということ]](source 新規) — [[北村匡平]]（映画研究者・東京理科大学教授）による note.com 記事。日本の人文学系博士教育の歴史的変化（論文博士から課程博士へ）、2025年政策変更による早期修了圧力、国際比較（英国3-4年・米国7年・日本5-6年が妥当）、「博士論文は最初の大きなマイルストーン」という位置づけを論じる。(article / academia / phd / japanese-academia) - Concepts (新規): [[日本の博士教育]] - Entities (新規): [[北村匡平]] ### 2026-07-06 ingest-paper | A Checkpoint/Restore Mechanism with Interoperability Among Distinctive WebAssembly Interpreters (APSys 2024 Poster) - [[@2024__APSys__A Checkpoint-Restore Mechanism with Interoperability Among Distinctive WebAssembly Interpreters]](source 新規) — [[Daigo Fujii]]・[[Katsuya Matsubara]]・[[Yuki Nakata]]([[Future University Hakodate]] / [[SAKURA internet Inc.]])。WasmEdge (standard interpreter) と WAMR・Wasm3 (fast interpreter) の間で、プログラムカウンタ・コントロールスタック・バリュースタックを相互変換する異種 interpreter 間 checkpoint/restore の予備研究。JIT/AOT は対象外。(paper / webassembly / checkpoint / migration / edge-computing) - Concepts (更新): [[WebAssembly]]、[[ランタイム中立チェックポイント]]、[[Application Checkpointing]]、[[VM Migration]]、[[Edge-cloud Collaboration]]、[[チェックポイント]] - Entities (新規): [[Wasm3]] - Entities (更新): [[Daigo Fujii]]、[[Katsuya Matsubara]]、[[Yuki Nakata]]、[[Future University Hakodate]]、[[SAKURA internet Inc.]]、[[WasmEdge]]、[[WAMR]] ### 2026-07-05 ingest-paper | Self-Hosted WebAssembly Runtime for Runtime-Neutral Checkpoint/Restore in Edge–Cloud Continuum (Mid4CC ’25) - [[@2025__Mid4CC__Self-Hosted WebAssembly Runtime for Runtime-Neutral Checkpoint-Restore in Edge-Cloud Continuum]](source 新規) — [[Yuki Nakata]]・[[Katsuya Matsubara]]([[Future University Hakodate]] / [[SAKURA internet Inc.]])。Wasm にコンパイルした自己ホスト型ランタイム Chiwawa を中間層とし、ホストランタイム改変なしでランタイムと最適化戦略の両中立な C/R を実現。wasmtime・WAMR・WasmEdge をホストとする場合ともチェックポイントサイズは 1076 KB で一定。(paper / webassembly / checkpoint / migration / edge-computing) - Concepts (新規): [[Self-Hosted WebAssembly Runtime]] - Concepts (更新): [[WebAssembly]]、[[ランタイム中立チェックポイント]]、[[Application Checkpointing]]、[[VM Migration]]、[[Edge-cloud Collaboration]] - Entities (新規): [[Chiwawa]]、[[Wizard]]、[[CRIU]] - Entities (更新): [[Yuki Nakata]]、[[Katsuya Matsubara]]、[[Future University Hakodate]]、[[SAKURA internet Inc.]]、[[WasmEdge]]、[[WAMR]] ### 2026-07-05 ingest-paper | Seamless Self-Healing in WebAssembly Container Orchestration with Runtime-Neutral Checkpointing (CANDARW 2025) - [[@2025__CANDARW__Seamless Self-Healing in WebAssembly Container Orchestration with Runtime-Neutral Checkpointing]](source 新規) — [[Katsuya Matsubara]]・[[Yuzuki Saito]]・[[Daigo Fujii]]・[[Yuki Nakata]]。ランタイム中立チェックポイントを用いて、Wasm コンテナの障害時にホットリスタートを、メモリ圧力時に WasmEdge から WAMR への動的ランタイム切り替えを実現。Pod 退避なしにメモリ圧力を緩和し、ホットリスタートは通常再起動に比べて応答時間劣化を抑制した。(paper / webassembly / container-orchestration / fault-tolerance / self-healing) - Concepts (新規): [[ランタイム中立チェックポイント]]、[[ホットリスタート]]、[[動的ランタイム切り替え]]、[[セルフヒーリング]] - Concepts (更新): [[WebAssembly]]、[[チェックポイント]]、[[コンテナオーケストレーション]] - Entities (新規): [[Yuzuki Saito]] - Entities (更新): [[Katsuya Matsubara]]、[[Daigo Fujii]]、[[Yuki Nakata]]、[[Future University Hakodate]]、[[SAKURA internet Inc.]]、[[WasmEdge]]、[[WAMR]] ### 2026-07-05 ingest-paper | Reducing Attack Surface with Container Transplantation for Lightweight Sandboxing (APSys ’23) - [[@2023__APSys__Reducing Attack Surface with Container Transplantation for Lightweight Sandboxing]](source 新規) — [[Yuki Nakata]]・[[Shintaro Suzuki]]・[[Katsuya Matsubara]]。Linux コンテナを FreeBSD カーネルへ移植し、Linux カーネル固有の脆弱性攻撃を回避するとともに Capsicum を透過適用する Container Transplantation を提案。UnixBench で gVisor 比で大幅に小さいオーバーヘッド(システムコールオーバーヘッドは runC 比 22% 悪化)を達成した。(paper / container / security / virtualization) - Concepts (新規): [[Container Transplantation]], [[Capability-based Security]], [[Capsicum]], [[Lightweight Sandboxing]] - Concepts (更新): [[コンテナ仮想化]] - Entities (新規): [[Shintaro Suzuki]], [[gVisor]], [[Kata Containers]], [[FreeBSD]], [[Linux]], [[Linuxulator]] - Entities (更新): [[Yuki Nakata]], [[Katsuya Matsubara]], [[SAKURA internet Inc.]], [[Future University Hakodate]], [[Docker]] ### 2026-07-05 ingest-paper | Stateful VM Migration Among Heterogeneous WebAssembly Runtimes for Efficient Edge-cloud Collaborations (EdgeSys ’24) - [[@2024__EdgeSys__Stateful VM Migration Among Heterogeneous WebAssembly Runtimes for Efficient Edge-cloud Collaborations]](source 新規) — [[Daigo Fujii]]・[[Katsuya Matsubara]]・[[Yuki Nakata]]。WasmEdge と WAMR 間の異種ランタイムステートフルVMマイグレーションを提案。dirty memory検出でCRIU比30〜100倍のチェックポイント時間短縮を達成し、sqlite-benchでランタイム切り替えが単一ランタイム継続より高速になることを実証した。(paper / webassembly / edge-computing / virtualization / migration) - Concepts (新規): [[WebAssembly]]、[[VM Migration]]、[[Edge Computing]]、[[Edge-cloud Collaboration]]、[[Application Checkpointing]] - Concepts (更新): [[チェックポイント]] - Entities (新規): [[Daigo Fujii]]、[[WasmEdge]]、[[WAMR]] - Entities (更新): [[Yuki Nakata]]、[[Katsuya Matsubara]]、[[Future University Hakodate]]、[[SAKURA internet Inc.]] ### 2026-07-05 ingest-paper | Concentrated Isolation for Container Networks Toward Application-aware Sandbox Tailoring (UCC 2021) - [[@2021__UCC__Concentrated Isolation for Container Networks Toward Application-aware Sandbox Tailoring]](source 新規) — [[Yuki Nakata]]・[[Katsuya Matsubara]]・[[Ryosuke Matsumoto (SAKURA internet)|Ryosuke Matsumoto]]。PaaS/FaaS コンテナ向けにネットワーク隔離に集中した Sandbox Tailoring を提案し、BitVisor ベースの Subaco を実装。runC と同等の起動時間を維持しつつ L2/L3/L4 のパケット偽装攻撃とネットワークリソース攻撃を防御。(paper / container / security / virtualization) - Concepts (新規): [[Sandbox Tailoring]]、[[コンテナネットワーク分離]]、[[Para-passthrough Hypervisor]] - Concepts (更新): [[コンテナ仮想化]] - Entities (新規): [[Yuki Nakata]]、[[Katsuya Matsubara]]、[[Ryosuke Matsumoto (SAKURA internet)|Ryosuke Matsumoto]]、[[Future University Hakodate]]、[[SAKURA internet Inc.]] ### 2026-07-04 ingest | Extending Applications Safely and Efficiently (OSDI'25) - [[@2025__OSDI__Extending Applications Safely and Efficiently]](source 新規) — [[Yusheng Zheng]]・[[Tong Yu]]・[[Yiwei Yang]]・[[Yanpeng Hu]]・[[Xiaozheng Lai]]・[[Dan Williams]]・[[Andi Quinn]]。Extension Interface Model([[EIM]])と [[bpftime]] により、ユーザ空間アプリケーション拡張を安全かつ効率的に行う枠組み。eBPF 互換性を保ちながら Nginx(2% オーバーヘッド)、Redis、FUSE、DeepFlow、sslsniff、Syscount で評価。(paper / operating-systems / ebpf / security / observability) - Concepts (新規): [[Extension Interface Model]] - Concepts (更新): [[eBPF]]、[[BPF]]、[[uprobe]] - Entities (新規): [[Yanpeng Hu]]、[[Xiaozheng Lai]]、[[Dan Williams]]、[[Andi Quinn]]、[[Redis]]、[[FUSE]]、[[OpenSSL]] - Entities (更新): [[Yusheng Zheng]]、[[Tong Yu]]、[[Yiwei Yang]]、[[bpftime]]、[[eunomia-bpf]]、[[DeepFlow]]、[[Nginx]] ### 2026-07-04 ingest | The GPU Observability Gap: Why We Need eBPF on GPU devices(eunomia.dev) - [[@2025__eunomia.dev__The GPU Observability Gap - Why We Need eBPF on GPU devices]](source 新規) — [[Yusheng Zheng]]・[[Tong Yu]]・[[Yiwei Yang]]([[eunomia-bpf]])。GPU 観測性ギャップを指摘し、[[bpftime]] による PTX/SPIR-V 注入で eBPF を GPU カーネル内で実行する技術を解説。CPU-GPU 境界ツール・ベンダープロファイラ・研究ツールの 3 類型の限界を整理した。(article / ebpf / gpu / observability) - Concepts (新規): [[eGPU]]、[[PTX 注入]] - Concepts/Entities (更新): [[GPU観測性]]、[[eBPF]]、[[bpftime]]、[[eunomia-bpf]]、[[Yusheng Zheng]]、[[Tong Yu]]、[[Yiwei Yang]] ### 2026-07-04 ingest | CUDA Events - eBPF-based CUDA API Tracing(eunomia.dev) - [[@2026__eunomia.dev__CUDA Events - eBPF-based CUDA API Tracing]](source 新規) — [[yunwei37]]、github-actions[bot]([[eunomia-bpf]])。`libcudart.so` への eBPF uprobe で CUDA API(`cudaMalloc`/`cudaMemcpy`/`cudaLaunchKernel` 等)をリアルタイムトレースするチュートリアル。ring buffer + libbpf 構成、CUDA API 呼び出しあたり約 2 µs のオーバーヘッド。GPU 内部計装には [[bpftime]]/eGPU への発展を示す。(article / ebpf / cuda / gpu-observability) - Concepts (新規): [[CUDA API トレース]]、[[CUDA]]、[[uprobe]] - Concepts/Entities (更新): [[eBPF]]、[[GPU観測性]]、[[動的計装]]、[[eunomia-bpf]]、[[bpftime]]、[[libbpf]]、[[NVIDIA]] - Entities (新規): [[yunwei37]] ### 2026-07-04 ingest | デジタルネイチャーの十年：計算的物質化から発酵する共在へ - [[@2026__note__デジタルネイチャーの十年 - 計算的物質化から発酵する共在へ]](source 新規) — [[落合陽一]]。[[計算機自然]]の十年を、計算的物質化、境界溶解、身体多様性、[[null2]] の公共空間化、生成AI以後の発酵する共在へ整理する note 論考。(article / philosophy-of-technology / media-art / ai-ethics) - Entities (新規): [[null2]], [[xDiversity]], [[Digital Nature Group]] - Concepts (新規): [[デジタル発酵]], [[デジタル蒸留]], [[Homo Convivium]], [[アクセシビリティ]] - Concepts/Entities (更新): [[計算機自然]], [[マタギドライヴ]], [[批判的デジタルネイチャー]], [[落合陽一]] ### 2026-07-04 ingest | 計算機自然からマタギドライヴへ - 自然の再審と脱人間知性的文明論の10年 - [[@2026__note__計算機自然からマタギドライヴへ - 自然の再審と脱人間知性的文明論の10年]](source 新規) — [[落合陽一]]。2015年の『魔法の世紀』から2026年の『マタギドライヴ』までの [[計算機自然]] を、自然概念の多言語的再審、Simondon 的トランスダクション、自己批判としての辺縁的実存へ整理する note 論考。(article / philosophy-of-technology / media-art) - Entities (新規): [[落合陽一]] - Concepts (新規): [[計算機自然]], [[マタギドライヴ]], [[批判的デジタルネイチャー]], [[主体なき美の美学]], [[ヌルのテトラレンマ]] ### 2026-07-03 ingest-paper | Artificial intelligence tools expand scientists' impact but contract science's focus (Nature 2026) - [[@2026__Nature__Artificial intelligence tools expand scientists' impact but contract science's focus]](source 新規) — [[Qianyue Hao]] ほか(清華大学 BNRist / [[James Evans]] シカゴ大学)。4,130 万件の自然科学論文を BERT 分類器(F1=0.875)でAI拡張研究に同定し、個人利益(3.02倍論文・4.84倍引用・1.37年早い PI 昇進)と集団的縮小(トピック多様性 4.63%減・研究者間交流 22%減)を実証した大規模計量書誌学研究。Nature 649, 1237–1243 (2026)。(paper / scientometrics / ai-impact) - Entities (新規): [[Qianyue Hao]], [[Fengli Xu]], [[Yong Li]], [[James Evans]] - Concepts (新規): [[AIと科学の集中化]] - Concepts (更新): [[AI研究自動化]](横断的知見に個人-集合パラドックスの観察を追記) ### 2026-07-02 ingest-paper | PLaMo 2 Technical Report (arXiv 2509.04897) - [[@2025__arXiv__PLaMo 2 Technical Report]](source 新規) — [[Preferred Networks]]。日本語重視 LLM 系列 [[PLaMo 2]] の技術報告。Samba ベース構成、合成日本語データ、重み再利用、31B→8B の構造化枝刈り・知識蒸留、32K 文脈対応 CPT、vLLM 推論最適化、INT4/FP8 量子化を報告。(paper / arxiv / llm / japanese) - Entities (新規): [[Preferred Networks]], [[PLaMo 2]] - Concepts (更新): [[ハイブリッドアテンションアーキテクチャ]], [[スライディングウィンドウアテンション]], [[状態空間モデル]], [[モデル圧縮]], [[LLM推論]] ### 2026-07-02 ingest-paper | XProf (MLSys 2026) - [[@2026__MLSys2026__XProf - An Open, Scalable and Extensible Profiling System for the Modern ML Stack]](source 新規) — [[Robert Hundt]] ほか([[Google Cloud]])。OpenXLA エコシステム ML プロファイラ。TraceMe 超低オーバーヘッド計装・GTC 精密クロッキング・MapReduce バックエンドで TPU 0.3% 未満オーバーヘッドを達成。PJRT C API 拡張でハードウェア非依存設計。(paper / ml-systems / profiling) - [[MLプロファイリング]](concept 新規) — 現代 ML スタックの性能計測・可視化。スケーラビリティ等 5 課題・TraceMe・Roofline 分析・多段可視化を核心とする。 - [[Rooflineモデル]](concept 新規) — 演算上限と帯域幅上限の屋根線で compute-bound/memory-bound を判定する性能分析フレームワーク。 - Entities (新規): [[Robert Hundt]], [[OpenXLA]] - Entities (更新): [[Google]] — XProf 開発元として MLプロファイリングセクション追加。 ### 2026-07-02 ingest-paper | The Case for Learned Index Structures (arXiv 1712.01208) - [[@2017__arXiv__The Case for Learned Index Structures]](source 新規) — [[Tim Kraska]]・[[Alex Beutel]]・[[Ed H. Chi]]・[[Jeffrey Dean]]・[[Neoklis Polyzotis]]（[[MIT]] / [[Google]]）。索引を「キーから位置または存在を予測するモデル」として再解釈し、[[Learned Index]]、RMI、学習ハッシュ関数、学習 Bloom filter を提案。(paper / database / machine-learning) - [[Learned Index]](concept 新規) — 範囲索引を CDF 近似、点索引を CDF スケーリング、存在索引を分類器 + 漏れ受け用 Bloom filter として扱う learned data structures の入口。 - Entities (新規): [[Alex Beutel]], [[Ed H. Chi]], [[Neoklis Polyzotis]] - Entities (更新): [[Tim Kraska]], [[Jeffrey Dean]], [[Google]], [[MIT]] - Concepts (更新): [[B-Tree]] — B-Tree を CDF 近似モデルとして再解釈し、学習索引の補助構造/フォールバックとして位置づける横断的知見を追記。 ### 2026-07-02 ingest-paper | Retrieval as Reasoning: Self-Evolving Agent-Native Retrieval via LLM-Wiki (arXiv 2605.25480) - [[@2026__arXiv__Retrieval as Reasoning]](source 新規) — [[Haoliang Ming]] ほか（WeChat/Tencent）。Retrieval-as-Reasoning パラダイムを提唱・LLM-Wiki を実装。3 原則: Compilability・Composability・Evolvability。Error Book 自己修正機構。マルチホップ QA SOTA（LightRAG 比 +2.0〜+8.1 F1）。(paper / nlp / rag / agentic) - [[Retrieval-as-Reasoning]](concept 新規) — 検索＝ルックアップを刷新したエージェントネイティブ検索パラダイム。推論と連動した反復的証拠収集。 - [[Haoliang Ming]](entity 新規) — WeChat/Tencent 研究者、LLM-Wiki 筆頭著者。 - [[LLM Wikiパターン]](concept 更新) — LLM-Wiki が Karpathy の抽象パターンの最初の操作的実装であることを横断的知見に追記。 - [[LLM向け情報検索]](concept 更新) — Retrieval-as-Reasoning が「知識組織化が生成品質を規定する」命題を実証した横断的知見を追記。 - [[Tencent]](entity 更新) — LLM-Wiki 論文を関連ソースに追記。 ### 2026-07-01 ingest | Modern Microprocessors: A 90-Minute Guide (Jason Patterson, lighterra.com) - [[Modern-Microprocessors-A-90-Minute-Guide|Modern Microprocessors: A 90-Minute Guide]](source 新規) — Jason Patterson。現代プロセッサマイクロアーキテクチャの包括的解説。パイプライン・スーパースカラー・OOO・分岐予測・SMT・SIMD・キャッシュ・メモリウォール・チップレットを網羅。Intel/AMD/Apple M/ARM 最新数値付き。(web / computer-architecture) - Concepts (新規): [[パイプライン処理]], [[スーパースカラー実行]], [[分岐予測]], [[アウトオブオーダー実行]], [[VLIW]], [[同時マルチスレッディング]], [[SIMDベクトル処理]], [[メモリ階層とキャッシュ]], [[メモリウォール]], [[Brainiac設計]], [[チップレット]] - Entities (新規): [[AMD]] ### 2026-07-01 ingest-slides | The Un-Incident (Andreas Deuschl, SREcon25 EMEA, 2025) - [[@2025__SREcon25EMEA__The Un-Incident]](source 新規) — [[Andreas Deuschl]]（[[Dynatrace]]、USENIX SREcon25 EMEA、2025-10-08、ダブリン）。潜在インシデントの 30〜60% が正式トラッキングを通過しないという実務推計から「アンインシデント」を定義し、No-CI / NOF / Near Miss / Fear Miss の 4 類型と Gray Zone Playbook を提示。(slides / sre / incident-management) - Concepts (新規): [[アンインシデント]] - Concepts (更新): [[インシデント管理]] - Entities (新規): [[Andreas Deuschl]], [[Dynatrace]] ### 2026-07-01 ingest-slides | Modernizing Incident Response with LLMs, RAG, and the MCP (Theofilos Papapanagiotou, SREcon25 EMEA, 2025) - [[@2025__SREcon25EMEA__Modernizing Incident Response with LLMs, RAG, and the MCP]](source 新規) — [[Theofilos Papapanagiotou]]([[Amazon]])、USENIX SREcon25 EMEA(2025-10-08、ダブリン)。[[Model Context Protocol]] による人間・エージェント共通ツールと [[RAGベースクラウド運用支援|RAG]] を組み合わせた障害対応刷新を報告。70ページ + YouTube Whisper 文字起こし。 - Entities (新規): [[Theofilos Papapanagiotou]]。Entities (更新): [[Amazon]], [[Model Context Protocol]] - Concepts (更新): [[agentic SRE]], [[RAGベースクラウド運用支援]] ### 2026-07-01 Tales from the VOID: The Scary Truth About Incident Metrics (SREcon22 Americas) ingest - [[@2022__SREcon22Americas__Tales from the VOID - The Scary Truth About Incident Metrics]](source 新規) — [[Courtney Nash]]（[[Verica]]）、USENIX SREcon22 Americas（2022-03-14）。VOID データベース（1,856 件・610 組織）の実分布を用いて MTTR・持続時間・RCA の統計的不堅牢性と認識論的問題を論証。ニアミス分析・SLO・調整コスト・テーマ/ナラティブへの転換を提案。29 スライド、transcript なし。(slides / sre / incident-management / metrics / postmortem) - Entities (更新): [[Courtney Nash]](発表追加), [[Verica]](VOID 詳細追記) - Concepts (更新): [[インシデントメトリクス]](VOID 実分布・持続時間と深刻度の無相関を横断的知見に追記), [[ポストモーテム]](ニアミス学習価値を追記) ### 2026-07-01 Incident Groundhog Day (SREcon24 EMEA, Hamed Silatani, Uptime Labs) ingest - [[@2024__SREcon24EMEA__Incident Groundhog Day]](source 新規) — [[Hamed Silatani]]（[[Uptime Labs]]、USENIX SREcon24 EMEA、2024-10-30、ダブリン）。20名のインシデントマネージャーが同一ステージドワールドシミュレーション(Black Friday eコマース・APIキー障害)を個別体験した実験報告。13/20が25分以内に解決。解決時間は経験と相関せず、重大度議論に費やした時間が多いほど解決時間が短くなった。Solo Artist vs Band Member の行動パターン差、Allspaw の4カテゴリ(Diagnostic/Therapeutic/Recruiting/Status-Reporting)を実証。31フレーム、YouTube 自動字幕 transcript(1967行)付き。(video / sre / incident-management / incident-simulation) - Entities (新規): [[Hamed Silatani]], [[Uptime Labs]] - Concepts (新規): [[インシデントシミュレーション]] / (更新): [[インシデント重大度評価]](Silatani 実験から実証的補強を追記), [[Incident Commander]](Solo Artist vs Band Member を追記) ### 2026-07-01 Incident Management Metrics that Matter (SREcon25 Americas, Jamie Luck / Laura de Vesine) ingest - [[@2025__SREcon25Americas__Incident Management Metrics that Matter]](source 新規) — [[Jamie Luck]]・[[Laura de Vesine]]([[Datadog]])、USENIX SREcon25 Americas、2025-03-27、サンタクララ。MTTR など naive なメトリクスの統計的問題と逆インセンティブを体系的に論じ、「目標→指標」の 4 ステップサイクルと Datadog の 8 次元代替指標群を提案。ロールプレイ形式。49 スライド、スピーカーノート付き、transcript なし。(slides / sre / incident-management / metrics) - Entities (新規): [[Jamie Luck]] / (更新): [[Laura de Vesine]](役職更新・発表追加), [[Datadog]](発表追加) - Concepts (新規): [[インシデントメトリクス]] / (更新): [[インシデント管理]](横断的知見追記) ### 2026-07-01 From 4 Hours to 8 Minutes with AI Agents that Transform SRE Incident Response (SREcon25 EMEA) ingest - [[@2025__SREcon25EMEA__From 4 Hours to 8 Minutes with AI Agents that Transform SRE Incident Response]](source 新規) — [[Peter Jausovec]]([[Solo.io]])、USENIX SREcon25 EMEA(2025-10、ダブリン)。AIRE (AI Reliability Engineering) フレームワークと [[kagent]](Kubernetes ネイティブ・CNCF サンドボックス)を用いた SRE インシデント対応の自動化。エージェント構造(システムプロンプト+ツール+LLM)・エージェントループ・MCP・A2A プロトコル・能力4段階を解説。17スライド、transcript なし。(slides / sre / aiops / agent / mcp) - Entities (新規): [[Peter Jausovec]], [[Solo.io]], [[kagent]] - Concepts (更新): [[インシデントレスポンスAIレベル]], [[エージェントシステム運用]] ### 2026-07-01 Embracing the Multi-Party Dilemma: Incident Response Across Company Boundaries (SREcon23 EMEA) ingest - [[@2023__SREcon23EMEA__Embracing the Multi-Party Dilemma - Incident Response Across Company Boundaries]](source 新規) — [[Sarah Butt]]([[SentinelOne]])・[[Alex Elman]]([[Indeed]])、USENIX SREcon23 EMEA、2023-10、ダブリン。組織境界を越えたインシデント対応で生じる「Multi-Party Dilemma(多者間ジレンマ)」——情報・影響・時間的の3非対称性——を、Indeed の Learning from Incidents 実践(2021年テーマ分析)を出発点に体系化。ベンダーとの一過性組織(transient organization)・多中心的統治(polycentric governance)モデル、CDN ベンダーとの双方向情報共有によるリトライストーム回避事例を含む。20フレーム(7枚を目視確認)、whisper 自動文字起こし transcript(147行)付き。(video / sre / incident-response / resilience-engineering / human-factors) - Entities (新規): [[Alex Elman]], [[SentinelOne]] / (更新): [[Sarah Butt]], [[Indeed]], [[Laura Maguire]], [[David D. Woods]], [[John Allspaw]], [[Richard I. Cook]] - Concepts (新規): [[Multi-Party Dilemma]] ### 2026-07-01 An Organizational Response to Incidents (SREcon23 Americas) ingest - [[@2023__SREcon23Americas__An Organizational Response to Incidents]](source 新規) — Dr. [[Laura Maguire]]([[Jeli]]、USENIX SREcon23 Americas、2023-03-22、Santa Clara)。Incident Commander への組織的関心の集中を問い直し、対応の大半を担う「フォロワー」の働き——フォロワーシップ(Followship)——を、SNAFUcatchers・IBM・New Relic 等との共同研究知見から体系化。調整のパラドックス・DELEGATE/DELAY/DIMINISH/DROP戦略・フォロワーシップが見える8つの行動・Observe/Talk/Analyzeフレームワークを提示。101スライド、transcript なし。(slides / sre / incident-response / resilience-engineering / human-factors) - Entities (更新): [[Laura Maguire]], [[Jeli]] - Concepts (新規): [[Followship]] / (更新): [[Incident Commander]], [[Joint Activity]], [[Common Grounding]] ### 2026-07-01 Handover Communications in Software Operations: Findings from the Field (SREcon23 Americas) ingest - [[@2023__SREcon23Americas__Handover Communications in Software Operations - Findings from the Field]](source 新規) — [[Chad Todd]]([[CrowdStrike]]、[[Lund University]] 大学院で人的要因・安全科学を専攻、USENIX SREcon23 Americas、2023-03-21、サンフランシスコ)。半構造化インタビューによる質的研究で、CrowdStrike 社内の Network Operations Center・Customer Support Center を対象に、引き継ぎコミュニケーションがエンジニアの確信度に与える影響を Joint Activity・Common Ground・Adaptive Capacity の3概念で分析。6テーマを抽出。38スライド、Whisper transcript(335行)付き。(slides / human-factors / sre / incident-response) - Entities (新規): [[Chad Todd]], [[CrowdStrike]], [[Lund University]], [[David D. Woods]], [[Emily Patterson]], [[Gary Klein]] - Concepts (新規): [[Handover Communications]] / (更新): [[Joint Activity]], [[Common Grounding]], [[レジリエンスエンジニアリング]] ### 2026-07-01 When Systems Flatline—Enhancing Incident Response with Learnings from the Medical Field (SREcon21) ingest - [[@2021__SREcon21__When Systems Flatline - Enhancing Incident Response with Learnings from the Medical Field]](source 新規) — [[Sarah Butt]]（[[Salesforce]] SRE、USENIX SREcon21、2021-10-14、バーチャル開催）。医療分野のアルゴリズム誘導意思決定(ACLS)・迅速安定化(ATLS)・標準化チェックリスト(WHO 手術チェックリスト)の3コンセプトを SRE インシデント対応に応用する提案。14スライド、音声書き起こし付き。(slides / sre / incident-management / medical-analogy) - Entities (新規): [[Sarah Butt]] / (更新): [[Salesforce]] - Concepts (更新): [[Incident Commander]]（医療分野の標準化・チェックリスト文化との横断的知見3件、Warm Blanket Fallacy との層の違いの整理を追加） ### 2026-07-01 The Math behind the Incident Aftermath (SREcon22 APAC) ingest - [[@2022__SREcon22APAC__The Math behind the Incident Aftermath]](source 新規) — [[Ashish Patel]] / [[Sriram Srinivasan]]([[PayPal]] Site Reliability Platform Engineering / Technical Architect、SREcon22 APAC、2022-12-07、シドニー)。FCI(Failed Customer Interactions)によるインシデント顧客影響の定量測定。実例: Baseline 99.9990% vs 実測 Availability 99.6171%、FCI 33,322件。国・製品等5軸セグメンテーション。動画は要ログインのため未取得。34スライド。(slides / sre / incident-management / fci) - Entities (新規): [[Ashish Patel]], [[Sriram Srinivasan]], [[PayPal]] - Concepts (新規): [[インシデント影響測定]] ### 2026-07-01 Evolution of Incident Management at Slack (SREcon21) ingest - [[@2021__SREcon21__Evolution of Incident Management at Slack]](source 新規) — [[Brent Chapman]]（Slack, Staff Engineer / Reliability Pillar、USENIX SREcon21、2021-10-14）。Google iMAG の設計者が Slack の 2018年 reliability crisis を機に Incident Management プログラムをゼロから構築し、Major IC が直面した7課題と解決策(Slack IC・Area Command・pillar別ローテーション等)、IC訓練率実績25%等を解説。41スライド、YouTube 音声 Whisper transcript(301行)付き。(slides / sre / incident-management) - Entities (新規): [[Brent Chapman]] / (更新): [[Slack Technologies]], [[PagerDuty]] - Concepts (更新): [[インシデント管理]](Response/Review/Analysis 3部構成をライフサイクルと対比)、[[Incident Commander]](Area Command・IC訓練率実績・no-give-backsハンドオフ等横断的知見4件) ### 2026-07-01 Incident Response in Unfamiliar Sociotechnical Systems (SREcon20 Americas) ingest - [[@2020__SREcon20Americas__Incident Response in Unfamiliar Sociotechnical Systems]](source 新規) — [[Morgan Collins]]（[[Salesforce]] Principal SRE、SREcon20 Americas、2020-12-07〜09、バーチャル開催）。ICS の起源(FIRESCOPE)・民間企業向けに再編された ICS 組織図・COVID-19 下の組織間インシデント対応の課題・「Warm Blanket Fallacy」を提示。16スライド。transcript なし。(slides / sre / incident-management / incident-commander / ics) - Entities (新規): [[Morgan Collins]], [[Salesforce]] - Concepts (更新): [[Incident Commander]]（Warm Blanket Fallacy・民間 ICS 再編構造・ICS 起源の contradiction 記録を追加） ### 2026-07-01 You Can't Stop Fires with an Ambulance (SREcon18 Asia) ingest - [[@2018__SREcon18Asia__You Can't Stop Fires with an Ambulance]](source 新規) — [[Piers Chamberlain]]（[[Xero]] Head of Site Reliability Engineering、SREcon18 Asia/Australia、2018-06、シンガポール）。クラウド移行後のアラート倍増・インシデント増加への対応として、症状ベースアラート [[Klaxon]](顧客ページヒット率検知)・chatbot [[Multivac]](war room 代替)・運用衛生スコア [[Report Card]] を紹介。2年分の post-mortem を手動横断集計し `#release` が最大の contributing cause と発見。23スライド＋transcript。(slides / sre / alert-management / incident-management) - Entities (新規): [[Piers Chamberlain]], [[Xero]], [[Klaxon]], [[Multivac]], [[Report Card]] - Concepts (更新): [[アラート管理]]（Klaxon の顧客観測ベース安全網アラート・Ewaschuk 論文言及を追加）、[[クロスインシデント分析]]（専任チームなしの単独手動集計を Granda 3要素との対比として追加） ### 2026-07-01 Fixing On-Call When Nobody Thinks It's (Too) Broken (SREcon19 Americas) ingest - [[@2019__SREcon19 Americas__Fixing On-Call When Nobody Thinks It's (Too) Broken]](source 新規) — [[Tony Lykke]]（[[Hudson River Trading]] Trade Systems SRE、SREcon19 Americas、2019-03-25）。高urgencyページを6年間の71,317件(週平均201件)から4か月で1,015件(週平均56件)へ削減。最小限の技術フィルタ層+「9 Really Hard Steps」+git shortlogバイイン可視化。34スライド＋YouTube自動字幕transcript。(slides / sre / alert-management / on-call) - Entities (新規): [[Tony Lykke]], [[Hudson River Trading]] - Concepts (更新): [[アラート疲労]]（統合的アプローチの具体例、沈黙への不安という副作用の横断的知見2件・未解決の問い2件を追加） ### 2026-07-01 nrrd 911 ic me: The Incident Commander Role (SREcon16 Americas) ingest - [[@2016__SREcon16__nrrd 911 ic me - The Incident Commander Role]](source 新規) — [[Alice Goldfuss]]（[[New Relic]] SRE、SREcon16 Americas、2016-03）。ICS の SRE 適応。IC/TL/CL の3役分離・Sev1 拡張（EC/LL）・重大度5段階・Hubot/Nrrd chatbot・全員訓練・3日→3時間 ROI。51スライド＋Whisper transcript。(slides / sre / incident-management) - Entities (新規): [[Alice Goldfuss]] - Entities (更新): [[New Relic]]（Alice Goldfuss と ICS 事例追加） - Concepts (更新): [[Incident Commander]]（ICS 起源・役割構成・重大度表・横断的知見3件追加） ### 2026-07-01 Software Engineering (Boehm, IEEE-TC 1976) ingest - [[@1976__IEEE-TC__Software Engineering]](source 新規) — [[Barry W. Boehm]]（[[TRW Systems and Energy Group]]、1976-12）。ソフトウェアエンジニアリングの古典的定義・ライフサイクルモデル・欠陥修正コスト比・保守コスト比・Area 1 vs Area 2 の二分類。(paper / software-engineering / classic) - Entities (新規): [[Barry W. Boehm]], [[TRW Systems and Energy Group]] - Concepts (新規): [[ソフトウェアライフサイクル]], [[ソフトウェア要件工学]], [[ソフトウェア保守]] ### 2026-07-01 Unified Theory of SRE (SREcon22 EMEA) ingest - [[@2022__SREcon22 EMEA__Unified Theory of SRE]](source 新規) — [[Emil Stolarsky]]（[[Wave Mobile Money]]、SREcon22 EMEA、2022-10）。SRE Book が 2400+ インフラエンジニア規模の Google 固有文脈で書かれている事実と、スタートアップ（Default Dead）向けの SRE 再構築論。Boring Technology・FAANG 技術フロンティア格差を含む。48 スライド。(slides / sre / startup) - Entities (新規): [[Emil Stolarsky]] - Concepts (更新): [[SRE]]（SRE Book の規模前提・スタートアップ SRE 再構築の横断的知見 4 項目追加） ### 2026-07-01 Notes from Production Engineering (SREcon15) ingest - [[@2015__SREcon15__Notes from Production Engineering]](source 新規) — [[Pedro Canahuati]]（Facebook）。SREcon15、2015-03-13。Facebook が 2009〜2015 年に SRE 組織をゼロから再建した記録。SRO の創設/解散・FBAR・Cobalt・ODS・週次 SEV レビュー・FIX MORE WHINE LESS 文化。(video / sre / organization) - Entities (新規): [[Pedro Canahuati]] / [[Jay Parikh]] - Entities (更新): [[Facebook]]（Production Engineering セクション追加） - Concepts (更新): [[SRE組織変革]]（Facebook 5 段階変革の知見 5 項目追加）/ [[ポストモーテム]]（Facebook SEV レビュー実践追加） ### 2026-06-30 Towards Intelligent Incident Management: Why We Need It and How We Make It (ESEC/FSE 2020) - [[@2020__ESEC-FSE__Towards Intelligent Incident Management - Why We Need It and How We Make It]](source 新規) — [[Zhuangbin Chen]] / [[Qingwei Lin]] / [[Michael R. Lyu]] / [[Yingnong Dang]] / [[Dongmei Zhang]] ほか(Sun Yat-sen University / CUHK / Microsoft)。ESEC/FSE 2020。Microsoft 6 コアサービス 2 年超の実証研究。TTB ≈ TTM という依存性課題 + IcM BRAIN フレームワーク(LSTM/GRU/CNN/Random Forest)。TTD/TTE/TTM/TTB/TTF 全指標で p < 1e-10 改善。 - Source (新規): [[@2020__ESEC-FSE__Towards Intelligent Incident Management - Why We Need It and How We Make It]] - Entities (更新): [[Zhuangbin Chen]] / [[Qingwei Lin]] - Concepts (更新): [[インシデント管理]] / [[AIOps]] / [[グレイ障害]] / [[サービス依存グラフ]] ### 2026-06-30 Software Analytics for Incident Management of Online Services: An Experience Report (ASE 2013) - [[@2013__ASE__Software Analytics for Incident Management of Online Services - An Experience Report]](source 新規) — [[Jian-Guang Lou]] / [[Qingwei Lin]] / [[Rui Ding]] / [[Qiang Fu]] / [[Dongmei Zhang]](Microsoft Research Asia) / [[Tao Xie]](UIUC)。ASE 2013 Experience Track。SAS 本番展開経験報告。CAR マイニング・FCA+DMI・ガウス異常・GVSM 治癒推薦の 4 技術。OCE 91% 利用・86% インシデント診断・76% 有用。 - Source (新規): [[@2013__ASE__Software Analytics for Incident Management of Online Services - An Experience Report]] - Entities (新規): [[Rui Ding]] / [[Qiang Fu]] / [[Tao Xie]] - Entities (更新): [[Jian-Guang Lou]] / [[Qingwei Lin]] / [[Dongmei Zhang]] - Concepts (更新): [[インシデント管理]] / [[ログベース障害診断]] ### 2026-06-30 ART: A Unified Unsupervised Framework for Incident Management in Microservice Systems (ASE 2024) - [[@2024__ASE__ART - A Unified Unsupervised Framework for Incident Management in Microservice Systems]](source 新規) — [[Yongqian Sun]] / [[Binpeng Shi]] / [[Mingyu Mao]] ほか([[Nankai University]] / [[Tsinghua University]], ASE 2024)。AD・FT・RCL を SSL 単一モデルで統一した教師なしインシデント管理フレームワーク。CHA(Transformer)→TEM(GRU)→CAL(GraphSAGE)の依存関係モデル化と ILD/SLD 偏差表現で 2 データセットにて監視あり手法を凌駕。 - Source (新規): [[@2024__ASE__ART - A Unified Unsupervised Framework for Incident Management in Microservice Systems]] - Entities (新規): [[Mingyu Mao]] - Entities (更新): [[Yongqian Sun]] / [[Binpeng Shi]] / [[Sibo Xia]] / [[Shenglin Zhang]] / [[Dan Pei]] / [[Minghua Ma]] - Concepts (更新): [[マルチモーダル障害診断]] / [[Fault Localization]] / [[AIOps]] ### 2026-06-30 Xpert: Empowering Incident Management with Query Recommendations via LLMs (ICSE 2024) - [[@2024__ICSE__Xpert - Empowering Incident Management with Query Recommendations via Large Language Models]](source 新規) — [[Yuxuan Jiang]] ほか 10 名（[[University of Michigan]] / [[Microsoft]]、ICSE 2024）。LLM ICL + ベクター検索による KQL クエリ自動推薦。GPT-4 版が Identicality 35.46%(template)/29.18%(full)で全ベースラインを凌駕。本番 1 ヶ月パイロットで CodeT5+ を大幅超過。 - Source (新規): [[@2024__ICSE__Xpert - Empowering Incident Management with Query Recommendations via Large Language Models]] - Entities (新規): [[Zhihao Yang]] - Concepts (新規): [[DSLクエリ推薦]] - Concepts (更新): [[インシデント管理]] / [[LLMによる根本原因分析]] ### 2026-06-30 X-lifecycle Learning for Cloud Incident Management using LLMs (FSE 2024) - [[@2024__FSE__X-lifecycle Learning for Cloud Incident Management using LLMs]](source 新規) — [[Drishti Goel]] ほか（[[Microsoft]]、FSE 2024 Companion）。SDLC 複数段階の X-lifecycle データ（サービス依存・機能説明）を LLM プロンプトに補完。InC DEP が BLEU +5〜38%・NUBIA +54.67%。モニタ SLO 分類も accuracy +4%。 - Entities (新規): [[Aditya Singh]] - Entities (更新): [[Drishti Goel]] / [[Fiza Husain]] / [[Anjaly Parayil]] / [[Supriyo Ghosh]] / [[Xuchao Zhang]] / [[Chetan Bansal]] / [[Saravan Rajmohan]] - Concepts (更新): [[インシデント管理]] / [[根本原因分析]] / [[クラウドモニタリング]] ### 2026-06-30 FaultProfIT: Hierarchical Fault Profiling of Incident Tickets in Large-scale Cloud Systems (ICSE-SEIP 2024) - [[@2024__ICSE-SEIP__FaultProfIT - Hierarchical Fault Profiling of Incident Tickets in Large-scale Cloud Systems]](source 新規) — [[Junjie Huang]] ほか 9 名（[[The Chinese University of Hong Kong]] / [[Sun Yat-sen University]] / [[Huawei Cloud]]、ICSE-SEIP '24）。クラウドポストモーテムの障害パターンプロファイリングを初自動化。Graphormer + 階層誘導型対照学習で F1=78.3%。Huawei Cloud で 6 ヶ月本番稼働。 - Concepts (新規): [[障害パターンプロファイリング]] - Concepts (更新): [[ポストモーテム]] / [[障害傾向分析]] - Entities (更新): [[Junjie Huang]] / [[Michael R. Lyu]] / [[Zhuangbin Chen]] / [[Jinyang Liu]] / [[Yichen Li]] / [[Jiazhen Gu]] / [[Zhihan Jiang]] ### 2026-06-30 Fail through the Cracks: Cross-System Interaction Failures in Modern Cloud Systems (EuroSys 2023) - [[@2023__EuroSys__Fail through the Cracks - Cross-System Interaction Failures in Modern Cloud Systems]](source 新規) — [[Lilia Tang]]・[[Chaitanya Bhandari]] ほか([[University of Illinois Urbana-Champaign]] / [[Purdue University]], EuroSys '23)。CSI 障害(クロスシステムインタラクション障害)を初めて体系的に分析。クラウドインシデントの20%がCSI 障害起因であることを示し、3プレーン分類・根本原因パターン・修正パターンを明らかにした。 - Concepts (新規): [[クロスシステムインタラクション障害]] - Concepts (更新): [[分散システム障害]] / [[クラウドインシデント]] - Entities (新規): [[Lilia Tang]] / [[Chaitanya Bhandari]] / [[Indranil Gupta]] - Entities (更新): [[Tianyin Xu]] / [[Purdue University]] ### 2026-06-30 Metastable Failures in Distributed Systems (HotOS 2021) - [[@2021__HotOS__Metastable Failures in Distributed Systems]](source 新規) — [[Nathan Bronson]]（Rockset、旧 Facebook）ほか([[The Pennsylvania State University]] / [[University of New Hampshire]], HotOS 2021)。分散システムのメタ安定障害を初めて体系化。Stable・Vulnerable・Metastable の 3 状態モデルと sustaining effect(持続効果)の概念を導入し、再試行・ルックアサイドキャッシュ・遅いエラー処理・リンク不均衡の 4 事例を分析。特性メトリクス・隠れキャパシティ・トリガー強度の研究課題を提示。 - Concepts (更新): [[メタ安定障害]](3 状態定義・横断的知見 4 件・未解決の問い 3 件追記) - Entities (新規): [[Nathan Bronson]] / [[Abutalib Aghayev]] / [[Aleksey Charapko]] / [[Timothy Zhu]] / [[Rockset]] / [[The Pennsylvania State University]] / [[University of New Hampshire]] ### 2026-06-30 Gray Failure: The Achilles' Heel of Cloud-Scale Systems (HotOS 2017) - [[@2017__HotOS__Gray Failure - The Achilles' Heel of Cloud-Scale Systems]](source 新規) — [[Peng Huang]] ほか([[Microsoft Research]] / [[Microsoft Azure]], HotOS 2017)。Azure 本番インシデントからグレイ障害(differential observability)を定式化した seminal paper。fail-stop 前提の障害検知機構が機能しない理由と解決方向を示す。 - Concepts (新規): [[差分可観測性]] - Concepts (更新): [[グレイ障害]](公式定義・横断的知見・問い追記) - Entities (新規): [[Jacob R. Lorch]] / [[Murali Chintalapati]] / [[Randolph Yao]] - Entities (更新): [[Peng Huang]] / [[Chuanxiong Guo]] / [[Lidong Zhou]] / [[Yingnong Dang]] / [[Johns Hopkins University]] ### 2026-06-30 mTCP: a Highly Scalable User-level TCP Stack for Multicore Systems (NSDI 2014) - [[@2014__NSDI__mTCP - a Highly Scalable User-level TCP Stack for Multicore Systems]](source 新規) — [[EunYoung Jeong]] ほか([[KAIST]] / Princeton University, NSDI 2014)。ユーザーレベルTCPスタック mTCP。パケットI/Oとソケットイベントの双方向バッチ統合で、8コアでLinux比25倍・MegaPipe比3倍のTCPトランザクション性能を達成。NSDI Community Award 受賞。 - Concepts (新規): [[ユーザーレベルTCPスタック]] - Entities (新規): [[EunYoung Jeong]], [[Dongsu Han]] - Entities (更新): [[KyoungSoo Park]], [[KAIST]] ### 2026-06-30 An Updated Performance Comparison of Virtual Machines and Linux Containers (ISPASS 2015) - [[@2015__ISPASS__An Updated Performance Comparison of Virtual Machines and Linux Containers]](source 新規) — Wes Felter ほか([[IBM Research]] Austin, ISPASS 2015, 2015)。Docker 1.0 と KVM を同一サーバで体系比較。コンテナはほぼ全ベンチマークで VM と同等以上。ランダム I/O は KVM が約 50% 低下、ネットワーク遅延は KVM が +30µs(+80%)。 - Concepts (新規): [[コンテナ仮想化]] - Entities (新規): [[Wes Felter]] - Entities (更新): [[Docker]], [[IBM Research]] ### 2026-06-30 Scaling Memcache at Facebook (NSDI 2013) - [[@2013__NSDI__Scaling Memcache at Facebook]](source 新規) — Rajesh Nishtala ほか 13 名(Facebook Inc., NSDI '13, 2013)。memcached を基盤に秒間数十億リクエスト・数兆アイテムを処理する分散キー値ストアを構築。リースメカニズム・Gutter プール・mcsqueal 無効化・Cold Cluster Warmup・細粒度ロック・適応型スラブアロケータを詳述。 - Concepts (新規): [[分散キャッシュ]] - Concepts (更新): [[一貫性ハッシュ法]], [[Incast]], [[結果整合性]] - Entities (新規): [[Rajesh Nishtala]] - Entities (更新): [[Facebook]] ### 2026-06-30 SSLShader: Cheap SSL Acceleration with Commodity Processors (NSDI 2011) - [[@2011__NSDI11__SSLShader - Cheap SSL Acceleration with Commodity Processors]](source 新規) — [[Keon Jang]]・[[Sangjin Han]]・[[Seungyeop Han]]・[[Sue Moon]]・[[KyoungSoo Park]]（KAIST / UW、NSDI 2011）。コモディティ GPU で RSA を最速 CPU 比 22〜31 倍高速化し、AESNI+NUMA 活用の透過的 SSL プロキシ SSLShader を構築。29K TPS・13 Gbps を達成し高級アプライアンスに匹敵。 - Entities (新規): [[Keon Jang]], [[Sangjin Han]], [[Seungyeop Han]], [[Sue Moon]] - Entities (更新): [[KyoungSoo Park]], [[KAIST]] - Concepts (新規): [[SSL TLS アクセラレーション]] ### 2026-06-30 netmap: A Novel Framework for Fast Packet I/O (USENIX ATC '12) - [[@2012__USENIX-ATC__netmap A Novel Framework for Fast Packet IO]](source 新規) — [[Luigi Rizzo]]（Università di Pisa、ATC '12 Best Paper、2012-06）。カーネル-ユーザー空間間の共有リングバッファ・プリアロケーション・バッチシステムコールで 14.88 Mpps（10 Gbit/s 線速）を達成。従来 socket API 比 20 倍。libpcap エミュレーション経由で既存アプリを改変なし 5 倍以上高速化。 - Concepts (新規): [[netmap]], [[カーネルバイパスネットワーキング]], [[ゼロコピーネットワーキング]] - Entities (新規): [[Luigi Rizzo]] ### 2026-06-30 Live Upgrading Thousands of Servers from an Ancient Red Hat Distribution to 10 Year Newer Debian Based One (LISA 2013) - [[@2013__LISA__Live Upgrading Thousands of Servers from an Ancient Red Hat Distribution to 10 Year Newer Debian Based One]](source 新規) — Marc Merlin(Google, LISA '13, 2013-11)。Red Hat 7.1 から Debian ベース ProdNG へ数千台のライブアップグレード経験報告。ファイルレベル同期・段階的 rpm→deb 移行・ELF バイナリパッチ・フラグデー回避。 - Concepts (新規): [[ファイルレベル同期]], [[ライブアップグレード]] - Entities (新規): [[Marc Merlin]], [[Richard Gooch]] - Entities (更新): [[Google]]（インフラストラクチャ管理セクション追記） ### 2026-06-30 dsync: Efficient Block-wise Synchronization of Multi-Gigabyte Binary Data (LISA13) - [[@2013__LISA__dsync - Efficient Block-wise Synchronization of Multi-Gigabyte Binary Data]](source 新規) — [[Thomas Knauth]]・[[Christof Fetzer]]（[[TU Dresden]]）、LISA 2013、Best Paper。rsync の事後チェックサム計算をカーネル内ブロック追跡に置き換え、最大 100 倍の同期高速化を達成。 - Concepts (新規): [[ブロックレベル差分同期]] - Concepts (更新): [[ファイルレベル同期]]（横断的知見追記） - Entities (新規): [[Thomas Knauth]] - Entities (更新): [[Christof Fetzer]]、[[TU Dresden]] ### 2026-06-30 Mackerelを支える時系列データベース技術（yuuk.io 2015） - [[@2015__yuuk.io__High-Performance-Graphite]](source 新規) — [[Yuuki Tsubouchi]]（2015-04-30、2018-01-06 更新）。[[Mackerel]] の [[Graphite]] 時系列 DB 運用を公開。whisper の RRD 設計・carbon-cache の Twisted 2 スレッド上限・ページキャッシュ圧迫・consistent-hashing クラスタ進化を詳述。2018 年の [[HeteroTSDB]] 移行前夜の設計課題の一次記録。 - Entities (新規): [[Graphite]] - Entities (更新): [[Mackerel]]（Graphite 時代セクション追記）、[[Yuuki Tsubouchi]]（本ブログ記事追記） - Concepts (更新): [[時系列データベース]]（RRD 設計・ページキャッシュ圧迫・多段シャーディングの知見追記） ### 2026-06-30 ウェブシステムの運用自律化に向けた構想 (yuuk.io 2017) - [[@2017__yuuk.io__ウェブシステムの運用自律化に向けた構想]](source 新規) — [[Yuuki Tsubouchi]]（y_uuki、Hatena SRE、2017-12-02）。SRE を「信頼性を制約条件として費用を最小にする最適化問題」と定義し、観測・制御・実験の3軸で自律化を実現する [[Experimentable Infrastructure]] 構想を初提示。はてなシステム規模（サービス100+・ホスト1000+）と複雑性の3要因（ソフトウェア依存・分散システム・入力パターン）も開示。人工知能学会ウェブサイエンス研究会招待講演の内容を加筆修正。 - Concepts (新規): [[Experimentable Infrastructure]] - Entities (更新): [[Yuuki Tsubouchi]]（2017年ブログ記事追記）, [[Hatena]]（自律運用構想追記） - Concepts (更新): [[SRE]]（最適化問題定義・本ソース追記） ### 2026-06-30 Webシステムにおけるデータベース接続アーキテクチャ概論（yuuk.io 2015） - [[@2015__yuuk.io__architecture-of-database-connection]](source 新規) — [[Yuuki Tsubouchi]]（y_uuki、2015-06-30）。WebアプリとRDBMSとのあいだの接続管理モデルを都度接続・常時接続・コネクションプーリングの3種に分類し、ドライバ型（HikariCP）とプロキシ型（PgBouncer・Pgpool）の設計判断と運用事情を解説。PostgreSQL=プロセスモデル・MySQL=スレッドモデルという接続設計の根本差異。 - Concepts (新規): [[データベース接続モデル]], [[コネクションプーリング]] - Entities (新規): [[PgBouncer]], [[Pgpool]] - Entities (更新): [[Yuuki Tsubouchi]]（ブログ記事追記） ### 2026-06-30 2015年Webサーバアーキテクチャ序論 (yuuk.io 2015) - [[@2015__yuuk.io__2015年Webサーバアーキテクチャ序論]](source 新規) — [[Yuuki Tsubouchi]](y_uuki, blog.yuuk.io, 2015-05-28)。Web エンジニア初心者向けのアーキテクチャ解説。シリアル・プリフォーク・マルチスレッド・イベント駆動・ハイブリッドの 5 モデルを定義し、「息の長い技術を優先する」学習方針を提唱。 - Concepts (新規): [[Webサーバアーキテクチャ]] - Concepts (更新): [[C10K問題]]（Webサーバ設計観点からの横断的知見追記）, [[epoll]]（Webサーバ設計観点からの横断的知見追記） - Entities (更新): [[Yuuki Tsubouchi]]（本ブログ記事追記） ### 2026-06-30 Towards end-to-end automation of AI research (Nature 2026) - [[@2026__Nature__Towards end-to-end automation of AI research]](source 新規) — [[Chris Lu]]・[[Cong Lu]]・[[Robert Tjarko Lange]]・[[Yutaro Yamada]]ら([[Sakana AI]])。Nature Vol. 651 (2026-03-26)。The AI Scientist: AI研究のエンドツーエンド自動化パイプライン。生成論文がILCR 2025 ICBINBワークショップ査読(採択率70%)を通過した初事例。 - Entities (新規): [[Chris Lu]], [[Cong Lu]], [[Robert Tjarko Lange]], [[Yutaro Yamada]], [[Shengran Hu]], [[Jakob Foerster]], [[David Ha]], [[Jeff Clune]] - Entities (更新): [[Sakana AI]](The AI Scientist 追記) - Concepts (新規): [[AI研究自動化]], [[エージェント型科学探索]], [[自動査読]] ### 2026-06-30 An AI system to help scientists write expert-level empirical software (Nature 2026) - [[@2026__Nature__An AI system to help scientists write expert-level empirical software]](source 新規) — Eser Aygün* ほか（42 名、*equal contrib alphabetical）、責任著者: Shibl Mourad・[[Michael P. Brenner]]（[[Google Research]] / [[Harvard University]]）。Nature Vol. 654 (2026-05-19)。ERA: LLM + PUCT 木探索で科学ソフトウェアを自動生成。scRNA-seq 40 手法 / COVID-19 14 手法が人手最高水準を凌駕。arXiv:2509.06503v3。 - Entities (new): [[Michael P. Brenner]] - Entities (updated): [[DeepMind]], [[Google Research]] - Concepts (new): [[LLMドリブンコード探索]]（LLM+PUCT木探索コード探索の中核概念）, [[スコアリング可能タスク]]（ERA の問題定式化） - Concepts (updated): [[コードLLM]]（BoN vs 木探索の横断的知見追記） ### 2026-06-30 Practices for Making Alerts Actionable (SRE NEXT 2020) - [[@2020__SRENext2020__Practices for Making Alerts Actionable]](source 新規) — [[Sohei Iwahori]]（[[GREE, Inc]]、SRE NEXT 2020、2020-01-25）。オンプレ→AWS 移行後の月300件超アラートを5本柱で削減した実践。振り分け3段階（Slack/JIRA/PagerDuty）・Alert Operator・SysLoad共通指標。41 スライド。 - Entities (updated): [[Sohei Iwahori]]（SRE NEXT 2020 発表を追記、aliases 修正）, [[GREE, Inc]]（規模・監視スタック・改善実績を追記） - Concepts (updated): [[アクショナブルアラート]]（振り分け3段階・自動復旧によるアクショナブル化経路の横断的知見追記）, [[アラート疲労]]（クラウド移行後のオンプレ由来アラート疲労・SRE Book Chapter 6 引用の横断的知見追記） ### 2026-06-30 Enabling Client-side SLO (SRE NEXT 2024) - [[@2024__SRENext2024__Enabling Client-side SLO]](source 新規) — [[Wataru Tsuda]]（Luup Reliability Engineer、gr1m0h、SRE NEXT 2024、2024-08-04）。iOS/Android クライアントへの SLO 拡張——BLE 操作を含む CUJ 再設定・Datadog APM p75 Latency SLI・Time Slice SLO・Multi-tiered SLOs。41 スライド。 - Entities (更新): [[Wataru Tsuda]], [[Luup]] - Concepts (更新): [[SLI-SLO段階的導入]] ### 2026-06-30 電動マイクロモビリティのシェアサービス「LUUP」におけるEnabling SLOの実践 (SRE NEXT 2023) - [[@2023__SRENext2023__電動マイクロモビリティのシェアサービス「LUUP」におけるEnabling SLOの実践]](source 新規) — [[Wataru Tsuda]]（Luup SRE、gr1m0h、SRE NEXT 2023、2023-09-29）。Enabling SLO（習熟度調査＋勉強会）と IoT 向け CMC（Critical Machine Communication）概念による SLI 設計の実践。35 スライド。 - Entities (new): [[Wataru Tsuda]], [[Luup]] - Concepts (updated): [[サービスレベル目標]]（CMC / IoT SLI 設計・Enabling SLO 組織パターンの横断的知見追記） ### 2026-06-30 プロダクトオーナーとしてSLOに向き合う〜Mackerelチームの事例〜 (SRE NEXT 2023) - [[@2023__SRENext2023__プロダクトオーナーとしてSLOに向き合う〜Mackerelチームの事例〜]](source 新規) — [[渡辺起]]（Hatena、SRE NEXT 2023、2023-09-29）。Mackerel チームの PO 視点 SLO 実践——「チームで判断を回す」を動機に仮値からスタートし Error Budget Policy を緩く始めた事例。39 スライド。 - Entities (new): [[渡辺起]] - Entities (updated): [[Mackerel]]（SLO 導入事例追記） - Concepts (updated): [[サービスレベル目標]]（PO 視点・仮値スタート知見追記）/ [[エラーバジェット]]（緩く始めるパターン知見追記） ### 2026-06-30 DO, RE, Me: Measuring the Effectiveness of Site Reliability Engineering (SREcon22 Americas) - [[@2022__SREcon22Americas__DO RE Me - Measuring the Effectiveness of Site Reliability Engineering]](source 新規) — [[Dave Stanke]]（Google Cloud、SREcon22 Americas、2022-03-16）。DORA 2021 SRE 調査の知見：52% が SRE 実践・SRE はバーンアウト緩和・信頼性は force multiplier・SRE は DevOps の一部を実装。49 スライド。 - Entities (updated): [[Dave Stanke]] - Concepts (updated): [[DORA]] / [[SRE]] ### 2026-06-30 Is the S in SRE for "Security"? (SREcon25 Americas) - [[@2025__SREcon25Americas__Is the S in SRE for Security]](source 新規) — [[John Benninghoff]]（[[Security Differently]]、SREcon25 Americas、2025-03）。Safety-II の正規分布モデルで「パフォーマンス向上 > 制約強化」を示し、DORA・Veracode・Sonatype の3データセットで SRE とセキュリティの連動を実証。29 スライド。 - Entities (new): [[John Benninghoff]] / [[Security Differently]] - Concepts (new): [[Safety-II]] / [[Security Level Objectives]] ### 2026-06-30 How to SRE When Everything is Already on Fire (SREcon19 EMEA) - [[@2019__SREcon19EMEA__How to SRE When Everything is Already on Fire]](source 新規) — [[Alex Hidalgo]]・[[Alex Lee]]（[[Squarespace]] SRE、SREcon19 EMEA、2019-10）。ELK スタックを SRE 7 原則で転換した実録。SLO 定義翌日のエラーバジェット枯渇で「全力対処許可」、ICS 引き継ぎ実践、シャード数根本原因特定。105 スライド。transcript なし。 - Entities (new): [[Alex Hidalgo]] / [[Alex Lee]] - Entities (updated): [[Squarespace]] - Concepts (updated): [[アラート疲労]] / [[サービスレベル目標]] / [[エラーバジェット]] / [[ポストモーテム]] ### 2026-06-30 Beyond Sequential: A Recipe for Async Pipeline Observability and Alerting (SREcon25 Americas) - [[@2025__SREcon25Americas__Beyond Sequential - A Recipe for Async Pipeline Observability and Alerting]](source 新規) — [[Jash Mistry]]・[[Gabriela Medvetska]]（[[eBay]] SRE、SREcon25 Americas、2025-03）。非同期パイプラインへの SLI/SLO 適用レシピ。可用性 SLI（SUCCESS/ABANDONED）・レイテンシ SLI（end-to-end histogram）・マルチウィンドウバーンレートアラート・SLO ダッシュボード・2 件のケーススタディ。50 スライド。YouTube 字幕 transcript 補完（機械精度）。 - Entities (new): [[Jash Mistry]] / [[Gabriela Medvetska]] - Entities (updated): [[eBay]] - Concepts (updated): [[サービスレベル目標]] / [[エラーバジェット]] / [[イベントベースSLO]] / [[アラート疲労]] ### 2026-06-30 Measuring Reliability: What Got Us Here Won't Get Us There (SREcon22 EMEA) - [[@2022__SREcon22EMEA__Measuring Reliability - What Got Us Here Won't Get Us There]](source 新規) — [[Štěpán Davidovič]]（[[Google]] Senior Staff SRE、SREcon22 EMEA、2022-10-25）。SLI/SLO モデルの 3 限界（誤差マージン・線形性仮定・最良データでない）を提示し、オペレーショナリゼーション（問い→モデル→バックテスト）3 ステップを提唱。42 スライド。 - Entities (updated): [[Štěpán Davidovič]] - Concepts (updated): [[サービスレベル目標]] / [[エラーバジェット]] ### 2026-06-30 SLX: An Extended SLO Framework to Expedite Incident Recovery (SREcon21) - [[@2021__SREcon21__SLX - An Extended SLO Framework to Expedite Incident Recovery]](source 新規) — [[Qian Ding]]・[[Xuan Zhang (Ant Group)]]（[[Ant Group]] Infra SRE、SREcon21、2021-10-13）。SLO に SLF（Service Level Factor）・SLD（Service Level Dependency）を追加し、SLX Graph で時系列相関のある異常 SLO 依存チェーンを自動絞り込む。GitOps（ArgoCD + Kubernetes）による宣言的 SLO 管理も実践報告。40 スライド。 - Entities (new): [[Qian Ding]] / [[Xuan Zhang (Ant Group)]] - Entities (updated): [[Ant Group]] - Concepts (updated): [[サービスレベル目標]] / [[異常検知]] ### 2026-06-30 Going from 30 to 30 Million SLOs (SREcon22 EMEA) - [[@2022__SREcon22EMEA__Going-from-30-to-30-Million-SLOs]](source 新規) — [[Alex Palcuie]]（[[Google]] SRE、GCE Compute API、SREcon22 EMEA、2022-10）。GCE の SLO を 6 年で 30 個 → 約 1,000 個 → 3,000 万個（顧客単位）へ拡張した実践。レイテンシ SLO = fast requests / total requests トリック、Rachel Kroll "Your nines are not my nines" の動機、5 エラーのルール（少トラフィック顧客向け動的ターゲット設定）、per-project SLI/SLO 演算グラフを解説。28 スライド。 - Entities (new): [[Alex Palcuie]] - Concepts (updated): [[サービスレベル目標]] / [[SLI-SLO段階的導入]] ### 2026-06-30 Principled Performance Analytics (SREcon22 Americas) - [[@2022__SREcon22Americas__Principled Performance Analytics]](source 新規) — [[Narayan Desai]]・[[Brent Bryan]]（[[Google]] Cloud SRE、SREcon22 Americas、2022-03-16）。SLO の根本的限界（エラー認識に依存し実現不可能）を論じ、代替として 2σ手法（ワークロードコホート＋正規分布 z スコア）を提示。GCP Data Analytics での本番適用・18 時間先行障害検知を実証。40 スライド。(slides / sre / performance / stationarity) - Concepts (new): [[2σ手法]] - Concepts (updated): [[定常性モデル]] / [[サービスレベル目標]] - Entities (new): [[Brent Bryan]] - Entities (updated): [[Narayan Desai]] ### 2026-06-30 Beyond Goldilocks Reliability (SREcon21) - [[@2021__SREcon21__Beyond-Goldilocks-Reliability]](source 新規) — [[Narayan Desai]]（[[Google]] Cloud SRE、SREcon21、2021-10-14）。Goldilocks Reliability の 4 荷重仮定を分析・批判し、定常性（Stationarity）モデルを代替提唱。可用性・パフォーマンス・正確性の 3 次元への定常性仮定付与と階層的診断による根本原因識別を Google 本番事例で示す。23 スライド。(slides / sre / reliability-modeling) - Concepts (new): [[定常性モデル]] - Entities (updated): [[Narayan Desai]] - Concepts (updated): [[SREの工学化]] ### 2026-06-30 Latency and Availability Error Budgets Done Right at Scale (SREcon20 Americas) - [[@2020__SREcon20Americas__Latency-and-Availability-Error-Budgets-Done-Right-at-Scale]](source 新規) — [[Fred Moyer]]（[[Zendesk]]、SREcon20 Americas、2020-12-08）。SLI を `[Metric Identifier][Operator][Metric Value]`、SLO を `[Success Objective][SLI][Period]` の公式で機械解析可能に固定し、レイテンシ+可用性の OR 複合 SLI と単一 EB 管理を実践。マルチサービス構成での EB 伝播問題（依存先 1.0%+0.1% ER が上位層 1.2% ER に見える）を図示。37 スライド。(slides / sre / slo / error-budget) - Entities (new): [[Zendesk]] / Entities (updated): [[Fred Moyer]] - Concepts (updated): [[エラーバジェット]] / [[サービスレベル目標]] ### 2026-06-30 Avoiding Goodhart's Law: Use SLO's as Tools Not Cudgels (SREcon20 Americas) - [[@2020__SREcon20Americas__Avoiding Goodhart's Law]](source 新規) — [[Marco Coulter]]（[[AppDynamics]]、SREcon20 Americas、2020-12-07）。グッドハートの法則の SRE 文脈応用。HL7 医療ラボシステム事例でゲーミングを示し、Code・Infrastructure・CX の 3 次元 SLI/SLO/SLA フレームワーク、パフォーマンスカーブ SLO（多段パーセンタイル）、行動ベース CX SLI（再試行パターン）、反復的 SLO 交渉プロセスを提案。35 スライド。(slides / sre / slo / goodharts-law) - Entities (new): [[Marco Coulter]] / [[AppDynamics]] - Concepts (updated): [[グッドハートの法則]] / [[サービスレベル目標]] / [[SLI-SLO段階的導入]] ### 2026-06-30 The Map Is Not the Territory: How SLOs Lead Us Astray (SREcon19 EMEA) - [[@2019__SREcon19EMEA__The Map Is Not the Territory - How SLOs Lead Us Astray, and What We Can Do about It]](source 新規) — [[Narayan Desai]]（[[Google]] SRE、SREcon19 EMEA、2019-10-03）。SLO の 4 ユースケース分類（Ongoing/Design/Incident Response/Bounding the Tail）と各ユースケースの問題・ベストプラクティスを論じた 45 分動画。テール管理への SLO 不適用論（サンドバッギング問題）と SLO Algebra の未解決問題を提起。(video / sre / slo / srecon) - Entities (new): [[Narayan Desai]] - Concepts (updated): [[サービスレベル目標]] / [[エラーバジェット]] ### 2026-06-29 SLOs for Data-Intensive Services (SREcon19 EMEA) - [[@2019__SREcon19EMEA__SLOs for Data-Intensive Services]](source 新規) — [[Yoann Fouquet]]（[[Booking.com]] SRE、SREcon19 EMEA、2019-10-02）。可用性・レイテンシだけでは検索サービスのステークホルダーが無関心であることを起点に、一貫性(99.99%)・新鮮性(99.9%/xx秒)・完全性・耐久性のデータ品質 SLO を定義したプロセス。プローブ・内部比較・クエリバケット(手動→自動)を経て自動緩和・自動修復を実現。最大の恩恵は Awareness と Confidence。29 スライド。(slides / sre / slo / data-quality) - Entities (new): [[Yoann Fouquet]] / Entities (updated): [[Booking.com]] - Concepts (new): [[データ品質SLO]] / Concepts (updated): [[サービスレベル目標]] / [[SLI-SLO段階的導入]] ### 2026-06-29 Latency SLOs Done Right (SREcon19 Americas) - [[@2019__SREcon19 Americas__Latency SLOs Done Right]](source 新規) — [[Fred Moyer]]（[[Circonus]] Developer Evangelist、SREcon19 Americas、2019-03-27）。パーセンタイル平均化の誤り（~200% 誤差）・ログ/カウンタ/ヒストグラムの 3 手法・libcircllhist のマージ可能ログリニアヒストグラム推奨。50 スライド。(slides / sre / slo / observability) - Entities (new): [[Fred Moyer]] / Entities (updated): [[Circonus]] - Concepts (updated): [[サービスレベル目標]] / [[ヒストグラムメトリクス]] ### 2026-06-29 How Atlassian Is Tackling Error Budgets, Agile Style (SREcon18 Asia) - [[@2018__SREcon18Asia__How Atlassian Is Tackling Error Budgets, Agile Style]](source 新規) — [[Gui Vieiro]]（[[Atlassian]] SRE Team Lead、SREcon18 Asia、2018-06-06）。エラーバジェットのアジャイル段階的導入事例。Error Budgets 0.1・13週中7週トリガー・週次可視化・ブログ公開・Not So Good Result の透明化・SLO 達成率回復（Jul-Sep 下降→Oct 以降 85-100%）。47 スライド。(slides / sre / error-budget) - Entities (new): [[Gui Vieiro]] / [[Atlassian]] - Concepts (updated): [[エラーバジェット]]（アジャイル導入・可視化・Not So Good Result の透明化を横断的知見に追記） ### 2026-06-29 SLOs and SLIs in the Real World: A Deep Dive (SREcon18 Europe/EMEA) - [[@2018__SREcon18Europe__SLOs and SLIs in the Real World - A Deep Dive]](source 新規) — [[Elisa Binette]]・[[Matthew Flaming]]（[[New Relic]]、SREcon18 Europe/EMEA、2018-08-30）。Americas 版の再演。ケイパビリティ駆動 SLI/SLO 7 ステップ・ハードシャード per-shard SLO・複合 SLO・インフラ SLO・UI SLI・dumb SLI・10 takeaway。音声収録あり。(slides / sre / slo) - Entities (updated): [[Matthew Flaming]] / [[Elisa Binette]]（EMEA 版ソース追加） - Concepts (updated): [[サービスレベル目標]]（EMEA ソース追加） ### 2026-06-29 SLOs and SLIs in the Real World: A Deep Dive (SREcon18 Americas) - [[@2018__SREcon18Americas__SLOs and SLIs in the Real World - A Deep Dive]](source 新規) — [[Elisa Binette]]・[[Matthew Flaming]]（[[New Relic]]、SREcon18 Americas、2018-03-28）。ケイパビリティ駆動 SLI/SLO 定義 7 ステップ・ハードシャード per-shard SLO・複合 SLO・インフラ SLO 設計・全体 dumb SLI・10 の takeaway。(slides / sre / slo) - Entities (new): [[Matthew Flaming]] / [[Elisa Binette]] / [[New Relic]] - Concepts (updated): [[サービスレベル目標]]（横断的知見 4 項目・未解決の問い 4 項目追加） ### 2026-06-29 Error Budgets and Risks (SREcon15, 2015) - [[@2015__SREcon15__Error Budgets and Risks]](source 新規) — [[Marc Alvidrez]]（[[Google]] Senior Staff SRE、SREcon15、2015-03-16）。エラーバジェットフレームワークの起源と実践。SLA はミニマムかつマクシマム・リクエスト成功率による可用性計算・1% クラスターによるリスク境界化・エラーバジェット = 可用性 − SLA ターゲット。Whisper transcript 付き。(slides / sre / error-budget) - Entities (new): [[Marc Alvidrez]] - Concepts (updated): [[エラーバジェット]]（起源・1% 問題・権利でなく獲得するもの、を横断的知見に追記） ### 2026-06-29 Effective Harnesses for Long-Running Agents (Anthropic Engineering Blog 2025) - [[@2025__Anthropic Engineering Blog__Effective Harnesses for Long-Running Agents]](source 新規) — [[Justin Young]] ほか（[[Anthropic]]、2025-11-26）。長時間エージェントが複数コンテキストウィンドウにまたがって安定動作するハーネス設計。Initializer + Coding の 2 役分離、JSON フィーチャーリスト、Puppeteer MCP E2E テスト。(article / agent / harness / software-engineering) - Concepts (new): [[マルチコンテキストウィンドウエージェント]] - Concepts (updated): [[Harness Engineering]], [[ループエンジニアリング]] - Entities (new): [[Justin Young]] ### 2026-06-29 Harness Design for Long-Running Application Development (Anthropic Engineering Blog 2026) - [[@2026__Anthropic Engineering Blog__Harness Design for Long-Running Application Development]](source 新規) — [[Prithvi Rajasekaran]]（[[Anthropic]] Labs、2026-03-24）。自己評価バイアス・コンテキスト不安・コヒーレンス喪失に対応する発展的ハーネス設計。GAN 着想のジェネレータ・エバリュエータ分離、Planner + Generator + Evaluator 3 役構成、荷重仮定（Load-Bearing Assumptions）。Solo vs フルハーネス比較（20 分/$9 vs 6 時間/$200）。(article / agent / harness / software-engineering) - Concepts (updated): [[マルチコンテキストウィンドウエージェント]], [[Harness Engineering]], [[ループエンジニアリング]] - Entities (updated): [[Prithvi Rajasekaran]] ### 2026-06-29 Harness Engineering: leveraging Codex in an agent-first world (OpenAI 2026) - [[OpenAI-Harness-Engineering]](source 新規) — [[OpenAI]]（2026-02-11）。3 名のエンジニアが Codex で 5 ヶ月・手書き 0 行で 100 万行の本番コード生成。AGENTS.md 縮小・機械的依存関係強制・フィードバックループ・GC タスクからなる「ハーネス」概念を提唱。(article / agent / codex / software-engineering) - Entities (new): [[Symphony]] - Concepts (new): [[Harness Engineering]] - Entities (updated): [[OpenAI]] (Harness Engineering・Codex セクション追記) ### 2026-06-29 Memory in the Age of AI Agents (arXiv 2025) - [[@2025__arXiv__Memory in the Age of AI Agents]](source 新規) — [[Yuyang Hu]] ほか 47 名（[[National University of Singapore]] 等、2025-12-18）。LLM ベースエージェントのメモリシステムを形態(Forms)・機能(Functions)・動態(Dynamics)の 3 軸で統一分類する 107 ページのサーベイ。300 以上の文献を体系化し、生成的メモリ・RL 統合・マルチモーダルメモリ等 7 フロンティアを提示。(paper / agent-memory / llm / survey) - Concepts (new): [[エージェントメモリ]] - Concepts (updated): [[コンテキストエンジニアリング]] - Entities (new): [[Yuyang Hu]], [[MemGPT]], [[Mem0]] - Entities (updated): [[National University of Singapore]] ### 2026-06-29 VictoriaMetrics vs Prometheus (Jorijn Blog ~2025) - [[@2025__Jorijn-Blog__VictoriaMetrics vs Prometheus]](source 新規) — [[Jorijn Schrijvershof]]（オランダのDevOpsコンサルタント、jorijn.com）。実務家視点でVictoriaMetricsとPrometheusを比較。新規スタックではVictoriaMetricsをデフォルト推奨（RAM約1/3、グレースフルデグラデーション、HA構成の単純さ）。Prometheusは既存安定スタック・CNCF統治要件・PromQL移植性が必須の場合に正当化。MetricsQLは74%PromQL互換（PromLabs評価）。(article / sre / monitoring / victoriametrics / prometheus) - Concepts (new): [[MetricsQL]] - Entities (new): [[Jorijn Schrijvershof]], [[PromLabs]] - Entities (updated): [[VictoriaMetrics]], [[Prometheus]] ### 2026-06-30 Who owns the Service Level? (SRE NEXT 2022) - [[@2022__SRENext2022__Who owns the Service Level?]](source 新規) — [[近藤武士]]（[[Recruit]]、SRE NEXT 2022、2022-05-15）。スタディサプリでの SLO 導入と Error Budget Policy 行動定着の失敗——非機能要求への予算・権限不足が原因——と、技術戦略グループ発足（1:1:1 予算）による解決。79 スライド。(slides / sre / slo / sre-next) - Entities (new): [[近藤武士]], [[Recruit]], [[スタディサプリ]] - Concepts (updated): [[サービスレベル目標]], [[エラーバジェット]] ### 2026-06-29 How We Foster "Reliability" in Diversity (SRE NEXT 2022) - [[@2022__SRE NEXT__How We Foster Reliability in Diversity]](source 新規) — [[Narimichi Takamura]]（[[Topotal]]、SRE NEXT 2022、2022-05-14）。組織の多様性に応じた SRE の育て方。5ステップ・氷山モデル（Level 1/2/3）・MVV 策定・ダイナミックケイパビリティ（Sensing/Seizing/Transforming）・組織の信頼性マインドセット 5フェーズ。50 スライド。(slides / sre / organization) - Concepts (new): [[ダイナミックケイパビリティ]], [[組織の信頼性マインドセット]] - Concepts (updated): [[SRE組織変革]] - Entities (updated): [[Narimichi Takamura]], [[Topotal]] ### 2026-06-29 小さくはじめるSLI/SLO ～育てながら組織に定着させる実践知～ (Road to SRE NEXT 2026 @神戸) - [[@2026__Road to SRE NEXT 2026 神戸__小さくはじめるSLI-SLO 育てながら組織に定着させる実践知]](source 新規) — [[Narimichi Takamura]]（[[Topotal]]、2026-06-15）。SLI/SLO 導入の 3 つの難点（定義・運用・定着）と、SRE 4 ステップ導入法を援用した段階的フレームワーク・SLO 違反ポリシー 5 段階拡大・成熟度モデル（3 軸 × 5 段階）。48 スライド。(slides / sre / slo) - Concepts (new): [[SLI-SLO段階的導入]] - Concepts (updated): [[サービスレベル目標]], [[エラーバジェット]] - Entities (updated): [[Narimichi Takamura]], [[Topotal]] ### 2026-06-29 Rethinking Incident Response: Context-Aware AI in Practice (SRE NEXT 2025) - [[@2025__SRE NEXT 2025__Rethinking Incident Response - Context-Aware AI in Practice]](source 新規) — [[Ryota Yoshikawa]]（[[Topotal]]、SRE NEXT 2025、2025-08-19）。SAE 自動運転レベル対応の IR0〜IR5 フレームワーク提唱。MCP + Coding Agent により IR2〜IR3 が現実的になった現状と、Waroom MCP を用いた IR2+ デモ(Sentry→Claude→GitHub→クローズ)を示す。OpenRCA(11%) / AIOpsLab(RCA 14%)から RCA・緩和は研究段階。(slides / sre / incident-response / aiops) - Concepts (new): [[インシデントレスポンスAIレベル]] - Concepts (updated): [[インシデント管理]], [[AIOps]] - Entities (updated): [[Ryota Yoshikawa]], [[Waroom]] ### 2026-06-29 組織的なインシデント対応を目指して / SRE NEXT 2024 - [[@2024__SRE NEXT 2024__組織的なインシデント対応を目指して]](source 新規) — [[Narimichi Takamura]]（[[Topotal]]、SRE NEXT 2024、2024-08-03）。インシデントレスポンス改善の3難点を整理し、Google SRE の信頼性マインドセットをベースとした[[インシデント対応成熟度モデル]]（Pre-Incident/Response/Post-Incident の3フェーズ×9プロセス×Absent/Reactive/Proactive/Strategic の4段階）を提案。評価ステップ・フェーズマイグレーション手順・モデル活用上の注意を含む。(slides / sre / incident-management / maturity-model) - Concepts (new): [[インシデント対応成熟度モデル]] - Entities (updated): [[Narimichi Takamura]], [[Topotal]], [[SRE NEXT]] - Concepts (updated): [[インシデント管理]], [[Incident Commander]] ### 2026-06-29 CoT Monitoring: Where Does a Hot Safety Problem Come From? (SAIL Blog 2026) - [[@2026__SAILBlog__CoT-Monitoring-Where-Does-a-Hot-Safety-Problem-Come-From]](source 新規) — [[Peter Hase]]・[[Christopher Potts]]（[[Stanford University]]、SAIL Blog、2026-06-18）。CoT モニタリングが 2023–2026 年に急浮上した知的系譜を解説。監視フレームワーク（Hendrycks 2021）と CoT を説明可能性面とする NLP 研究（Ling 2017 / Camburu 2018）の 2 系譜収束。Naihin et al. 2023 → OpenAI o1（2024-09）→ Baker et al. 2025 の 18 ヶ月空白タイムライン。(article / ai-safety / llm / interpretability) - Entities (new): [[Peter Hase]], [[Christopher Potts]] - Entities (updated): [[Dan Hendrycks]] - Concepts (new): [[CoTモニタリング]] - Concepts (updated): [[Chain-of-Thought Prompting]] ### 2026-06-29 On-demand Container Loading in AWS Lambda (USENIX ATC 2023) - [[@2023__ATC__On-demand Container Loading in AWS Lambda]](source 新規) — [[Marc Brooker]] ほか([[Amazon Web Services]])。USENIX ATC 2023 Best Paper Award。AWS Lambda がコンテナイメージ(最大 10GiB)をコールドスタートレイテンシを悪化させずに毎秒 15,000 コンテナ起動する仕組み。決定論的フラット化・収束暗号化・3 階層キャッシュ・4-of-5 イレイジャーコーディングの組み合わせ。(paper / serverless / distributed-systems / cloud) - Entities (new): [[Marc Brooker]], [[AWS Lambda]], [[Firecracker]] - Concepts (new): [[コンテナ起動高速化]], [[収束暗号化]], [[イレイジャーコーディング]], [[メタ安定障害]] ### 2026-06-29 Project Silica: Towards Sustainable Cloud Archival Storage in Glass (SOSP 2023) - [[@2023__SOSP__Project Silica - Towards Sustainable Cloud Archival Storage in Glass]](source 新規) — [[Antony Rowstron]] ほか 57 名([[Microsoft]])。SOSP 2023。溶融石英ガラス媒体を基盤とした初のクラウドアーカイバルストレージシステム。フェムト秒レーザー書き込み + 偏光顕微鏡読み出し + ML デコーダ。1000 年超耐久・ビット腐敗なし・スクラビング不要。論理パーティション分割シャトル管理で SLO 内処理を実証。(paper / storage / cloud / systems / sustainability) - Entities (new): [[Antony Rowstron]], [[Project Silica]] - Concepts (new): [[アーカイバルストレージ]], [[ガラスストレージ]], [[ネットワーク符号化]] ### 2026-06-29 In Search of an Understandable Consensus Algorithm (USENIX ATC 2014) - [[@2014__ATC__In Search of an Understandable Consensus Algorithm]](source 新規) — [[Diego Ongaro]]・[[John Ousterhout]]（[[Stanford University]]）。USENIX ATC 2014 Best Paper Award。理解しやすさを第一設計目標とした Raft 合意アルゴリズム。multi-Paxos 等価。(paper / distributed / consensus) - Entities (new): [[Diego Ongaro]], [[John Ousterhout]] - Concepts (new): [[分散コンセンサス]], [[複製ステートマシン]], [[リーダー選出]] - Concepts (updated): [[分散コンセンサス回避]] ### 2026-06-28 CockroachDB: The Resilient Geo-Distributed SQL Database (SIGMOD 2020) - [[@2020__SIGMOD__CockroachDB - The Resilient Geo-Distributed SQL Database]](source 新規) — [[Rebecca Taft]] ほか([[Cockroach Labs]])。SIGMOD 2020。地理分散 SQL DBMS の設計。MVCC + Read Refresh + Parallel Commits + HLC で直列化可能分離を汎用クラウドサーバーで実現。TPC-C 100,000 ウェアハウス 98.8% 効率。(paper / database / distributed / sql / oltp) - Entities (new): [[CockroachDB]], [[Cockroach Labs]], [[Rebecca Taft]] - Entities (updated): [[Spanner]] - Concepts (new): [[地理分散SQLデータベース]], [[ハイブリッド論理クロック]] - Concepts (updated): [[分散トランザクション]], [[外部一貫性]] ### 2026-06-29 Data Center Networking 基盤論文 5 本一括取り込み - [[@2008__SIGCOMM__A Scalable Commodity Data Center Network Architecture]](source 新規) — [[Mohammad Al-Fares]] ほか（UCSD、SIGCOMM 2008）。k-ary Fat-Tree トポロジで安価な商用スイッチのみから full bisection bandwidth を実現。27,648 ホスト・従来比 77% コスト削減。(paper / networking / datacenter) - [[@2009__SIGCOMM__VL2 - A Scalable and Flexible Data Center Network]](source 新規) — [[Albert Greenberg]] ほか（Microsoft Research、SIGCOMM 2009）。Clos トポロジと Valiant Load Balancing で uniform high capacity。IP-in-IP カプセル化とディレクトリサービスでネットワーク仮想化。(paper / networking / datacenter) - [[@2010__NSDI__Hedera - Dynamic Flow Scheduling for Data Center Networks]](source 新規) — [[Mohammad Al-Fares]] ほか（NSDI 2010）。ECMP のハッシュ衝突によるエレファントフロー帯域損失を動的フロースケジューリングで解決。最適比 96% の二分帯域幅達成。(paper / networking / datacenter) - [[@2009__SIGCOMM__PortLand - A Scalable Fault-Tolerant Layer 2 Data Center Network Fabric]](source 新規) — [[Radhika Niranjan Mysore]] ほか（SIGCOMM 2009）。PMAC とファブリックマネージャで L2 セマンティクスを維持しつつスケーラブルなファブリック。65ms 障害収束。(paper / networking / datacenter) - [[@2010__SIGCOMM__Data Center TCP (DCTCP)]](source 新規) — [[Mohammad Alizadeh]] ほか（SIGCOMM 2010）。ECN マーキング割合から輻輳度を推定し段階的ウィンドウ調整。Incast・キュー蓄積・バッファ圧迫を同時解決。(paper / networking / datacenter / congestion-control) - Entities (new): [[Mohammad Al-Fares]], [[Amin Vahdat]], [[Albert Greenberg]], [[Mohammad Alizadeh]], [[Radhika Niranjan Mysore]], [[Barath Raghavan]], [[Sivasankar Radhakrishnan]], [[VL2]] - Entities (updated): [[James Hamilton]] - Concepts (new): [[データセンターネットワークトポロジ]], [[ECMP]], [[Valiant Load Balancing]], [[フロースケジューリング]], [[データセンターL2ファブリック]], [[Incast]] - Concepts (updated): [[データセンター輻輳制御]], [[負荷分散]], [[マルチプレーンClosトポロジ]], [[AIデータセンタートポロジ]], [[データセンターネットワーク信頼性]] ### 2026-06-28 Amazon Aurora: On Avoiding Distributed Consensus for I/Os, Commits, and Membership Changes (SIGMOD 2018) - [[@2018__SIGMOD__Amazon Aurora - On Avoiding Distributed Consensus for I Os, Commits, and Membership Changes]](source 新規) — [[Alexandre Verbitski]] ほか([[Amazon Web Services]])。SIGMOD 2018 Industry Track。Aurora 2017 論文の続編。SCL/PGCL/VCL/VDL 一貫性ポイント階層・単一セグメント直接読み（クォーラム増幅回避）・クォーラムセット + エポックによる非ブロッキックメンバーシップ変更・フル/テールセグメント非対称設計（約 3× コスト）の 4 貢献。(paper / database / distributed / cloud) - [[分散コンセンサス回避]](concept 新規) — 2PC/Paxos を使わずに書き込みコミット・読み込み・メンバーシップ変更を達成する設計アプローチ。Aurora の SCL/PGCL/VCL 階層・クォーラムセット・エポックを核として整理。(distributed / database) - [[クォーラムベースレプリケーション]](concept 更新) — クォーラムセット + エポック・フル/テール非対称設計を追記。 - [[クラッシュリカバリ]](concept 更新) — エポックフェンシング・Undo 並行実行を追記。 - [[Write-Ahead Logging (WAL)]](concept 更新) — 分散 LSN 一貫性ポイント階層・VDL/MTR 原子性保証を追記。 - [[Alexandre Verbitski]](entity 更新) — 2018 論文を追加。 - [[Amazon Aurora (Database)]](entity 更新) — 2018 論文とコンセンサス回避メカニズムへの言及を追加。 ### 2026-06-28 F1: A Distributed SQL Database That Scales (VLDB 2013) - [[@2013__VLDB__F1 - A Distributed SQL Database That Scales]](source 新規) — [[Jeff Shute]] ほか([[Google]])。VLDB 2013 / PVLDB Vol.6 No.11、pp.1068–1079。Spanner 上に構築した分散 OLTP/OLAP SQL DB。AdWords 基盤。100 TB 超・5 ナイン可用性・フル SQL を両立。階層スキーマ・楽観的/悲観的/スナップショット 3 種トランザクション・非ブロッキングスキーマ変更・変更履歴ファーストクラス機能・ハッシュ分散 SQL エンジンが特徴。(paper / distributed / database / sql) - [[Jeff Shute]](entity 新規) — Google エンジニア。F1 論文筆頭著者。(person / database) - [[分散SQLデータベース]](concept 新規) — スケール・可用性・強一貫性・SQL の 4 要件を同時に満たす分散 DB の設計原則。F1 と Spanner の 2 ソースを横断。(database / distributed) - [[分散トランザクション]](concept 更新) — 楽観的 vs 悲観的の条件分岐・2PC 参加者数の実用上限・グローバルインデックス一貫性コストを横断的知見に追記。 - [[Google]](entity 更新) — Spanner・F1 の分散データベース基盤を追記。 ### 2026-06-28 Amazon MemoryDB: A Fast and Durable Memory-First Cloud Database (SIGMOD 2024) - [[@2024__SIGMOD__Amazon MemoryDB - A Fast and Durable Memory-First Cloud Database]](source 新規) — [[Yacine Taleb]] ほか([[Amazon Web Services]])。SIGMOD-Companion 2024。Redis API 完全互換・11 9s 耐久性のインメモリクラウド DB。耐久性をマルチ AZ トランザクションログへ分離し、書き込み後ろロギング・オフボックススナップショット・ログベースリーダー選出で強い整合性と高可用性を両立。2021 年 GA。(paper / database / cloud / distributed-systems) - [[Amazon MemoryDB]](entity 新規) — AWS フルマネージドインメモリ DB サービス。Redis API 互換・11 9s 耐久性・4 9s 可用性。(product / database / cloud) - [[Yacine Taleb]](entity 新規) — AWS Canada 所属エンジニア。Amazon MemoryDB 論文筆頭著者。(person / database / cloud) - [[インメモリデータベース]](concept 新規) — DRAM をプライマリストレージとするシステムの耐久性トレードオフと解決アプローチを整理。(database / distributed-systems / cloud) - [[ストレージ計算分離]](concept 新規) — 計算と耐久性/ストレージを独立コンポーネントに分解するパターン。Aurora・MemoryDB・PolarDB を横断比較。(database / distributed-systems / cloud) ### 2026-06-28 Spanner: Google's Globally Distributed Database (OSDI 2012 / TOCS 2013) - [[@2013__TOCS__Spanner - Google's Globally Distributed Database]](source 新規) — [[James C. Corbett]] ほか([[Google]])。OSDI 2012 / TOCS 2013。TrueTime(GPS + 原子時計、ε ≈ 4ms)と commit wait による外部一貫性保証。ディレクトリ単位の地理的配置制御。スナップショットトランザクションはロックフリー。F1(Google 広告バックエンド)が最初のクライアント。(paper / distributed / database / systems) - [[James C. Corbett]](entity 新規) — Google エンジニア。Spanner 第一著者。(person / distributed / systems) - [[外部一貫性]](concept 新規) — 分散トランザクションにおける最強一貫性保証。線形化可能性と等価。Spanner の TrueTime + commit wait で実現。(concept / distributed / database) - [[TrueTime]](concept 新規) — Google の時刻 API。不確実性区間 [earliest, latest] を返す。GPS + 原子時計実装。ε ≈ 4ms。(concept / distributed / systems) - [[分散トランザクション]](concept 新規) — 複数パーティションにまたがる ACID 操作。2PC on Paxos。スナップショット(ロックフリー)と RW(悲観的ロック)の 2 種。(concept / distributed / database) - [[Jeffrey Dean]](entity 更新) / [[Sanjay Ghemawat]](entity 更新) — Spanner 共著として貢献追記。 ### 2026-06-28 Amazon Aurora: Design Considerations for High Throughput Cloud-Native Relational Databases (SIGMOD 2017) - [[@2017__SIGMOD__Amazon Aurora - Design Considerations for High Throughput Cloud-Native Relational Databases]](source 新規) — [[Alexandre Verbitski]] ほか（AWS）。MySQL 互換クラウドネイティブ OLTP DB。「ログがデータベース」設計・6 ウェイ AZ+1 クォーラム・10 秒クラッシュリカバリ・ミラード MySQL 比 35 倍スループット。(paper / database / distributed) - [[Amazon Aurora (Database)]](entity 新規) — AWS の MySQL/PostgreSQL 互換 OLTP DB サービス。2015 年 GA。(product / database) - [[Alexandre Verbitski]](entity 新規) — AWS 研究者。Aurora 筆頭著者。(person / researcher) - [[クォーラムベースレプリケーション]](concept 新規) — V=6 Vw=4 Vr=3 の AZ+1 設計と相関障害モデル。(distributed / database) - [[コンピュートストレージ分離]](concept 新規) — ログ+ストレージ+リカバリを独立サービスに切り出すアーキテクチャパターン。(distributed / database) - [[OLTPシステムアーキテクチャ]](concept 更新) — クラウドネイティブのネットワークボトルネック問題を横断的知見に追記。 - [[Write-Ahead Logging (WAL)]](concept 更新) — 「ログがデータベース」設計を横断的知見に追記。 - [[クラッシュリカバリ]](concept 更新) — 継続的 Redo・10 秒リカバリを横断的知見に追記。 - [[分散ストレージ]](concept 更新) — OLTP 専用ストレージのログ処理責任を横断的知見に追記。 ### 2026-06-28 CPU Utilization is Wrong (Brendan Gregg, 2017) - [[@2017__brendangregg.com__CPU Utilization is Wrong]] — [[Brendan Gregg]](Netflix, 2017)。%CPU は「非アイドル時間」でありメモリ待機も含む。IPC(Instructions Per Cycle)が真の処理効率指標で、IPC < 1.0 はメモリバウンド・IPC ≥ 1.0 は命令バウンドを示す。CPU-DRAM ギャップにより現代の高 %CPU の多くは DRAM 待機。(source 新規 / article / performance / observability) - [[Brendan Gregg]](entity 新規) — パフォーマンスエンジニア・DTrace / Flame Graph / BPF ツール作者。(person / performance) - [[CPU利用率]](concept 新規) — %CPU の定義・誤謬・CPU-DRAM ギャップ・その他の誤解因子(スロットリング・可変クロック・スピンロック)。(concept / performance) - [[Instructions Per Cycle]](concept 新規) — IPC の定義・診断基準(< 1.0 / ≥ 1.0)・Linux perf による計測法。IPCメトリクス(Inter-Process Communication)と別概念。(concept / performance / hardware) - [[ハードウェアカウンタ]](concept 更新) — IPC / %CPU 乖離の横断的知見追記。 ### 2026-06-28 Characterizing Cloud Computing Hardware Reliability (SoCC 2010) - [[@2010__SoCC__Characterizing Cloud Computing Hardware Reliability]] — [[Kashi Venkatesh Vishwanath]]・[[Nachiappan Nagappan]]([[Microsoft Research]])。2010 年 SoCC。100,000 台超のサーバーを 14 か月観測した初の大規模データセンターハードウェア障害実証研究。AFR 約 8%・HDD が初回障害の 70%・連続障害はインバース曲線(R²=0.974)・予測因子はデータセンター名とメーカー名。(source 新規 / paper / datacenter / reliability) - [[Kashi Venkatesh Vishwanath]](entity 新規) — Microsoft Research 研究者。データセンターハードウェア信頼性を専門とする。(person / researcher) - [[Nachiappan Nagappan]](entity 新規) — Microsoft Research 研究者。ソフトウェア信頼性工学を専門とする。(person / researcher) - [[データセンター信頼性]](concept 更新) — AFR 約 8% の実測値・HDD 初回障害支配性・障害経験済みサーバーの状態遷移・予測因子のデータセンター名/メーカー名を横断知見に追記。 - [[障害予測]](concept 更新) — データセンター/メーカーというメタデータ的環境情報が障害の最強予測因子という 2010 年の実証を横断知見に追記。 ### 2026-06-28 The SPACE of Developer Productivity (ACM Queue 2021) - [[@2021__ACMQueue__The SPACE of Developer Productivity]] — [[Nicole Forsgren]]・[[Margaret-Anne Storey]] ら(GitHub / Microsoft Research / ビクトリア大学)。2021 年 2 月 ACM Queue Vol.19 No.1。開発者生産性は多次元的であり単一メトリクスでは測定不可能。Satisfaction・Performance・Activity・Communication・Efficiency の 5 次元フレームワーク SPACE を提案。少なくとも 3 次元での計測を推奨。(source 新規 / article / developer-experience / metrics) - [[開発者生産性]](concept 新規) — 開発者生産性の多次元的概念。よくある誤解(生産性 = アクティビティ等)と SPACE/DORA による計測アプローチを横断集約。(concept / developer-experience / metrics) - [[Margaret-Anne Storey]](entity 新規) — ビクトリア大学コンピュータサイエンス教授。SPACE 共著者。(person / research) - [[SPACE]](concept 更新) — 原論文からの知見追記: A(アクティビティ)が「最も危険な次元」である警告・DORA との補完関係・出典追加。 - [[Nicole Forsgren]](entity 更新) — 原論文出典追記。 ### 2026-06-28 Unlock High-Frequency Deployments without Blowing Up Prometheus (SREcon26 Americas) - [[@2026__SREcon26Americas__Unlock High-Frequency Deployments without Blowing Up Prometheus]] — [[Ganesh Vernekar]]（[[Reddit]] / Prometheus TSDB メンテナー）。2026-03-26、SREcon26 Americas。Kubernetes 高頻度デプロイが Prometheus OOM を起こす仕組みと stale-series compaction の設計・本番実験・閾値選択指針。YouTube 字幕 transcript 付き。(source 新規 / slides / sre / prometheus / observability) - [[Ganesh Vernekar]](entity 新規) — Reddit Staff SWE / Prometheus TSDB メンテナー。stale-series compaction 設計者。(person / prometheus) - [[Reddit]](entity 新規) — 大規模ソーシャルプラットフォーム。Prometheus 大規模オブザーバビリティ運用組織。(organization / sre) - [[Prometheusシリーズチャーン]](concept 新規) — pod ラベル変更で失活系列が HEAD 蓄積し OOM を起こす問題と、stale-series compaction による解決・閾値選択指針。(concept / prometheus / sre) - [[Prometheus TSDB]](concept 新規) — HEAD(RAM)+WAL+Block の 2 層構造の Prometheus 内蔵ストレージエンジン。シリーズチャーンの根拠アーキテクチャ。(concept / prometheus / storage) ### 2026-06-28 Reliability Equilibrium: The Hidden Playbook behind SRE Influence (SREcon26 Americas) - [[@2026__SREcon26Americas__Reliability Equilibrium - The Hidden Playbook behind SRE Influence]] — [[Daria Barteneva]]（[[Microsoft Azure]]）。2026-03-26、SREcon26 Americas。ゲーム理論で SRE の社会技術的失敗パターンを体系化し、メカニズムデザインとして SRE ツールを再定義。60 ページ。(source 新規 / slides / sre / game-theory) - [[Daria Barteneva]](entity 新規) — Microsoft Azure Observability Engineering Principal SRE。(person / sre) - [[ゲーム理論とSRE]](concept 新規) — 囚人のジレンマ・Stag Hunt・公共財ゲーム・ベイジアンゲーム・進化的ゲームによる SRE 失敗パターン診断とメカニズムデザイン解。(sre / game-theory) ### 2026-06-28 Loop Engineering: The Anthropic Playbook for Designing Systems That Prompt Your Agents (Working Note) - [[@2026__Working Note__Loop Engineering - The Anthropic Playbook for Designing Systems That Prompt Your Agents]] — [[Addy Osmani]] ほか（HuaShu 編）。ループエンジニアリングの 4 層スタック・5 ムーブ・6 パーツ・4 コスト・5 失敗パターン・ジェネレータ/エバリュエータ分離を体系化。Stripe Minions（週 1,300+ PR）を実例収録。(source 新規 / paper / agents / software-engineering) - [[Addy Osmani]](entity 新規) — Google Chrome エンジニア・Loop Engineering 命名者。(person) - [[Prithvi Rajasekaran]](entity 新規) — Anthropic エンジニア・ジェネレータ/エバリュエータパターン調査者。(person) - [[Steve Kaliski]](entity 新規) — Stripe エンジニア・Minions パイプライン構築。(person) - [[ループエンジニアリング]](concept 更新) — 5 ムーブ/6 パーツ/4 コストの横断的知見・未解決の問いセクションを追加。 ### 2026-06-28 Beyond Loss and Accuracy: Closing the Observability Gaps in AI Training with TrainCheck (SREcon26 Americas) - [[@2026__SREcon26Americas__Beyond Loss and Accuracy - Closing the Observability Gaps in AI Training with TrainCheck]] — [[Yuxuan Jiang]]・[[Ryan Huang]]（[[University of Michigan]] / [[OrderLab]]）。2026-03-25、SREcon26 Americas。[[TrainCheck]] の SRE 向け実践発表。18/20 件を 1 イテレーション以内検知・偽陽性率 2% 未満。BLOOM-176B・凍結エンコーダケーススタディ収録。(source 新規 / slides / systems-ml / deep-learning / sre) - [[Ryan Huang]](entity 新規) — [[University of Michigan]] [[OrderLab]] 所属。SREcon26 Americas 共同登壇者。(person / systems-ml) - [[DLトレーニングサイレントエラー]](concept 更新) — BLOOM 39,999 ステップ遅延コスト・コミュニティ事例の横断的知見を追記。 - [[訓練不変条件]](concept 更新) — SRE 規律との対応・learn once check everywhere の横断的知見を追記。 - [[MLモデル監視]](concept 更新) — 症状ベース監視 vs 正当性監視・遅延コストの横断的知見を追記。 ### 2026-06-28 Executing Chaos Engineering in Production at a Critical Financial Institution (SREcon26 Americas) - [[@2026__SREcon26Americas__Executing Chaos Engineering in Production at a Critical Financial Institution]] — [[Luiz Siqueira]]・[[Leonardo Marques]]（[[Bradesco]]）。2026-03-24。本番カオスエンジニアリングの段階的導入。MTTD 73% 削減・MTTR 22% 改善・10 ブラインドスポット発見・9 アーキテクチャ改善。(source 新規 / slides / sre / chaos-engineering / financial) - [[カオスエンジニアリング]](concept 新規) — 定義・実験サイクル・シナリオ分類・導入フェーズ・本番前提条件を集約。金融規制環境での適用事例含む。(concept / sre / chaos-engineering) - [[GameDay]](concept 新規) — チーム対応能力訓練の演習形式。Bradesco の +300 人規模実施例・54% 発見率・横断的知見を含む。(concept / sre / chaos-engineering / incident-response) - [[Bradesco]](entity 新規) — ブラジル最大級民間銀行。(organization / financial) - [[Leonardo Marques]](entity 新規) — Bradesco SRE Head。(person / sre) - [[Luiz Siqueira]](entity 新規) — Bradesco SRE Manager。(person / sre) - [[EasyPerform]](entity 新規) — Bradesco 内製カオスエンジニアリングガバナンスプラットフォーム。(product / chaos-engineering) ### 2026-06-28 AI Agents for Incident Investigation (SREcon26 Americas) - [[@2026__SREcon26Americas__AI Agents for Incident Investigation - The Good, The Bad, and The Ugly]] — [[Vladyslav Budichenko]]（[[Vocaly AI]]）。2026-03-24、SREcon26 Americas。本番 RCA 精度 11.34%・プロンプトインジェクション +540%・trust-for/verify の実務フレームワーク。(source 新規 / slides / sre / aiops / incident-response / agent) - [[Vladyslav Budichenko]](entity 新規) — Vocaly AI 創業者・ソフトウェアエンジニア。 - [[Vocaly AI]](entity 新規) — ビジネス向け音声 AIエージェントプラットフォーム。 - [[LLMによる根本原因分析]](concept 更新) — 本番実測 11.34% 精度・自信満々な誤答という横断的知見を追記。 - [[インシデント調査戦略]](concept 更新) — AIエージェントがプレイブック確認・文脈収集・シグナル相関を担える知見を追記。 - [[エージェント運用安全性]](concept 更新) — ログ経由プロンプトインジェクション・trust-for/verify・ゴム印問題の横断的知見を追記。 - [[エージェントシステム運用]](concept 更新) — rabbit holes・エージェント過負荷・コンテキストウィンドウギャップの横断的知見を追記。 ### 2026-06-28 So You Want a New Incident Commander (SREcon26 Americas) - [[@2026__SREcon26 Americas__So You Want a New Incident Commander]] — [[Vanessa Huerta Granda]]（[[Enova]]）。2026年。IC プログラム10年超の実践知。IC の3コアコンピテンシーと3チーム類型を定義。構造より「IC 役割の明示」が普遍的要件。スライド PDF 25 ページ。(source 新規 / slides / sre / incident-management / incident-commander) - [[Incident Commander]](concept 新規) — IC の定義・役割・コンピテンシー・チーム類型・アンチパターンの横断集約。(concept / sre / incident-management) - [[Vanessa Huerta Granda]](entity 更新) — SREcon26 Americas 発表・IC プログラム実践知を追記。 - [[Enova]](entity 更新) — IC プログラムとの接続を追記。 - [[インシデント管理]](concept 更新) — IC 役割定義・3チーム類型の横断的知見を追記。 ### 2026-06-28 インシデントキーメトリクスによるインシデント対応の改善 (SRE Kaigi 2025) - [[@2025__SRE Kaigi 2025__インシデントキーメトリクスによるインシデント対応の改善]] — [[Narimichi Takamura]]（[[Topotal]] CEO / SRE）。2025-01-26。MTTR がモンテカルロシミュレーション（有名インターネット企業 3 社・10 万回）で改善評価指標として統計的に機能しないことを実証。TTX メトリクス（11 種類）の体系的定義と [[Waroom]] での Slack 連携自動収集を提示。YouTube 字幕トランスクリプト使用。(source 新規 / slides / sre / incident-management / metrics) - [[Narimichi Takamura]](entity 新規) — Topotal CEO / SRE。@nari_ex。(person / sre) - [[TTXメトリクス]](concept 新規) — インシデントライフサイクルを 11 フェーズ指標に分解。MTTR 批判とシミュレーション実証・自動収集 3 条件を含む。(concept / sre / incident-management / metrics) - [[Topotal]](entity 更新) — CEO 高村成道・SRE Kaigi 2025 スポンサー情報を追記。 - [[Waroom]](entity 更新) — TTX 自動収集の実装詳細（Slack イベント連携・AI 判断）を追記。 - [[インシデント管理]](concept 更新) — MTTR 統計的限界・TTX 代替という横断的知見を追記。 ### 2026-06-28 1年間のポストモーテム運用とそこから生まれたツール sre-advisor (SRE NEXT 2022) - [[@2022__SRENEXT2022__1年間のポストモーテム運用とそこから生まれたツール sre-advisor]] — [[藤原俊一郎]]（[[面白法人カヤック]]）。2022-05-14。Embedded SRE でのポストモーテム横断統一運用1年半の効果（原因放置防止・横断共有・知識永続化）と sre-advisor（AWS 設定静的チェック CLI）を紹介。YouTube 字幕使用。(source 新規 / slides / sre / postmortem) - [[藤原俊一郎]](entity 新規) — 面白法人カヤック SRE。ecspresso・lambroll 作者。(person / sre) - [[面白法人カヤック]](entity 更新) — Embedded SRE 構造・ポストモーテム統一運用・藤原俊一郎のソースを追記。 - [[ポストモーテム]](concept 更新) — 知見のコード化ループ・チェックシートのトイル化・プロダクト消滅後の知識保持・日本実践の独自進化を横断的知見に追記。 ### 2026-06-28 Learning from Incidents at Scale; Actually Doing Cross-Incident Analysis (SREcon25 Americas) - [[@2025__SREcon25 Americas__Learning from Incidents at Scale - Actually Doing Cross-Incident Analysis]] — [[Vanessa Huerta Granda]]（[[Enova]]）。2025-03-26。クロスインシデント分析を継続プログラムとして自走させる3要素。部門横断招待・推奨事項とアクションアイテムの分離・コンテキスト付き指標。YouTube 字幕トランスクリプト使用。(source 新規 / slides / sre / incident-management / postmortem) - [[クロスインシデント分析]](concept 新規) — 個別インシデント学習の次の段階。専任チーム・構造化アーティファクト・組織計画連動の3要素。インシデント考古学との比較。(sre / incident-management) - [[Vanessa Huerta Granda]](entity 新規) — Enova テクノロジーマネージャー、Jeli 元在籍、Howie ガイド共著者。(person / sre) - [[Enova]](entity 新規) — クロスインシデント分析プログラム実践組織。10 年間の事例。(organization / fintech / sre) - [[ポストモーテム]](concept 更新) — Granda の部門横断招待・アクションアイテムファクトリー anti-pattern を追記。 - [[Jeli]](entity 更新) — Vanessa Huerta Granda の在籍歴を追記。 ### 2026-06-28 The Case of the Misnamed Cities: CAST Analysis of a Google Maps Incident (SREcon26 Americas) - [[@2026__SREcon26Americas__The Case of the Misnamed Cities - CAST Analysis of a Google Maps Incident]] — [[Ruben Barroso]]（[[Google]]）。2026-03-25。RCA vs CAST の対比。時系列≠因果・制御構造・メンタルモデル分析。(source 新規 / slides / sre / safety-engineering / postmortem) - [[Ruben Barroso]] — Google スタッフ SRE。5年以上 STPA/CAST を産業適用。(entity 新規 / person) - [[Nancy G. Leveson]] — CAST/STPA 考案者。システム安全工学者。(entity 新規 / person) - [[CAST]] — Causal Analysis based on Systems Theory。制御構造・メンタルモデル・文脈要因から事故を分析する手法。(concept 新規 / safety-engineering / sre) ### 2026-06-28 Human Observability of Incident Response (SREcon23 Americas) - [[@2023__SREcon23Americas__Human Observability of Incident Response]] — [[Matt Davis]]（[[FORM.com]]）。2023-03-23、サンタクララ。インシデント対応 = 即興演奏・Joint Activity 論。(source 新規 / slides / sre / human-factors / resilience-engineering) - [[Matt Davis]] — FORM.com SRE Architect・音楽家。Practice of Practice Gamelan 考案者。(entity 新規 / person) - [[Pauline Oliveros]] — 作曲家。Deep Listening 創始者。(entity 新規 / person) - [[Derek Bailey]] — ギタリスト・音楽理論家。「即興は練習の外に存在しない」。(entity 新規 / person) - [[Joint Activity]] — 複数参加者が共通目標に向け協力する活動の総称。(concept 新規 / human-factors) - [[Common Grounding]] — 相互理解・メンタルモデルを維持する継続プロセス（Klein et al.）。(concept 新規 / human-factors) - [[Practice of Practice]] — 「インシデントでなく共に働くことを練習する」SRE 訓練フレームワーク。(concept 新規 / sre) ### 2026-06-28 Incident Archeology (SREcon23 Americas) - [[@2023__SREcon23Americas__Incident Archeology - Finding Value in the Paperwork and Narratives of the past]] — [[Clint Byrum]]（[[Spotify]]）。2023-03-21、サンタクララ。過去インシデント記録を仮説検証に使う「インシデント考古学」を提唱。Spotify 実データ(2020〜2021)から副産物知見を報告。(source 新規 / slides / sre / postmortem) - [[Clint Byrum]] — Spotify スタッフエンジニア・IMOC。(entity 新規 / person) - [[Spotify]] — 音楽ストリーミング企業。インシデント考古学の実践組織。(entity 新規 / organization) - [[インシデント考古学]] — 過去インシデント記録を横断的に仮説検証する手法。(concept 新規 / sre / postmortem) - 更新: [[ポストモーテム]] — Spotify 完了率実測値・生産性影響度バイアス・インシデント考古学を横断的知見に追記。 ### 2026-06-28 The Repeat Incident Fallacy (SREcon22 EMEA) - [[@2022__SREcon22EMEA__The Repeat Incident Fallacy - What Jurassic Park Can Teach Us about Incidents]] — [[Emily Ruppe]]（[[Jeli|Jeli.io]]）。2022-10-26、アムステルダム。「同じインシデントは二度と起きない（Repeat Incident Fallacy）」——CI/CD の継続的変化により「再発防止誓約」は達成不可能。「Insights from the Past = Options in the Future」を提唱。(source 新規 / slides / sre / postmortem / resilience-engineering) - [[Emily Ruppe]] — Jeli.io Solutions Engineer、@themortalemily。「インシデントレビューのボブ・ロス」。元 SendGrid・Twilio。(entity 新規 / person) - [[Laura Maguire]] — レジリエンスエンジニアリング研究者。Jeli.io。CI/CD = 継続的変化命題。Howie 共著者。(entity 新規 / person) - 更新: [[ポストモーテム]] — Repeat Incident Fallacy と「Insights from the Past = Options in the Future」を横断的知見に追記（4 者収束確認）。 - 更新: [[レジリエンスエンジニアリング]] — 「カーディオを鍛えよ」と evolving sociotechnical systems 概念を横断的知見に追記。 ### 2026-06-28 A Post Incident Review Review (SREcon22 APAC) - [[@2022__SREcon22APAC__A Post Incident Review Review]] — [[Tom Partington]]（[[ANZx]]）。2022-12-09。根本原因・アクションアイテム・MTTx を除外した ANZx PIR² の 7 ステップ。Safety I→II・Rasmussen モデル・Dekker's Tunnel・カウザルマップ・Blame-aware デブリーフィング・Record vs Report 区別を実践接続。(source 新規 / slides / sre / postmortem) - [[Tom Partington]] — ANZx SRE、@parmigiana。安全科学を PIR 実践に橋渡し。(entity 新規 / person) - [[ANZx]] — ANZ グループ傘下フィンテック組織。1000人超・高度規制産業で PIR² を実践。(entity 新規 / organization) - [[J Paul Reed]] — Lund 大学 PhD 候補。PIR 業界調査データ（90.5% が修復アイテム含む）提供。(entity 新規 / person) - [[John Allspaw]] — 元 Etsy CTO。Debriefing Facilitation Guide 共著者。(entity 新規 / person) - [[Jeli]] — インシデント分析ツール企業。Howie: The Post-Incident Guide（2021）発行。(entity 新規 / organization) - [[Sidney Dekker]] — 安全科学者。Dekker's Tunnel・New View 提唱。(entity 新規 / person) - [[James Reason]] — 認知心理学者。スイスチーズモデル提唱。(entity 新規 / person) - [[Jens Rasmussen]] — 安全工学者。Workload/Economic/Performance 境界モデル提唱。(entity 新規 / person) - 更新: [[ポストモーテム]] — ANZx の根本原因/アクションアイテム/MTTx 除外実績・learning > fixing・Record vs Report を横断的知見に追記。 - 更新: [[事故モデル]] — Rasmussen Safety Model と PIR スタイルの接続・カウザルマップを横断的知見に追記。 - 更新: [[人的要因]] — Mechanistic Reasoning 批判・Dekker's Tunnel を横断的知見に追記。 - 更新: [[レジリエンスエンジニアリング]] — Safety I→II・STELLA/Woods' Theorem を横断的知見に追記。 ### 2026-06-28 Principled Identification of "Root Causes" Using Techniques from Safety Engineering (SREcon22 EMEA) - [[@2022__SREcon22 EMEA__Principled Identification of Root Causes Using Techniques from Safety Engineering]] — [[Laura de Vesine]](Datadog)。安全工学の System/Environment 境界モデルで根本原因=システムの脆弱性・トリガー=環境条件と再定義。5 Whys のトリガーホワイトアモール病理を診断。ニアミス調査の重要性を論じた。YouTube transcript 付き 23 ページ。(source 新規 / slides / sre / postmortem) - [[Laura de Vesine]] — Datadog スタッフエンジニア。SRE・インシデント分析・カオスエンジニアリング専門、PhD。(entity 新規 / person) - 更新: [[根本原因分析]] — 根本原因/トリガー用語再定義とトリガーホワイトアモール病理の横断的知見を追記。 - 更新: [[事故モデル]] — System/Environment 境界モデルとスイスチーズモデルの対比を横断的知見に追記。 ### 2026-06-28 Ditch the Template (SREcon22 EMEA) - [[@2022__SREcon22 EMEA__Ditch the Template - How to Write Incident Reports They Want To Read]] — [[Laura Nolan]]（[[Stanza Systems]]、元 Google・Slack SRE）SREcon22 EMEA 2022-10-26。「IR の価値は学習にあり、プロセスにあるのではない」。ナラティブ型 IR 執筆（謎→調査→解決）・読者サポート・視覚化・分析の重要性を提唱。(source 新規 / slides / sre / postmortem) - [[Laura Nolan]] — Stanza Systems Principal SWE、元 Google・Slack SRE、SRE Book 共著者、USENIX ボードメンバー。(entity 新規 / person) - [[Stanza Systems]] — 本番システム制御ソフトウェアのスタートアップ。(entity 新規 / organization) - [[インシデントレポート執筆]] — ナラティブ型 IR の原則。テンプレート批判・4 軸（ナラティブ/読者サポート/視覚化/分析）・文体原則。(concept 新規) - [[ポストモーテム]] — テンプレート形式が学習価値を損なう・専門知識の継続的損失補完の 2 観点を横断的知見に追記。(concept 更新) ### 2026-06-28 Running Excellent Retrospectives (SREcon19 Americas) - [[@2019__SREcon19Americas__Running Excellent Retrospectives - Talking for Humans]] — [[Courtney Eckhardt]]（[[Heroku]]）・[[Lex Neva]]（[[Fastly]]）。ファシリテーター3仕事・言語レベルのblame回避・Miller の法則・Lake Washington 浮橋事例・Conway's Law。(source 新規 / slides / sre) - [[Lex Neva]] — Fastly SRE、SRE Weekly 運営者。(entity 新規 / person) - [[Fastly]] — エッジクラウドプラットフォーム（CDN）企業。(entity 新規 / organization) - [[Courtney Eckhardt]] — SREcon19 Americas talk を追記。(entity 更新 / person) - [[レトロスペクティブファシリテーション]] — パーセプチュアル学習・ユーモアの体系的管理・感情環境の制御を横断的知見に追記。(concept 更新) - [[人的要因]] — Lake Washington 浮橋事例（人的要因調査の不完全性）を横断的知見に追記。(concept 更新) - [[ポストモーテム]] — sources に新ソースを追記。(concept 更新) ### 2026-06-28 Retrospectives for Humans (SREcon19 Asia/Pacific) - [[@2019__SREcon19 Asia__Retrospectives for Humans (a crash course)]] — [[Courtney Eckhardt]]（[[Heroku]] / Salesforce）。ポストモーテムファシリテーション言語を言語学（Miller's Law・denotation/connotation・implication/presupposition）から体系化。contributing factor discovery・Why/You→How/What 変換・ユーモアのリスク・Conway's Law。(source 新規 / slides / sre) - [[Courtney Eckhardt]] — Heroku SRE、@hashoctothorpe（she/her）。(entity 新規 / person) - [[Heroku]] — Salesforce 傘下 PaaS。contributing factor discovery の実践組織。(entity 新規 / organization) - [[レトロスペクティブファシリテーション]] — Miller's Law・避けるべき語・良い問い方・会議運営・ユーモアのリスク・Conway's Law。(concept 新規) - [[ポストモーテム]] — contributing factor discovery・ファシリテーター言語の学習深度への影響を追記。(concept 更新) - [[人的要因]] — Miller's Law の認識論的基盤・ヒューマンエラー三者収束を追記。(concept 更新) ### 2026-06-27 Architecting a Technical Post Mortem (SREcon18 Americas) - [[@2018__SREcon18 Americas__Architecting a Technical Post Mortem]] — [[Will Gallego]](Etsy)。ポストモーテムを「学習文化の適用」と定義。ブレーム・アウェア・根本原因否定・反事実回避・ローカル合理性・修復的正義。(source 新規 / slides / sre) - [[Will Gallego]] — Etsy Staff Systems Engineer。ポストモーテム実践者。(entity 新規 / person) - [[ポストモーテム]] — Gallego の 5 観点を横断的知見に追記。(concept 更新) - [[根本原因分析]] — SRE 実践文脈での「根本原因は誤った概念」を追記。(concept 更新) - [[Etsy]] — Gallego 登壇・SNAFU Catchers' Consortium 参加を追記。(entity 更新) ### 2026-06-27 Failures and Fixes: A Study of Software System Incident Response - [[@2020__arXiv__Failures and Fixes - A Study of Software System Incident Response]] — [[Jonathan Sillito]]・[[Esdras Kutomi]](Brigham Young University)。30 インシデント定性分析(15 件インタビュー + 15 件公開ポストモーテム)。4 障害原因カテゴリ・3 次元検知分析・日和見的/体系的調査戦略・5 緩和戦略・11 観察。(source 新規 / paper / arXiv 2020) - [[Jonathan Sillito]] — BYU CS 学科の実証ソフトウェアエンジニアリング研究者。(entity 新規 / person) - [[Esdras Kutomi]] — BYU CS 学科。Sillito との共同研究者。(entity 新規 / person) - [[Brigham Young University]] — 米国ユタ州プロボの私立大学。(entity 新規 / organization) - [[インシデント調査戦略]] — 日和見的戦略と体系的戦略の二分類。(concept 新規) - [[インシデント管理]](更新) — Sillito 2020 の横断的知見 2 件(モニタリング観察 7 / 対応実態とパイプラインモデルの乖離)追記。 - [[根本原因分析]](更新) — 日和見的/体系的調査戦略の二分類と LLM エージェント設計との対応を横断的知見として追記。 - [[オペラビリティ]](更新) — Colyer 4 段階モデルの empirical 補強として Sillito 2020 の観察を追記。 - [[変更起因インシデント]](更新) — 観察 4(設定変更のプロセス的非対称性)を横断的知見として追記。 ### 2026-06-27 ポストモーテム実務ガイド 5 ソースバッチ ingest - [[@ReadME__Will Larson__Move Past Incident Response to Reliability]] — [[Will Larson]]（[[Calm]] CTO）。インシデント対応を超えて信頼性を体系的に向上させるフレームワーク。Incident Legalism（インシデント法律主義）の概念を提示。(source 新規 / article / sre / reliability) - [[@PagerDuty__Post-Mortem Process]] — [[PagerDuty]] のインシデント対応ガイドのポストモーテム章。SEV 別スケジュール規律とステータスワークフロー（Draft→Closed）を定義。(source 新規 / article / sre / postmortem) - [[@2021__Datadog Blog__Best Practices for Writing Incident Postmortems]] — [[Datadog]] のポストモーテムベストプラクティス。4 実践: データ一元化・自動生成・リビングドキュメント・発見可能性。(source 新規 / article / sre / postmortem) - [[@mixi developers__インフラ障害対応とポストモーテム]] — mixi developers ブログ。再発防止策の 4 分類（予防/検出/緩和/修正）。(source 新規 / article / sre / japanese-industry) - [[@2018__Hatena Developer Blog__社内障害情報共有のススメ]] — [[Hatena]] shiba_yu36。全社エンジニアへの障害共有による横方向の学習。(source 新規 / article / sre / japanese-industry) - [[ポストモーテム]] — インシデント後の非難なき事後振り返り。ブレームレス文化・構造化プロセス・ツーリングの三つの柱。5 ソースと既存 SRE Book/Workbook を横断集約。(concept 新規 / sre / incident-management) - [[Will Larson]] — Calm CTO、エンジニアリングマネジメント・SRE の著述家。(entity 新規 / person) - [[PagerDuty]] — インシデント管理プラットフォーム提供企業。(entity 新規 / organization) - [[Datadog]] / [[Hatena]] — ポストモーテム関連ソースの参照を追記。(entity 更新) - [[インシデント管理]] — ポストモーテム関連 5 ソースの参照を追記。(concept 更新) ### 2026-06-27 Do Not Blame Users for Misconfigurations (SOSP'13) - [[@2013__SOSP__Do Not Blame Users for Misconfigurations]] — Tianyin Xu ほか(UCSD/Toronto/NetApp)。SPEX 設定制約自動推論ツール。743 件の設定ミス脆弱性を検出。(source 新規 / paper / configuration / program-analysis) - [[設定ミス脆弱性]] — 設定エラーへの不良反応 5 分類の定義。(concept 新規 / configuration / systems) - [[Yuanyuan Zhou]] — UCSD 教授・SPEX 責任著者。(entity 新規 / person) - [[Shankar Pasupathy]] — NetApp 研究者・産業協力者。(entity 新規 / person) - [[NetApp]] — Storage-A 提供元ストレージベンダー。(entity 新規 / organization) - [[設定マイニング]] — ホワイトボックス(SPEX)とブラックボックス二系統の比較を追記。(concept 更新) - [[Tianyin Xu]] / [[Ding Yuan]] — SOSP'13 参加を追記。(entity 更新) ### 2026-06-27 マイクロサービス RCA/FL 10 論文一括 ingest - [[@2024__arXiv__Cloud Atlas - Efficient Fault Localization for Cloud Systems using Language Models and Causal Insight]] — Zhiqiang Xie ほか(Stanford/CMU/Microsoft Research)。LLM でシステム文書から因果グラフを自動合成し障害箇所特定。(source 新規 / paper / fault-localization / llm) - [[@2024__FSE__Chain-of-Event - Interpretable Root Cause Analysis for Microservices through Automatically Learning Weighted Event Causal Graph]] — Zhenhe Yao ほか(清華/CAS/eBay)。マルチモーダル観測データのイベント変換＋重み付き因果グラフで解釈可能な RCA。(source 新規 / paper / rca / microservice) - [[@2024__KDD__Microservice Root Cause Analysis with Limited Observability]] — 限定観測可能性下の潜在空間介入認識による RCA。(source 更新 / paper / rca / causal) - [[@2024__TOSEM__HeMiRCA - Fine-Grained Root Cause Analysis for Microservices with Heterogeneous Data Sources]] — Zhouruixing Zhu ほか(CUHK-Shenzhen/CUHK)。トレース+メトリクスの異種データ間の単調相関で階層的 RCA。サービスレベル top-1 82.7%。(source 新規 / paper / rca / heterogeneous) - [[@2026__Elsevier__MicroIRC - Instance-level Root Cause Localization for Microservice Systems]] — Yuhan Zhu ほか(武漢大学/CSIRO)。インスタンスレベル GNN ベース RCA。(source 新規 / paper / rca / gnn) - [[@2025__NeurIPS__Root Cause Analysis of Outliers with Missing Structural Knowledge]] — Orchard ほか(Cambridge/MPI/Amazon)。因果グラフ未知の単一サンプル RCA の理論的保証。(source 新規 / paper / causal / theory) - [[@2026__TVCG__RCInvestigator - Towards Better Investigation of Anomaly Root Causes in Cloud Computing Systems]] — Shuhan Liu ほか(Zhejiang/Microsoft)。人間-機械協調型 RCA 可視分析システム。(source 新規 / paper / visualization / rca) - [[@2024__FSE__Illuminating the Gray Zone - Non-Intrusive Gray Failure Localization in Server Operating Systems]] — Shenglin Zhang ほか(南開/清華/Huawei)。グレー障害の非侵入的箇所特定。AC@5 90%。(source 新規 / paper / gray-failure / fault-localization) - [[@2024__FSE__SynthoDiag - Fault Diagnosis for Test Alarms in Microservices through Multi-source Data]] — Shenglin Zhang ほか(南開/Huawei Cloud/清華)。テストアラーム多ソース障害診断。(source 新規 / paper / testing / diagnosis) - [[@2024__TSC__MicroDig - Diagnosing Performance Issues for Large-Scale Microservice Systems With Heterogeneous Graph]] — Lei Tao ほか(南開/清華/Tencent)。異種グラフで因果と呼び出しの不一致を考慮した性能障害診断。(source 新規 / paper / microservice / performance) - Entity 新規: [[Zhiqiang Xie]], [[Yujia Zheng]], [[Lizi Ottens]], [[Wenxiao Chen]], [[Huai Jiang]], [[Liangfei Su]], [[GrayScope]], [[Di Weng]], [[Yingcai Wu]], [[CSIRO Data61]] - Entity 更新: [[Dan Pei]], [[Shenglin Zhang]], [[Qingwei Lin]], [[Jonathan Mace]], [[Christos Kozyrakis]], [[Kun Zhang]], [[Zhenhe Yao]], [[Pinjia He]], [[Zhouruixing Zhu]], [[Xiaohui Nie]], [[Zeyan Li]], [[Tencent]], [[Wuhan University]], [[Cheryl Lee]] - Concept 新規: [[テスト障害診断]], [[情報理論的異常スコア]], [[単一サンプルRCA]] - Concept 更新: [[根本原因分析]], [[グラフベースRCA]], [[因果推論ベースRCA]], [[介入的因果学習]], [[Interactive AIOps]], [[仮説駆動RCA]], [[ログベース障害診断]], [[グラフニューラルネットワーク]], [[知識グラフ]] ### 2026-06-27 AI システム障害分析・障害注入サーベイ ingest - [[@2025__TOSEM__A Survey on Failure Analysis and Fault Injection in AI Systems]] — [[Guangba Yu]]・[[Pengfei Chen]]・[[Roberto Natella]]・[[Michael R. Lyu]] ほか（SYSU / Naples / CUHK）。AI システムの6層（Service / Model / Framework / Toolkit / Platform / Infrastructure）にわたる障害分析(FA)と障害注入(FI)を142本の論文から体系化した初の包括的サーベイ。各層のギャップテーブルで未対応障害種別を特定。(source 新規 / paper / survey / fault-injection / aiops) - Entity 新規: [[Roberto Natella]] - Entity 更新: [[Guangba Yu]], [[Pengfei Chen]], [[Michael R. Lyu]], [[Zibin Zheng]], [[Gou Tan]] - Concept 更新: [[障害注入]]（AI システム6層の FI ギャップ・フレームワーク断片化の知見を追加）, [[運用障害分析]]（AI システム固有の6層障害分類体系の知見を追加） ### 2026-06-27 PreServe ICSE 2026 ingest - [[@2026__ICSE__PreServe - Intelligent Management for LMaaS Systems via Hierarchical Prediction]] — Zhihan Jiang ほか(CUHK)。mLSTM ワークロード予測 + DistilBERT 応答長予測の二層構造で LMaaS オートスケーリングとルーティングを最適化。P99 正規化レイテンシ 41.3% 削減・リソース消費 49.38% 削減。(source 新規 / paper / llm / serving / aiops) - [[LLMサービング管理]] — LMaaS オートスケーリングとリクエストルーティングを統合管理する概念。コールドスタート問題・リクエスト負荷不均一性・二層予測の知見を集約。(concept 新規) - [[Zhihan Jiang]] / [[Yujie Huang]] / [[Guangba Yu]] / [[Junjie Huang]] / [[Jiazhen Gu]] / [[Michael R. Lyu]] — PreServe の共著者として追記。(entity 更新) - [[LLM推論]] — LMaaS コールドスタート問題・リクエスト応答長不均一性・反応的スケーリング限界の知見 3 件追記。(concept 更新) ### 2026-06-27 障害箇所特定・根本原因分析 11 論文一括 ingest - [[@2025__nkcs.iops.ai__Accurate and Interpretable Log-Based Fault Diagnosis using Large Language Models]] — Yongqian Sun ほか(Nankai/Tsinghua/CMCC/ZTE)。LogInsight: LLM ファインチューニング + ログ圧縮で GPT-4 直接適用を上回る障害診断と説明文生成。(source 新規 / paper / aiops / log / llm) - [[@2025__arXiv__BSODiag - A Global Diagnosis Framework for Batch Servers Outage in Large-scale Cloud Infrastructure Systems]] — Tao Duan ほか(Xi'an Jiaotong/Alibaba Cloud)。クラウドインフラのバッチサーバー障害に時空間グラフ RCA + 障害伝播パス推論。(source 新規 / paper / cloud-infra / rca) - [[@2025__arXiv__COCA - Generative Root Cause Analysis for Distributed Systems with Code Knowledge]] — Yichen Li ほか(CUHK)。ソースコードを第四の診断信号源として活用する生成的 RCA。(source 新規 / paper / rca / llm / code) - [[@2025__arXiv__RADICE - Causal Graph Based Root Cause Analysis for System Performance Diagnostic]] — Andrea Tonon ほか(Huawei Ireland)。PCMCI+ + 部分ドメイン知識で因果サブグラフを出力する RCA。(source 新規 / paper / causal / rca) - [[@2025__AAAI Workshop AICT__Causal Discovery for Cloud Microservice Architectures]] — Christopher Lohse ほか(IBM Research)。PCMCI+ によるマイクロサービスのレイテンシグラフ因果発見。(source 新規 / paper / causal / microservice) - [[@2022__ESEC FSE__Actionable and Interpretable Fault Localization for Recurring Failures in Online Service Systems]] — Zeyan Li ほか(清華/Microsoft)。DéjàVu: 障害ユニット粒度の再帰障害向け箇所特定。(source 新規 / paper / fault-localization) - [[@2025__TOSEM__Making Fault Localization in Online Service Systems More Actionable and Interpretable]] — Ke Xv ほか(Dalian Maritime)。FL-AIer: 多層 GAT + 不均衡対処で DéjàVu を拡張。(source 新規 / paper / fault-localization) - [[@2024__TSC__No More Data Silos - Unified Microservice Failure Diagnosis With Temporal Knowledge Graph]] — Shenglin Zhang ほか(Nankai/Tsinghua)。UniDiag: TKG で 3 モダリティの異種性を解消。(source 新規 / paper / microservice / knowledge-graph) - [[@2024__ASE__SLIM - A scalable and interpretable light-weight fault localization algorithm for imbalanced data in microservice]] — Rui Ren ほか(Alibaba DAMO)。DNF ルールセットで二重不均衡の障害箇所特定。(source 新規 / paper / fault-localization) - [[@2024__ASE__The Potential of One-Shot Failure Root Cause Analysis - Collaboration of the Large Language Model and Small Classifier]] — Yongqi Han ほか(Tongji/Di-Matrix)。LasRCA: LLM をラベラーに限定し小型分類器と協調するワンショット RCA。(source 新規 / paper / rca / llm) - [[@2024__arXiv__FaaSRCA - Full Lifecycle Root Cause Analysis for Serverless Applications]] — Jin Huang ほか(Sun Yat-sen)。サーバーレス関数のライフサイクル段階単位 RCA。(source 新規 / paper / serverless / rca) - Entity 新規: [[BSODiag]], [[COCA]], [[RADICE]], [[LogInsight]], [[FaaSRCA]], [[FL-AIer]], [[UniDiag]], [[LasRCA]], [[DiagFusion]], [[Christopher Lohse]], [[Tao Duan]], [[Andrea Tonon]], [[He Jiang]], [[Shiyu Ma]], [[Tong Xiao]] ほか 30+ - Concept 新規: [[再帰障害]], [[障害依存グラフ]], [[不均衡障害分類]], [[時系列知識グラフ]], [[ログベース障害診断]], [[クラウドインフラ障害診断]], [[サーバーレスRCA]], [[ワンショットRCA]], [[コード知識強化RCA]] - Concept 更新: [[Fault Localization]], [[根本原因分析]], [[因果発見]], [[因果推論ベースRCA]], [[LLMによる根本原因分析]], [[マルチモーダル障害診断]], [[グラフベースRCA]], [[サービス依存グラフ]], [[マイクロサービスコールグラフ]], [[サーバーレスアーキテクチャ]], [[ドメイン別RCA]] ### 2026-06-27 データベースノブチューニング・自律 DB 3 論文 ingest - [[@2024__VLDB__GPTuner - A Manual-Reading Database Tuning System via GPT-Guided Bayesian Optimization]] — [[Jiale Lao]]・[[Mingjie Tang]]（Sichuan University）。LLM でマニュアルを読み構造化知識を構築、Coarse-to-Fine ベイズ最適化で既存手法比 16 倍速く良い設定を発見。最善手法比最大 30% の性能改善。(source 新規 / paper / database / llm) - [[@2021__VLDB__openGauss - An Autonomous Database System]] — [[Guoliang Li]]・[[Xuanhe Zhou]]（[[Tsinghua University]]）。学習型オプティマイザ＋学習型アドバイザで自律運用を実現する初の包括的フレームワーク。(source 新規 / paper / database / autonomous-database) - [[@2017__SIGMOD__Automatic Database Management System Tuning Through Large-scale Machine Learning]] — [[Dana Van Aken]]・[[Andrew Pavlo]]（[[Carnegie Mellon University]]）。OtterTune 原論文。ML 3 段パイプラインで DBMS ノブ設定を自動最適化。(source 新規 / paper / database / machine-learning) - [[Jiale Lao]] / [[Mingjie Tang]] / [[OtterTune]] / [[Dana Van Aken]] / [[openGauss]] (entity 新規) - [[データベースノブチューニング]] — OtterTune→DB-BERT→GPTuner の発展系譜と外付け/内蔵の対比。横断的知見 4 件・未解決の問い 3 件追加。(concept 更新) ### 2026-06-27 データベース異常診断・RCA 8 論文一括 ingest - [[@2025__ICDE__Anomaly Diagnosis with Siamese Discrepancy Networks in Distributed Cloud Databases]] — Lingsen Yan ほか(Huazhong/Huawei/HKUST)。シャムネットワークによる分散クラウド DB 異常診断。(source 新規) - [[@2025__AIDB__AutoDebugger - Efficient Root Cause Analysis for Anomaly Jobs]] — Fathelrahman Ali ほか(Google/Microsoft)。Spark ジョブ異常 RCA の 10 倍高速化。(source 新規) - [[@2025__VLDB__RCRank - Multimodal Ranking of Root Causes of Slow Queries in Cloud Database Systems]] — Biao Ouyang ほか(ECNU/Alibaba Cloud/Aalborg)。スロークエリ根本原因のマルチモーダルランキング。(source 新規) - [[@2023__Amazon Science__Vista - Machine Learning based Database Performance Troubleshooting Framework in Amazon RDS]] — Vikramank Singh ほか(AWS/MIT)。Amazon RDS の ML ベース性能トラブルシューティング。(source 新規) - [[@2023__FSE__Adapting Performance Analytic Techniques in a Real-World Database-Centric System]] — Lizhi Liao ほか(Waterloo)。DB 中心システムの性能分析技法適応。(source 新規) - [[@2023__PACMMOD__BALANCE - Bayesian Linear Attribution for Root Cause Localization]] — Chaoyu Chen ほか(Ant Group/OceanBase)。XAI 帰属ベース RCA。(source 新規) - [[@2019__VLDB__GRANO - Interactive Graph-based Root Cause Analysis for Cloud-Native Distributed Data Platform]] — Hanzhang Wang ほか(eBay)。グラフベース RCA。(source 新規) - [[@2019__SIGMOD__ExplainIt! - A Declarative Root-cause Analysis Engine for Time Series Data]] — Vimalkumar Jeyakumar ほか(Cisco Tetration)。宣言的 RCA エンジン。(source 新規) - [[Sparkジョブ異常診断]] / [[グラフベースRCA]] / [[宣言的RCA]] / [[データベース性能トラブルシューティング]] (concept 新規) - entity 新規 20+: [[Lingsen Yan]], [[Bolong Zheng]], [[Xiaofang Zhou]], [[Biao Ouyang]], [[Vikramank Singh]], [[Lizhi Liao]], [[Chaoyu Chen]], [[Hanzhang Wang]], [[Vimalkumar Jeyakumar]], [[eBay]], [[NuData]], [[OceanBase]], [[Cisco Tetration Analytics]] ほか ### 2026-06-27 データベースノブチューニングサーベイ 2 本 ingest - [[@2023__TKDE__Automatic Database Knob Tuning - A Survey]] — [[Xinyang Zhao]]・[[Xuanhe Zhou]]・[[Guoliang Li]]（[[Tsinghua University]]）。ノブチューニングのパイプラインを4段階に分解し、16手法を体系的に比較した初の包括的サーベイ。(source 新規 / paper / database / survey) - [[@2024__arXiv__Automatic Configuration Tuning on Cloud Database - A Survey]] — [[Limeng Zhang]]・[[M. Ali Babar]]（[[University of Adelaide]]）。クラウド DB の自動設定チューニングサーベイ。安全性・適応性をフレームワークに組み込み、経験からの知識を独立段階として定式化。(source 新規 / paper / database / cloud / survey) - [[Xinyang Zhao]] — 清華大学。ノブチューニングサーベイ(TKDE 2023)共同筆頭著者。(entity 新規) - [[Limeng Zhang]] — University of Adelaide CREST。クラウド DB チューニングサーベイ(arXiv 2024)筆頭著者。(entity 新規) - [[M. Ali Babar]] — University of Adelaide CREST ディレクター。(entity 新規) - [[University of Adelaide]] — オーストラリアの研究大学。CREST が研究拠点。(entity 新規) - [[データベースノブチューニング]] — 2 本のサーベイから横断的知見5件・未解決の問い3件を追加。(concept 更新) - [[Guoliang Li]] / [[Xuanhe Zhou]] / [[Tsinghua University]] — ノブチューニングサーベイの参照を追記。(entity 更新) ### 2026-06-27 DB-BERT SIGMOD 2022 論文 ingest - [[@2022__SIGMOD__DB-BERT - a Database Tuning Tool that Reads the Manual]] — [[Immanuel Trummer]](Cornell University)。BERT × Double DQN で DBMS マニュアルを「読んで」ノブをチューニングする NLP 強化型データベースチューニング。全実験(TPC-H/TPC-C × Postgres/MySQL)でベースラインを凌駕。(source 新規 / paper / database / nlp) - [[NLPベースDBチューニング]] — NLP × ランタイムフィードバック融合によるチューニング問題の定式化。DB-BERT が初提案。(concept 新規) - [[Immanuel Trummer]] — Cornell University データベース・NLP 融合研究者。DB-BERT の提案者。(entity 新規) - [[データベースノブチューニング]] — NLP+RL+ランタイムフィードバック三統合・注釈なし学習の横断的知見を追記。(concept 更新) - [[データベース O&M]] — テキストからの知識抽出によるノブ探索自動化の横断的知見を追記。(concept 更新) - [[Cornell University]] — Immanuel Trummer の所属機関として追記。(entity 更新) ### 2026-06-26 SRE NEXT 2023「エンジニアのためのSRE論文への招待」スライド ingest - [[@2023__SRE NEXT 2023__エンジニアのためのSRE論文への招待]] — [[坪内佑樹]]による SRE NEXT 2023 IN TOKYO 発表。未普及技術論文を実装・適用のアイデア源として扱い、学際的な SRE 論文を国際会議・検索・引用ネットワークから探す方法、速読と精読の分離、読書記録の作り方を提示。(source / slides / sre / research) - [[SRE論文]] — SRE 周辺の学際的な技術論文を探索・読解するための実務上の呼称。(concept 新規) - [[坪内佑樹]] / [[SRE NEXT]] — 2023 年講演の内容と登壇歴を追記。(entity 更新) ### 2026-06-26 データセンター信頼性・クラウド障害論文 9 本 - Sources: [[@2017__DSN__What Can We Learn from Four Years of Data Center Hardware Failures]], [[@2016__SoCC__Why Does the Cloud Stop Computing - Lessons from Hundreds of Service Outages]], [[@2018__IMC__A Large Scale Study of Data Center Network Reliability]], [[@2019__HotOS__What Bugs Cause Production Cloud Incidents]], [[@2011__SOSP__An Empirical Study on Configuration Errors in Commercial and Open Source Systems]], [[@2020__NSDI__Understanding, Detecting and Localizing Partial Failures in Large System Software]], [[@2013__ACM TOS__Datacenter Scale Evaluation of the Impact of Temperature on Hard Disk Drive Failures]], [[@2024__ISSTA__An Empirical Study on Kubernetes Operator Bugs]], [[@2016__ASPLOS__TaxDC - A Taxonomy of Non-Deterministic Concurrency Bugs in Datacenter Distributed Systems]] - Concepts: [[データセンター信頼性]], [[クラウドインシデント]], [[データセンターネットワーク信頼性]], [[分散システム障害]], [[Kubernetesオペレータ]] ## Folds - [[fold-k4-from-2026-06-19-to-2026-06-20-n16]] — 16 entries (2026-06-19–2026-06-20): AIOps RCA 基盤集約 / 時系列分析基礎手法 / AI 時代の人間の役割 - [[fold-k4-from-2026-06-18-to-2026-06-19-n16]] — 16 entries (2026-06-18–2026-06-19): FlashAttention 通時的進化 / KV キャッシュ中心 LLM 推論最適化 / マイクロサービス障害診断 - [[fold-k4-from-2026-06-17-to-2026-06-18-n16]] — 16 entries (2026-06-17–2026-06-18): LLM 分散学習基盤技術系譜(GPipe→FFTrainer) / GPU クラスタスケジューリング / LLM 推論サービング設計空間 - [[fold-k4-from-2026-06-16-to-2026-06-17-n16]] — 16 entries (2026-06-16–2026-06-17): アラート管理 27 本体系化 / LLM×時系列異常検知 4 路線 / GLM 系統樹・LLM 評価産業化 - [[fold-k4-from-2026-06-16-to-2026-06-16-n16]] — 16 entries (2026-06-16): 因果推論ベース RCA 3 手法体系化 / SRE 信頼性概念拡張 / LLM 内部機構の多面的解析 - [[fold-k4-from-2026-06-15-to-2026-06-16-n16]] — 16 entries (2026-06-15–2026-06-16): TSFM スケーリング則・系統的比較 / LLM×時系列 5 アプローチ系譜 / 分散トレーシング古典基盤 - [[fold-k4-from-2026-06-14-to-2026-06-15-n16]] — 16 entries (2026-06-14–2026-06-15): AIOps インシデント管理・RCA 体系化 / LLM/TSFM 時系列推論 / AI インフラ信頼性プロアクティブ手法 - [[fold-k4-from-2026-06-14-to-2026-06-14-n16-b2]] — 16 entries (2026-06-14): AIOps 障害管理サーベイ群 / 監視用 TSDB アーキテクチャ / クラウド基盤前史体系化 - [[fold-k4-from-2026-06-14-to-2026-06-14-n16]] — 16 entries (2026-06-14): クラウドモニタリング「何を監視すべきか」問題 / 因果推論 RCA 実効性評価 / DB ストレージ設計の古典と再工学 - [[fold-k4-from-2026-06-08-to-2026-06-14-n16]] — 16 entries (2026-06-08–2026-06-14): LLM スケーリング則と推論基礎理論 / 変更起因インシデント定量分析 / オブザーバビリティデータ管理体系化 - [[fold-k4-from-2026-06-06-to-2026-06-08-n16]] — 16 entries (2026-06-06–2026-06-08): LLM 推論・訓練インフラ電力制御 / エージェント型 AIOps オーケストレーション / SRE/LLM 基盤論文体系的取り込み - [[fold-k4-from-2026-06-06-to-2026-06-06-n16]] — 16 entries (2026-06-06): SRE 理論体系・古典論文 wiki 構築 / DeepSeek・Kimi・MiniMax 技術報告 / マイクロサービス信頼性産業実証 - [[fold-k4-from-2026-06-05-to-2026-06-06-n16]] — 16 entries (2026-06-05–2026-06-06): RL スケーリング則・エージェント型 RL 体系化 / GPU クラスタ信頼性実証 / 大規模 MoE モデル産業実装 - [[fold-k4-from-2026-06-05-to-2026-06-05-n16-b2]] — 16 entries (2026-06-05): LLM 推論効率化サーベイ / エージェント型 RL フレームワーク / NSDI '26 集合通信・テレメトリ最適化 - [[fold-k4-from-2026-06-05-to-2026-06-05-n16]] — 16 entries (2026-06-05): LLM エージェント RCA/DB 障害診断 / マルチモーダル融合の等価否定 / SLO・可用性指標深化 - [[fold-k4-from-2026-06-04-to-2026-06-05-n16]] — 16 entries (2026-06-04–2026-06-05): LLM 訓練障害診断 26 本体系化 / ATSF 3 パラダイム一巡 / インシデント自動化・ログ解析地図化 - [[fold-k4-from-2026-06-03-to-2026-06-04-n16]] — 16 entries (2026-06-03–2026-06-04): AIOps/RCA 評価基盤深化・「進歩の幻想」暴露 / TSFM 応用展開 / IaC・eBPF 外延拡張 - [[fold-k4-from-2026-06-02-to-2026-06-03-n16]] — 16 entries (2026-06-02–2026-06-03): agentic SRE ベンチマーク・産業 AI SRE 基盤構築 / LLM 分散学習インフラ体系化 / テレメトリ 3 層確立 --- ### 2026-06-26 SRE NEXT 2022 AIOps研究録スライド ingest - [[@2022__SRE NEXT 2022__AIOps研究録―SREのためのシステム障害の自動原因診断]] — [[坪内佑樹]]による、SLO ベースの症状アラートと原因診断を分離する AIOps 研究記録。(source 新規) - [[TSifter]] — 原因診断の因果グラフ生成前に時系列を削減する手法。(entity 新規) - [[AIOps]] / [[因果推論ベースRCA]] / [[時系列クラスタリング]] / [[自動化の皮肉]] — 診断前処理、因果経路の欠落、診断 AI の運用に関する横断的知見・未解決の問いを追記。(concept 更新) - [[坪内佑樹]] / [[Meltria]] — 2022 年講演とデータセット生成ワークフローを追記。(entity 更新) ### 2026-06-26 SREcon23 EMEA スライド ingest（From Sysadmins to Flying Unicorns） - [[@2023__SREcon23 EMEA__From Sysadmins to (almost) Flying Unicorns]] — [[Guillaume Hérail]] ・[[Gilberto Müller]]（[[Sony Interactive Entertainment]]）。TOS・SRE Academy・CFT・SLO・Reliability Meetup の 5 施策で SRE 組織変革を実現したケーススタディ。(source 新規) - [[Guillaume Hérail]] / [[Gilberto Müller]] / [[Sony Interactive Entertainment]] — entity 3 件新規。(entity 新規) - [[SRE組織変革]] — TOS/CFT/SRE Academy/Reliability Meetup の組織変革パターンを横断的知見として初期化。(concept 新規) - [[SRE]] — SIE SRE 組織変革事例を横断的知見に追記。(concept 更新) ### 2026-06-26 データベース/分散システム異常診断 6 論文一括 ingest - [[@2020__PVLDB__Diagnosing Root Causes of Intermittent Slow Queries in Cloud Databases]] — Minghua Ma ほか。iSQUAD: クラウド DB の間欠的遅延クエリ根本原因診断。F1 80.4%。(source 新規) - [[@2024__arXiv__OS Pre-trained Transformer - Predicting Query Latencies across Changing System Contexts]] — Negi ほか（MIT CSAIL）。OSprey: OS メトリクス事前学習でシステム間クエリレイテンシ予測を汎化。(source 新規) - [[@2024__KDD__Multivariate Log-based Anomaly Detection for Distributed Database]] — Lingzhe Zhang ほか。MultiLog: 分散 DB 初のマルチノードログ異常検知データセット + 手法。(source 新規) - [[@2023__PACMMOD__DBPA - A Benchmark for Transactional Database Performance Anomalies]] — Shiyue Huang ほか。OLTP 性能異常 9 種の再現ベンチマーク。(source 新規) - [[@2025__arXiv__LogDB - Multivariate Log-based Failure Diagnosis for Distributed Databases]] — Lingzhe Zhang ほか。MultiLog 拡張版、ノード単位特徴圧縮 + マスターノード集約。(source 新規) - [[@2025__IEEE TSC__Towards Close-To-Zero Runtime Collection Overhead - Raft-Based Anomaly Diagnosis on System Faults for Distributed Storage System]] — Lingzhe Zhang ほか。RBAD: Raft ログ活用ゼロオーバーヘッド異常診断。(source 新規) - [[iSQUAD]]・[[OSprey]]・[[Apache IoTDB]]・[[RBAD]]・[[Tim Kraska]] — 新規 entity 5 件。(entity 新規) - [[間欠的遅延クエリ]]・[[クエリレイテンシ予測]]・[[ログベース異常検知]]・[[データベース性能異常ベンチマーク]]・[[Raftログ診断]] — 新規 concept 5 件。(concept 新規) - [[異常検知]]・[[データベース自律診断]]・[[分散ストレージ]] — 横断的知見更新。(concept 更新) ### 2026-06-26 SONiC Workshop Japan 2026 スライド ingest - [[@2026__SONiC Workshop Japan 2026__SONiC Scale-Up Working Group から探る Scale-Up や Ultra Ethernet 機能の実装方法]] — [[海老澤健太郎]]（[[Arrcus]]）による SONiC Scale-Up WG 技術解説。Scale-Up/Out/Across 3 層分類、RoCEv2 対次世代トランスポート 4 方式比較表、LLR・CBFC・LLDP の SONiC 実装。(source 新規) - [[海老澤健太郎]] — Arrcus プリンシパルエンジニア。SONiC・Ultra Ethernet 専門家。『実践 SONiC 入門』著者。(entity 新規) - [[Arrcus]] — ネットワーク OS ベンダー。(entity 新規) - [[RDMA]] — RoCEv2 対 UE Transport/Falcon/MRC の 4 方式 12 軸比較の横断的知見追記。Hoefler+ 2023 の予測に対する進捗更新。(concept 更新) - [[オープンネットワーキング]] — SONiC の Scale-Up プロトコルスタック拡張の横断的知見追記。(concept 更新) ### 2026-06-26 LLM Wiki (Karpathy Gist) enrich — source/concept 強化 - [[Memex]] — [[Vannevar Bush]] が 1945 年に提案した個人知識管理装置の概念的原型。`[[Memex]]` リンクが実体なし状態だったため新規作成。Bush-Wiener-Karpathy 系譜を整理。(entity 新規) - [[@2026__GitHub Gist__LLM Wiki]] — IDE メタファー・ユースケース・index vs log 役割分担・ツール推奨を追加。(source 更新) - [[LLM Wikiパターン]] — Tolkien Gateway 例・問い合わせ帰還原理・"Obsidian is the IDE" メタファーを追記。(concept 更新) ### 2026-06-26 HotNets 2024 I've Got 99 Problems But FLOPS Ain't One 論文 ingest - [[@2024__HotNets__I've Got 99 Problems But FLOPS Ain't One]] — [[Costin Raiciu]] ら(UPB / Broadcom)。スケーリング則から 103.8T パラメータ LLM 訓練要件を導出し、スケールアップ・スケールアウト・ワイドエリアの 3 層でネットワーキング研究課題を体系化。(source 新規) - [[Costin Raiciu]] — UPB / Broadcom。マルチパストランスポート・データセンターネットワーキング研究者。HotNets 2024 対応著者。(entity 新規) - [[University Politehnica of Bucharest]] — ルーマニア工科大学(UPB)。ネットワーキング研究グループ拠点。(entity 新規) - [[Broadcom]] — HotNets 2024 共著者所属として追記。(entity 更新) - [[AIデータセンタートポロジ]] — LLM 訓練特化のデータセンターネットワーク設計概念。マルチプレーン・マルチレールによるコスト削減定量化。(concept 新規) - [[LLM分散学習]] — 百万 GPU スケールのネットワーキングボトルネック・MoE 通信要求を追記。(concept 更新) - [[データセンター輻輳制御]] — RoCEv2 FCT 劣化・マルチパスへのシフトを追記。(concept 更新) - [[LLMスケーリング則]] — インフラ設計ツールとしての活用を追記。(concept 更新) ### 2026-06-26 ICSE 2023 Quality Issues of DL Platform 論文 ingest - [[@2023__ICSE__An Empirical Study on Quality Issues of Deep Learning Platform]] — [[Yanjie Gao]] ほか([[Microsoft Research]] 北京・[[Chongqing University]])。Platform-X の品質問題 360 件を手動分析。症状 7 カテゴリ・根本原因 3 次元 22 カテゴリ・緩和アクション 10 カテゴリを体系化した初の包括的 DL プラットフォーム品質研究。(source 新規) - [[DLプラットフォーム品質問題]] — DL プラットフォームで発生するジョブ障害・品質劣化の三次元分類体系。ユーザー側 43.34%・ハードウェア 28.33%・プラットフォーム側 28.33%。(concept 新規) - [[Yanjie Gao]] — ICSE 2023 品質問題実証研究(筆頭著者)を追記。(entity 更新) - [[Hongyu Zhang]] — ICSE 2023 共著者(Chongqing University)として追記。(entity 更新) - [[Microsoft Research]] — Platform-X 品質問題 ICSE 2023 研究を追記。(entity 更新) --- ### 2026-06-26 Demystifying NCCL (arXiv 2507.04786) 論文 ingest - [[@2025__IEEE__Demystifying NCCL - An In-depth Analysis of GPU Communication Protocols and Algorithms]] — ETH Zürich SPCL・NVIDIA・Broadcom による NCCL 2.19.1 内部設計の体系的解析。(source 新規) - [[ATLAHS]] — NCCL 解析を基盤とするネットワークシミュレーションツールチェーン。(entity 新規) - [[Siyuan Shen]] — ETH Zürich SPCL、等貢献筆頭著者。(entity 新規) - [[Zhiyi Hu]] — ETH Zürich SPCL、等貢献筆頭著者。(entity 新規) - [[NCCL]] — 体系的内部解析論文を追記。(entity 更新) - [[Torsten Hoefler]] — Demystifying NCCL を追記。(entity 更新) - [[集合通信]] — NCCL プロトコル非対称性・Ring 2k-1 ステップ構造と既存研究の接続を追記。(concept 更新) ### 2026-06-26 VCCL (arXiv 2026) 論文 ingest - [[@2026__arXiv__An Efficient, Reliable and Observable Collective Communication Library in Large-scale GPU Training Clusters]] — [[Infrawaves]] / [[Beihang University]] ほかによる arXiv 2026 論文。NCCL 代替 CCL VCCL を提案。SM-free P2P・プライマリバックアップ QP・スライディングウィンドウ RDMA モニタの三機構。(source 新規) - [[Mingjun Zhang]] — VCCL 共同筆頭著者(Infrawaves)。(entity 新規) - [[Infrawaves]] — VCCL の設計・展開組織として詳細追記。(entity 更新) - [[Menghao Zhang]] — VCCL 対応著者として追記。(entity 更新) - [[集合通信]] — SM-free P2P による NCCLX 対比と CCL 内蔵 O(μs) モニタの知見追記。(concept 更新) - [[耐障害LLM訓練]] — CCL 層での NIC 障害透過的吸収(GPU 待機時間 90% 削減)を第四の耐障害系統として追記。(concept 更新) - [[RDMAネットワーク監視]] — CCL 自己計装という外部計装不要の四番目の計装軸を追記。(concept 更新) ### 2026-06-26 OSDI 2025 TrainCheck 論文 ingest - [[@2025__OSDI__Training with Confidence - Catching Silent Errors in Deep Learning Training with Automated Proactive Checks]] — [[TrainCheck]] by [[Yuxuan Jiang]] et al. ([[University of Michigan]] [[OrderLab]]). (source 新規) - [[DLトレーニングサイレントエラー]] — DL 訓練バグの定義・根本原因分布・Heisenbug との関係。(concept 新規) - [[訓練不変条件]] — DL 訓練固有の高レベル規則の自動推論・転用可能性。(concept 新規) - [[Yuxuan Jiang]] — TrainCheck 筆頭著者。(entity 新規) - [[Peng Huang]] — OrderLab PI。(entity 新規) - [[TrainCheck]] — OSDI 2025 フレームワーク。(entity 新規) - [[OrderLab]] — UMich 研究室。(entity 新規) - [[University of Michigan]] — OrderLab 所属機関として追記。(entity 更新) - [[Heisenbug]] — DL サイレントエラーとの横断的知見追記。(concept 更新) ### 2026-06-24 SREcon スライド 7 件一括取り込み (anomaly detection / monitoring) - [[@2019__SREcon19 Asia__Anomaly Detection on Golden Signals]] — Baidu ゴールデンシグナル異常検知。(source 新規) - [[@2015__SREcon15 Europe__Signatures, Patterns, and Trends - Timeseries Data Mining at Etsy]] — Etsy 時系列マイニング。(source 新規) - [[@2024__SREcon24 EMEA__Anomaly Detection in Time Series from Scratch Using Statistical Analysis]] — Booking.com 統計ベース異常検知 Granomaly。(source 新規) - [[@2025__SREcon25 Americas__Using Statistical Techniques to Automatically Detect Game-Breaking Issues]] — Netflix ゲーム変化点検知。(source 新規) - [[@2025__SREcon25 Americas__Stopping Performance Regression via Changepoint Detection]] — Bloomberg PELT 性能レグレッション検知。(source 新規) - [[@2017__SREcon17 Asia__Smart Monitoring System for Anomaly Detection on Business Trends in Alibaba]] — Alibaba ビジネストレンド異常検知。(source 新規) - [[@2015__SREcon15__Smart Monitor System For Automatic Anomaly Detection at Baidu]] — Baidu 自動異常検知プラットフォーム。(source 新規) - [[Ivan Shubin]] / [[Booking.com]] / [[Andrew Clegg]] / [[Etsy]] / [[Ian Neidel]] / [[Open Connect]] / [[Joseph Cirella]] / [[Shanthini Velan]] / [[Xianping Qu]] — 新規 entity。(entity 新規) - [[Yu Chen (Baidu)]] / [[Baidu]] / [[Netflix]] / [[Zhaogang Wang]] / [[Alibaba Group]] — entity 更新。 - [[異常検知]] / [[変化点検知]] — concept 更新。[[ゴールデンシグナル]] / [[時系列類似度検索]] — concept 新規。 ### 2026-06-23 SREcon18 Americas Automatic Metric Screening - [[@2018__SREcon18 Americas__Automatic Metric Screening for Service Diagnosis]] — [[Yu Chen (Baidu)]]（[[Baidu]]）による SREcon18 Americas 発表。KDE による異常度測定、DBSCAN クラスタリング、ダイジェストランキングでサービス診断候補を推薦し、70 件中 60 件の根本原因ダイジェストを top 1 に出す。(source / slides / sre / aiops / rca) - [[Yu Chen (Baidu)]] / [[Baidu]] — SREcon18 Americas 発表を追記。(entity 更新) - [[Fault Localization]] / [[RCA入力選別]] / [[特徴量削減]] — ゴールデンメトリクスなしの全メトリクススクリーニングを、LLM 以前の入力選別・特徴量削減として追記。(concept 更新) ### 2026-06-23 SREcon17 Americas Practical Monitoring and Alerting - [[@2017__SREcon17 Americas__A Practical Guide to Monitoring and Alerting with Time Series at Scale]] — [[Jamie Wilkinson]]（[[Google]] SRE）による SREcon17 Americas 発表。監視保守コストを劣線形に抑える必要性、静的しきい値から時間・分布・SLO に基づくアラート設計への移行、[[Prometheus]] のラベル付き時系列・記録ルール・トポロジ集約を整理。(source / slides / monitoring / prometheus) - [[Jamie Wilkinson]] / [[Prometheus]] — 2017 年の時系列監視・Prometheus 実践を追記。(entity 更新) - [[アラート管理]] / [[アクショナブルアラート]] / [[サービスレベル目標]] / [[ヒストグラムメトリクス]] — 静的しきい値削減、ページ条件と診断情報の分離、SLO アラーティング前史、累積バケット比率の知見を追記。(concept 更新) ### 2026-06-23 SREcon16 Europe Alerting for Distributed Systems - [[@2016__SREcon16 Europe__Alerting for Distributed Systems - A Tale of Symptoms and Causes, Signals and Noise]] — [[Björn Rabenstein]]（[[SoundCloud]] Production Engineer / [[Prometheus]] 主要開発者の一人）による SREcon16 Europe 発表。症状と原因の分離、ブラックボックス/ホワイトボックス監視の使い分け、時系列ベースの imminent problem 検知、ページ用異常検知の単純性を整理。(source / slides / alert-management / prometheus) - [[Björn Rabenstein]] / [[SoundCloud]] — 新規。(entity 新規) - [[Prometheus]] / [[アラート管理]] / [[アクショナブルアラート]] / [[Prometheusルールリント]] / [[サービスレベル目標]] — 時系列アラーティング、症状ベース設計、SLO ベース呼び出し前史を追記。(entity/concept 更新) ### 2026-06-23 SREcon16 Less Alarming Alerts - [[@2016__SREcon16__Less Alarming Alerts]] — [[Robert Treat]]（[[OmniTI]] CEO）による SREcon16 発表。アラートを「人を起こすページ」と定義し、ビジネス影響・修復手順・通知先・予防可能性を説明できないものを削除・通知化・修正する。(source / slides / alert-management) - [[Robert Treat]] / [[OmniTI]] — 新規。(entity 新規) - [[アラート管理]] / [[アクショナブルアラート]] / [[アラート疲労]] — 発火前ガバナンス、アクショナブル性の最小チェックリスト、偽陽性による注意劣化を追記。(concept 更新) ### 2026-06-23 SREcon17 Asia Draining the Flood — Alert Fatigue at Baidu - [[@2017__SREcon17 Asia__Draining the Flood - A Combat against Alert Fatigue]] — Yu Chen（Baidu SRE）。Argus 監視システムのアラート洪水に対し 4 施策で 85% 削減。リンガバッファ・アソシエーションルールマイニング・アテンション率キャリブレーション・自動修復。(source 新規) - [[Argus (Baidu)]] — 新規。Baidu の内製監視システム。(entity 新規) - [[Yu Chen (Baidu)]] — 更新。SREcon17 Asia 発表情報を追記。(entity 更新) - [[アラート管理]] / [[アラート疲労]] / [[アラート集約]] — 横断的知見追記。(concept 更新) ### 2026-06-23 Cloudflare Blog Monitoring our Monitoring ingest - [[@2022__Cloudflare-Blog__Monitoring-our-Monitoring]] — [[Cloudflare]] SRE チームによる 2022 年ブログ記事。Prometheus ルールリンター [[pint]] のオープンソース公開告知。空クエリ問題・rate() 時間範囲不足・recording rule 連鎖破壊を体系化し、CI + デーモン「監視の監視」パターンを提示。(source / article / prometheus / alerting / monitoring) - [[Cloudflare]] — 新規。グローバルエッジネットワーク企業。Prometheus 運用規模(時系列 3,000 万)と pint 開発の文脈を収録。(entity 新規) - [[pint]] — 新規。Cloudflare 製 Prometheus ルールリンター。lint / CI / watch デーモンの 3 モード。(entity 新規) - [[Prometheusルールリント]] — 新規。Prometheus ルールが「静かに壊れている」状態を静的解析 + ライブ検証で防ぐプラクティス。watchdog monitoring パターン。(concept 新規) - [[アラート管理]] / [[Prometheus]] — 横断的知見(Prometheusルールリント第零の介入点)追記。(concept / entity 更新) ### 2026-06-23 SREcon21 Spike Detection in Alert Correlation at LinkedIn - [[@2021__SREcon21__Spike Detection in Alert Correlation at LinkedIn]] — [[Nishant Singh]]（[[LinkedIn]] シニア SRE）。修正 Z スコアでアラート相関のスパイクを分離し、ML なしでトイル 30–40% 削減。(source / slides / alert-correlation) - [[Nishant Singh]] — LinkedIn Production-SRE。アラート相関のスパイク検知を実装。(entity 新規) - [[アラート相関]] — 障害時の同時多発アラートからサービス依存関係を用いて根本原因を推定する取り組み。(concept 新規) ### 2026-06-23 joisino「AIのモデル崩壊と多様性」ingest - [[joisino-モデル崩壊と多様性-2026]] — [[佐藤竜馬]]（joisino）著。AI 生成データの反復訓練による分布収縮メカニズム、π²/6 の数学的上界、人間の思考への二次効果を論じるブログ記事。(source / article / model-collapse / diversity) - [[モデル崩壊]] — 新規。AI 生成データの反復訓練により出力分布が収縮・均質化する現象。貪欲デコーディング・フィルタリング・反復訓練の 3 メカニズムと緩和策。(concept 新規) - [[佐藤竜馬]] — AI 生成データと社会的影響トピックを追記。(entity 更新) ### 2026-06-23 SREcon22 Americas Modeling Alert Quality スライド ingest - [[@2022__SREcon22 Americas__Modeling Alert Quality]] — [[Moshe Zadka]] による SREcon22 Americas 発表。アラート品質をコスト（アンチクオリティ）としてモデル化。真/偽/欠落の 3 分類と 4 区間レイテンシ分解を提示し、Goodhart の法則を踏まえた計測・改善サイクルを説く。(source / slides / alert-management / SREcon22) - [[Moshe Zadka]] — 新規。(entity 新規) - [[Quality of Alerts]] / [[アラート管理]] — 横断的知見追記。(concept 更新) ### 2026-06-23 SRE NEXT 2023 Warning アラート自動調査スライド ingest - [[@2023__SRE NEXT__Warningアラートを放置しない！アラート駆動でログやメトリックを自動収集する仕組みによる恩恵]] — [[池田将士]]([[面白法人カヤック]])による SRE NEXT 2023 発表。Mackerel の Warning アラート発火時に、[[prepalert]] がログ・メトリクスを自動収集してアラートメモへ添付する運用を紹介。(source / slides / sre / alert-management) - [[池田将士]] / [[面白法人カヤック]] / [[prepalert]] — 新規。(entity 新規) - [[Warningアラート]] — 新規。低重要度でも SLO・エラーバジェット消費につながり得るアラートを、放置せず調査可能にする運用対象として整理。(concept 新規) - [[Mackerel]] / [[SRE NEXT]] / [[アラート管理]] / [[エラーバジェット]] / [[サービスレベル目標]] — Warning アラートと自動調査準備の知見を追記。(entity/concept 更新) ### 2026-06-23 Rethinking Hybrid Architectures (Qiao+ arXiv 2026) ingest-paper - [[@2026__arXiv__Rethinking the Role of Efficient Attention in Hybrid Architectures]] — 効率的注意の役割を体系的解析。Large-Window Laziness 発見・NoPE 改善提案。(source 新規) - [[ハイブリッドアテンションアーキテクチャ]] — 新規。フルアテンション + 効率的注意のハイブリッド設計原則。(concept 新規) - [[NoPE]] — ハイブリッドへのフルアテンション選択的適用で長コンテキスト +6.75 pt という知見追記。(concept 更新) - [[線形注意]] — 再帰型混合器の長コンテキスト検索への非主体性という知見追記。(concept 更新) - [[Zhiyuan Liu]] / [[Xu Han]] / [[Chaojun Xiao]] / [[OpenBMB]] — 新規。(entity 新規) - [[Tsinghua University]] — ソース追加。(entity 更新) ### 2026-06-23 SRE NEXT 2023 Runbook スライド ingest - [[@2023__SpeakerDeck__Runbookに何を書き、どのようにアラートを振り分けるか]] — [[Sohei Iwahori]]([[GREE, Inc]])による SRE NEXT 2023 発表資料。Runbook をエスカレーション先向けの背景・文脈・判断材料として整備し、アラート追加時の通知チャンネル・スコープ・対応アクションを明示させるガイドラインを提示。(source / slides / sre / alert-management) - [[Sohei Iwahori]] — GREE, Inc のインフラ / Monitoring Unit Leader。(entity 新規) - [[GREE, Inc]] — ゲーム系ワークロードのインフラ運用とモニタリングを行う企業。(entity 新規) - [[アクショナブルアラート]] / [[アラート管理]] — Runbook と通知チャンネル選択による発火前の actionability 設計を追記。(concept 更新) ### 2026-06-23 Cameron Wolfe — Agentic RL フレームワーク比較記事 ingest - [[Agentic-RL-Cameron-Wolfe-2026]] — [[Cameron-R-Wolfe|Cameron R. Wolfe]] 著。ToRL・AgentGym-RL・Agent-R1・AgentRL・AutoForge の 5 フレームワーク横断比較と設計ベストプラクティス体系化。(source / article / agentic-rl / survey) - [[Cameron-R-Wolfe|Cameron R. Wolfe]] — AI 研究者・Substack "Deep (Learning) Focus" 著者。(entity 新規) - [[エージェント型強化学習]] — ToRL(RL-Zero + ツール利用創発)・AgentGym-RL(ScalingInter-RL カリキュラム)・5 フレームワーク収束知見を追加更新。(concept 更新) ### 2026-06-23 Europe 2031 (ARQ Foundation) ingest - [[europe2031-ai|Europe 2031]] — [[ARQ Foundation]] 主執筆。AI 開発格差によるヨーロッパ経済・政治周縁化を 2025〜2031 年スパンで描く政策シナリオ・ナラティブ。米欧コンピュート比 12.4→15.7 倍、デジタル主権規制が逆に脆弱性を加速するという逆説を描く。(source / policy / geopolitics / AI) - [[ARQ Foundation]] — ヨーロッパの AI 政策・安全保障を研究するシンクタンク。Europe 2031 の主執筆機関。(entity 新規) - [[ASML]] — オランダの EUV リソグラフィ装置メーカー。世界唯一の EUV サプライヤーとして地政学的キーノードだが、シナリオでは政治的麻痺で活かせずに終わる。(entity 新規) - [[ヨーロッパのAI主権]] — EU が米中依存からの脱却を目指す政策目標。主権規制が逆に脆弱性を加速させるという逆説が中心テーマ。(concept 新規) - [[コンピュート格差]] — AI 開発における地域間コンピュート資源の不均衡。米欧比 12.4→15.7 倍の拡大を定量化。(concept 新規) ### 2026-06-23 sairahul1 Loop Engineering スレッド記事 ingest - [[sairahul1-Loop-Engineering-2026]] — [[Sai Rahul]](@sairahul1)による X スレッド。[[Peter Steinberger]](OpenAI) と [[Boris Cherny]](Anthropic) の発言を起点に「エージェントループを設計する」というパラダイムシフトを体系化。(source / article / agents / software-engineering) - [[ループエンジニアリング]] — 反復フィードバックサイクルで AI エージェントを検証済みアウトカムへ導く実践。5 段階(DISCOVER→PLAN→EXECUTE→VERIFY→ITERATE)・6 構成要素・オープン/クローズドの 2 種別を定義(concept 新規) - [[Boris Cherny]] — Anthropic Claude Code ヘッド。「私の仕事はループを書くことだ」と発言(entity 新規) - [[Peter Steinberger]] — OpenClaw 作成者・OpenAI 在籍。「エージェントにプロンプトを送るループを設計せよ」と発言(entity 新規) - [[Sai Rahul]] — @sairahul1、AI/プロダクト/システム解説者(entity 新規) ### 2026-06-22 The Big LLM Architecture Comparison (Sebastian Raschka) ingest - [[The-Big-LLM-Architecture-Comparison|The Big LLM Architecture Comparison]] — [[Sebastian Raschka]] による DeepSeek V3〜Gemma 4 の主要 LLM アーキテクチャ包括比較サーベイ記事(Substack 2025-07-19、最終更新 2026-04-02)。(source / article / llm / architecture / survey) - [[Multi-Head Latent Attention]] — KV キャッシュ圧縮型アテンション。GQA より高性能・高実装コスト(concept 新規) - [[Grouped-Query Attention]] — K/V 共有型アテンション。現世代デファクトスタンダード(concept 新規) - [[スライディングウィンドウアテンション]] — ローカルアテンションによる KV キャッシュ削減(concept 新規) - [[NoPE]] — 位置符号化なし。長さ汎化に優れる(concept 新規) - [[QK-Norm]] — アテンション内 Q/K への RMSNorm。訓練安定化(concept 新規) - [[Gated DeltaNet]] — 線形アテンション変種。Qwen3-Next / Kimi Linear が採用(concept 新規) - [[Sebastian Raschka]] — AI 著述家・LLMs from Scratch 著者(entity 新規) - [[Gemma 3]] / [[Gemma 4]] — Google オープンウェイト LLM(entity 新規 x2) - [[Qwen3]] / [[Qwen3-Next]] — Alibaba LLM シリーズ / 後継モデル(entity 新規 x2) - [[GPT-OSS]] — OpenAI 初オープンウェイト(entity 新規) - [[SmolLM3]] — HuggingFace 3B NoPE 採用モデル(entity 新規) - [[Mistral 3]] — Mistral AI フラッグシップ MoE。DeepSeek V3 同一アーキテクチャ(entity 新規) - [[Kimi Linear]] — Moonshot AI 線形アテンションハイブリッド 48B(entity 新規) - [[Arcee AI Trinity Large]] — Arcee AI 400B MoE(entity 新規) - [[Xiaomi MiMo-V2-Flash]] — Xiaomi 309B MoE、SWA 128 トークンウィンドウ(entity 新規) - [[OLMo 2]] — Allen AI 完全透明オープン LLM(entity 新規) ### 2026-06-21 Datadog Bits AI SRE GA 発表記事 ingest - [[@2025__Datadog__Introducing Bits AI SRE]] — Kai Xin Tai([[Datadog]])、2025-06-10 公開・2025-12-02 更新。Bits AI SRE の GA 発表とプレビュー機能（Bits AI Dev Agent・トリガー拡大・推奨アクション）。(source / article / sre / aiops / product) - [[Bits AI SRE]] — GA 後の拡張（文脈記憶・コード修正・Watchdog トリガー）を反映（entity、更新）。 - [[agentic SRE]] — 調査→修正拡張・プロアクティブトリガー・調査間記憶の横断知見を追加（concept、更新）。 - [[Datadog]] — 新ソース参照を追加（entity、更新）。 ### 2026-06-21 マイクロサービス RCA・マルチモーダル障害診断 7 論文一括(LocaleXpert / UniTok / MRCA / HolisticRCA / Medicine / ChangeLLM / DeepHunt) - [[@2026__TSC__LLM-Enhanced Failure Localization in Microservices - Integrating Multi-Modal Data and Expert Interpretation]] — [[Zhenyu Zhong]] ほか。LLM＋統計的障害箇所特定のハイブリッド設計 LocaleXpert(TSC 2026)。(source / paper / aiops / rca / llm) - [[@2026__arXiv__Time Series as Language - A Universal Tokenizer for General-Purpose Time Series Foundation Models]] — [[Yunhao Zhang]]・[[Junchi Yan]] ほか。VQ-VAE ベース汎用時系列トークナイザ UniTok と NTP 基盤モデル UniTok-FM(arXiv 2026)。(source / paper / time-series / foundation-model) - [[@2024__ASE__MRCA - Metric-level Root Cause Analysis for Microservices via Multi-Modal Data]] — [[Yidan Wang]] ほか。マルチモーダルデータからメトリクスレベル根本原因を特定する MRCA(ASE 2024)。(source / paper / aiops / rca / multi-modal) - [[@2024__TSC__Holistic Root Cause Analysis for Failures in Cloud-Native Systems Through Observability Data]] — [[Yongqi Han]]・[[Qingfeng Du]] ほか。3 モダリティ統合の包括的 RCA(TSC 2024)。(source / paper / aiops / rca / cloud-native) - [[@2024__ASE__Giving Every Modality a Voice in Microservice Failure Diagnosis via Multimodal Adaptive Optimization]] — [[Lei Tao]]・[[Shenglin Zhang]] ほか。マルチモーダル適応最適化フレームワーク Medicine(ASE 2024)。(source / paper / aiops / multi-modal / failure-diagnosis) - [[@2025__FSE__A Multimodal Intelligent Change Assessment Framework for Microservice Systems Based on Large Language Models]] — [[Yuchi Ma]] ほか。LLM ベースのマルチモーダル変更影響評価 ChangeLLM/SCELM(FSE 2025)。(source / paper / aiops / change-management / llm) - [[@2025__TOSEM__Interpretable Failure Localization for Microservice Systems Based on Graph Autoencoder]] — [[Yongqian Sun]]・[[Shenglin Zhang]] ほか。グラフオートエンコーダベースの解釈可能な障害箇所特定 DeepHunt(TOSEM 2025)。(source / paper / aiops / fault-localization / graph-autoencoder) - [[根本原因分析]] / [[マルチモーダル障害診断]] / [[LLMによる根本原因分析]] / [[変更起因インシデント]] / [[時系列基盤モデル]] — 概念(concept、更新)。(concept / aiops / time-series) - 新規エンティティ 18 件(person 15 / organization 3) — 詳細は [[entities/_index]]。 ### 2026-06-20 マイクロサービス RCA 6 論文一括(TraceRank / LogCluster / LogKG / FSF / Nezha / Eadro) - [[@2021__JSEP__TraceRank - Abnormal service localization with dis-aggregated end-to-end tracing data in cloud native systems]] — [[Guangba Yu]] ほか。非集計トレース + スペクトル解析 + PageRank による異常サービス箇所特定(JSEP 2021)。(source / paper / aiops / rca / distributed-tracing) - [[@2016__ICSE-C__Log Clustering Based Problem Identification for Online Service Systems]] — [[Qingwei Lin]]・[[Hongyu Zhang]]・[[Jian-Guang Lou]] ほか。IDF ログクラスタリング + 知識ベース照合(ICSE Companion 2016)。(source / paper / aiops / log-analysis) - [[@2023__TSC__LogKG - Log Failure Diagnosis through Knowledge Graph]] — [[Yicheng Sui]]・[[Shenglin Zhang]]・[[Dan Pei]] ほか。知識グラフによるログ障害診断(TSC 2023)。(source / paper / aiops / log-analysis / knowledge-graph) - [[@2022__IEEE CLOUD__Localizing and Explaining Faults in Microservices Using Distributed Tracing]] — [[Jesus Rios]]・[[Saurabh Jha]]・[[Larisa Shwartz]]。スパンツリー因果推論による教師なし障害箇所特定(IEEE CLOUD 2022)。(source / paper / aiops / fault-localization / distributed-tracing) - [[@2023__ESEC-FSE__Nezha - Interpretable Fine-Grained Root Causes Analysis for Microservices on Multi-modal Observability Data]] — [[Guangba Yu]]・[[Pengfei Chen]] ほか。メトリクス+トレース+ログ 3 モダリティ統合のコード領域レベル RCA(ESEC/FSE 2023)。(source / paper / aiops / rca / multi-modal) - [[@2023__arXiv__Eadro - An End-to-End Troubleshooting Framework for Microservices on Multi-source Data]] — [[Cheryl Lee]]・[[Michael R. Lyu]] ほか。異常検知 + 箇所特定統合のエンドツーエンド障害診断(arXiv 2023)。(source / paper / aiops / rca / multi-source) - [[ログクラスタリング]] / [[知識グラフ]] — 概念(concept、新規)。(concept / aiops) - [[Zicheng Huang]] / [[Jian-Guang Lou]] / [[Xuewei Chen]] / [[Yu Zhang]] / [[Yicheng Sui]] / [[Jesus Rios]] / [[Larisa Shwartz]] / [[Cheryl Lee]] / [[Tianyi Yang]] / [[Yuxin Su]] / [[Zibin Zheng]] — エンティティ(person、新規)。(entity / person) ### 2026-06-20 Energy statistics (JSPI 2013) - [[@2013__JSPI__Energy statistics - A class of statistics based on distances]] — [[Gábor J. Székely]]・[[Maria L. Rizzo]]。距離に基づく統計量族のレビュー。エネルギー距離・DISCO・E-クラスタリング・dCov/dCor・ブラウン共分散との同値性を体系化(JSPI 2013)。(source / paper / jspi / statistics / dependence-measure) - [[エネルギー統計]] / [[距離相関]] — 概念(concept)。(concept / statistics / distance-statistics) - [[Gábor J. Székely]] / [[Maria L. Rizzo]] — エンティティ(person)。(entity / person) ### 2026-06-20 分散トレーシング基礎論文 5 本一括(Pinpoint / Magpie / lprof / Pivot Tracing / Canopy) - [[@2002__DSN__Pinpoint - Problem Determination in Large, Dynamic Internet Services]] — [[Mike Y. Chen]]・[[Emre Kıcıman]]・[[Armando Fox]]・[[Eric Brewer]]。J2EE 計装 + 決定木/χ²検定による障害コンポーネント自動特定(DSN 2002)。(source / paper / dsn / distributed-systems / fault-localization) - [[@2003__HotOS__Magpie - Online Modelling and Performance-aware Systems]] — [[Paul Barham]]・[[Rebecca Isaacs]]・[[Richard Mortier]]。イベントベースリクエスト抽出とオンラインワークロードモデリング(HotOS IX 2003)。(source / paper / hotos / distributed-tracing) - [[@2014__OSDI__lprof - A Non-intrusive Request Flow Profiler for Distributed Systems]] — [[Xu Zhao]]・[[Ding Yuan]]・[[Michael Stumm]]。バイトコード静的解析による非侵入リクエストフロープロファイラ(OSDI 2014)。(source / paper / osdi / distributed-tracing) - [[@2015__SOSP__Pivot Tracing - Dynamic Causal Monitoring for Distributed Systems]] — [[Jonathan Mace]]・[[Ryan Roelke]]・[[Rodrigo Fonseca]]。happened-before join + 動的計装による実行時因果モニタリング(SOSP 2015)。(source / paper / sosp / distributed-tracing) - [[@2017__SOSP__Canopy - An End-to-End Performance Tracing And Analysis System]] — [[Jonathan Kaldor]] ほか。Facebook 規模のエンドツーエンド性能トレーシング・分析パイプライン(SOSP 2017)。(source / paper / sosp / distributed-tracing) - [[Pinpoint]] / [[Magpie]] / [[lprof]] / [[Pivot Tracing]] / [[Canopy]] / [[Scuba]] — エンティティ(product)。(entity / product) - [[Mike Y. Chen]] / [[Emre Kıcıman]] / [[Armando Fox]] / [[Eric Brewer]] / [[Paul Barham]] / [[Rebecca Isaacs]] / [[Richard Mortier]] / [[Xu Zhao]] / [[Ding Yuan]] / [[Michael Stumm]] / [[Jonathan Mace]] / [[Ryan Roelke]] / [[Rodrigo Fonseca]] / [[Jonathan Kaldor]] — エンティティ(person)。(entity / person) - [[Stanford University]] / [[Brown University]] / [[University of Toronto]] / [[UC Berkeley ROC Project]] / [[Facebook]] / [[Meta]] / [[Microsoft Research]] — エンティティ(organization)。(entity / organization) - [[動的計装]] / [[リクエストモデリング]] / [[非侵入プロファイリング]] — 新規概念。(concept / new) - [[分散トレーシング]] / [[Fault Localization]] / [[トレースサンプリング]] / [[根本原因分析]] — 更新概念。(concept / updated) ### 2026-06-20 ISSTA 2016 — Practitioners' Expectations on Automated Fault Localization - [[@2016__ISSTA__Practitioners' Expectations on Automated Fault Localization]] — [[Pavneet Singh Kochhar]]・[[Xin Xia]]・[[David Lo]]・[[Shanping Li]]。386 名実務者調査 + 文献レビュー 15 本。FL 採用閾値（Top-5・成功率 75%・100kLOC・1 分・判断根拠）定量化。(source / paper / issta / se / fl) - [[Xin Xia]] — [[Zhejiang University]] 教授。(entity / person) - [[Pavneet Singh Kochhar]] — [[Singapore Management University]]。(entity / person) - [[Shanping Li]] — [[Zhejiang University]] 教授。(entity / person) - [[Singapore Management University]] — SMU、シンガポールの私立大学。(entity / organization) - [[Fault Localization]] — 更新: SFL 採用閾値(Kochhar+ 2016)と AIOps 評価指標の接続を横断的知見に追記。(concept / updated) ### 2026-06-20 BARO — Robust RCA via Multivariate Bayesian Online Change Point Detection - [[@2024__FSE__BARO - Robust Root Cause Analysis for Microservices via Multivariate Bayesian Online Change Point Detection]] — [[Luan Pham]]・[[Huong Ha]]・[[Hongyu Zhang]]（[[RMIT University]] / [[Chongqing University]]）による FSE 2024 論文。多変量 BOCPD と RobustScorer(中央値・IQR ベース)を組み合わせたエンドツーエンド RCA フレームワーク BARO を提案。Online Boutique/Sock Shop/Train Ticket で既存手法(CIRCA・RCD・CausalRCA 等)を一貫して上回り、異常検知時刻の誤差への頑強性を実証。(source / paper / fse / aiops / rca / microservices) - 更新 entity: [[Luan Pham]] / [[Huong Ha]] / [[Hongyu Zhang]] - 更新 concept: [[変化点検知]]（多変量 BOCPD の知見追加）/ [[根本原因分析]]（RobustScorer の横断的知見追加）/ [[因果推論ベースRCA]]（BARO と因果グラフ手法比較の横断的知見追加） - Key insight: 因果グラフを使わないノンパラメトリック手法 BARO が因果グラフ手法を凌駕する根拠は、「異常検知時刻のずれへの非感度設計」にある。これは辺方向推定がボトルネックという ASE 2024 の観察を補完する新たな設計要件を提示。 ### 2026-06-20 IWQoS 2020 — MicroCause - [[@2020__IWQoS__Localizing Failure Root Causes in a Microservice through Causality Inference]] — [[Yuan Meng]]・[[Shenglin Zhang]] ほか。PCTS + TCORW によるイントラマイクロサービス障害根本原因特定。AC@5=98.7%。(source / paper / aiops / rca / microservices / causal-inference) - [[Yuan Meng]] — [[Tsinghua University]] / BNRist。MicroCause 第一著者。(entity / person) - [[Ruru Zhang]] — [[Nankai University]]。MicroCause 共著者。(entity / person) - [[Zhilong Hu]] — [[Nankai University]]。MicroCause 共著者。(entity / person) - [[Yiyin Zhang]] — [[Alibaba Group]]。MicroCause 共著者。(entity / person) - [[Chenyang Jia]] — [[Alibaba Group]]。MicroCause 共著者。(entity / person) - [[Zhaogang Wang]] — [[Alibaba Group]]。MicroCause 共著者。(entity / person) - [[因果推論ベースRCA]] — PCTS/TCORW 知見を横断的知見に追記。(concept / updated) ### 2026-06-20 KDE チュートリアル + DirectLiNGAM - [[@2017__arXiv__A Tutorial on Kernel Density Estimation and Recent Advances]] — [[Yen-Chi Chen]]（[[University of Washington]]）による KDE チュートリアル。収束レート・帯域幅選択・信頼帯構成のバイアス処理・密度の幾何学的/位相的特徴推定を体系的に概観。(source / paper / nonparametric-statistics / density-estimation) - [[@2011__JMLR__DirectLiNGAM - A Direct Method for Learning a Linear Non-Gaussian Structural Equation Model]] — [[Shohei Shimizu]]・[[Aapo Hyvärinen]]・[[Kenneth Bollen]] ほか（[[Osaka University]] / [[University of Helsinki]]）。ICA に依存しない LiNGAM の直接推定法。固定ステップ数での収束保証。(source / paper / causal-discovery) - 新規 entity: [[Yen-Chi Chen]] / [[Shohei Shimizu]] / [[Aapo Hyvärinen]] / [[Kenneth Bollen]] / [[Osaka University]] / [[University of Helsinki]] - 更新 entity: [[University of Washington]] - 新規 concept: [[カーネル密度推定]] - 更新 concept: [[因果発見]]（DirectLiNGAM の位置づけ・横断的知見追加）/ [[密度ベースクラスタリング]]（KDE との理論的接続追加） ### 2026-06-20 クラスタリング基礎論文 3 本（DBSCAN / HDBSCAN / k-Shape） - [[@1996__KDD__A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise]] — [[Martin Ester]]・[[Hans-Peter Kriegel]]・[[Jörg Sander]]・Xiaowei Xu（University of Munich）による KDD 1996 論文。密度ベースのクラスタ定義（核点・密度到達可能性・密度接続）に立脚した DBSCAN を提案。クラスタ数の事前指定不要で任意形状のクラスタを発見し、CLARANS に対し 100 倍以上の効率を実証。(source / paper / clustering / spatial-databases) - [[@2013__PAKDD__Density-Based Clustering Based on Hierarchical Density Estimates]] — [[Ricardo J.G.B. Campello]]・[[Davoud Moulavi]]・[[Jörg Sander]]（University of Alberta）による PAKDD 2013 論文。DBSCAN の全解を単一パラメータ mpts で階層的に列挙する HDBSCAN を提案。相対超過質量に基づくクラスタ安定性尺度と最適フラット分割抽出アルゴリズムを導入。OPTICS(AutoCl) と AUTO-HDS を有意に上回る。(source / paper / clustering / density-based) - [[@2016__SIGMOD Record__k-Shape - Efficient and Accurate Clustering of Time Series]] — [[John Paparrizos]]・[[Luis Gravano]]（Columbia University）による SIGMOD 2015（SIGMOD Record 2016 再録）論文。正規化相互相関に基づく形状ベース距離 SBD と Rayleigh 商最大化によるセントロイド計算を組み合わせた k-Shape を提案。48 データセットで全スケーラブル手法中唯一の最高精度を達成。(source / paper / clustering / time-series) - 新規 entity: [[Martin Ester]] / [[Hans-Peter Kriegel]] / [[Jörg Sander]] / [[Ricardo J.G.B. Campello]] / [[Davoud Moulavi]] / [[Luis Gravano]] - 更新 entity: [[John Paparrizos]]（k-Shape 原著の情報を追記） - 新規 concept: [[密度ベースクラスタリング]] / [[クラスタ安定性]] - 更新 concept: [[時系列クラスタリング]]（距離尺度セクションと横断的知見を追加） - Key insight: DBSCAN のグローバル密度閾値の限界を HDBSCAN が階層化と安定性尺度で解決。密度ベースクラスタリングは 17 年間で「単一閾値→階層→最適抽出」と進化し、境界点の排除により密度レベルセットとの理論的整合性も改善された。 --- ### 2026-06-19 Signal Processing — Selective review of offline change point detection methods - [[@2020__Signal Processing__Selective review of offline change point detection methods]] — [[Charles Truong]]・[[Laurent Oudre]]・[[Nicolas Vayatis]]（[[ENS Paris-Saclay]] / University Paris 13）による Signal Processing 2020 サーベイ。オフライン変化点検知手法を**コスト関数**（パラメトリック 7 種 + ノンパラメトリック 6 種 = 計 13 種）・**探索手法**（Opt: 動的計画法 $O(KT^2)$、Pelt: 枝刈り線形時間、Win・BinSeg・BotUp: 近似）・**制約**（l0/l1/複雑ペナルティ）の 3 軸で統一分類。Python ライブラリ [[ruptures]] として実装公開。(source / paper / signal-processing / change-point-detection / survey) - 新規 entity: [[Charles Truong]] / [[Laurent Oudre]] / [[Nicolas Vayatis]] / [[ruptures]] - 更新 concept: [[変化点検知]]（3 軸分類と AIOps 応用の手法選択収束の横断的知見、ノンパラメトリックコスト関数の AIOps 評価に関する未解決の問いを追加） - Key insight: 変化点検知の 3 軸分解は手法のモジュール的選択を可能にするが、AIOps 実運用では $c_{L_2}$ + Pelt に収束しておりサーベイが示す多様なコスト関数の比較が未踏である。 --- ### 2026-06-19 PVLDB — Time-Series Clustering: A Comprehensive Study of Data Mining, Machine Learning, and Deep Learning Methods - [[@2025__PVLDB__Time-Series Clustering - A Comprehensive Study of Data Mining, Machine Learning, and Deep Learning Methods]] — [[John Paparrizos]]・Bogireddy（[[The Ohio State University]]）による PVLDB 2025 論文。84手法を10クラス（分割型・カーネル・密度・階層・分布・シェイプレット・半教師あり・モデル・深層学習・基盤モデル）に分類し、[[UCR Time Series Archive]] 全128データセットで Wilcoxon 検定・Friedman-Nemenyi 検定を用いて評価。10年前の k-Shape を統計的有意に上回る手法は皆無。深層学習では RES-CNN + CNRV の組み合わせが最良だが k-Shape と同等。基盤モデル(CHRONOS・OFA・MOMENT)もクラスタリングでは古典手法を超えられず、MOMENT のデータ汚染を指摘。(source / paper / pvldb / time-series / clustering / benchmark) - 新規 entity: [[John Paparrizos]] / [[UCR Time Series Archive]] - 更新 entity: [[The Ohio State University]]（Paparrizos・時系列クラスタリング研究を追記） - 新規 concept: [[時系列クラスタリング]] - 更新 concept: [[時系列基盤モデル]]（TSFM のクラスタリング性能が k-Shape を上回れない知見を追加） - Key insight: 10年間の「進歩」は先行ベンチマークのバグ(tslearn k-Shape 実装)・不公平なパラメータ設定・限定的データセット選択に起因する幻想であった。基盤モデルが予測タスクで示すスケーリング則はクラスタリング等の下流タスクに転移しない可能性がある。 --- ### 2026-06-19 Boris Tane Blog — The Software Development Lifecycle Is Dead - [[@2026__Boris Tane Blog__The Software Development Lifecycle Is Dead]] — [[Boris Tane]](2026-02-20)。AI エージェントが従来 SDLC を解体し、Intent → Agent → Build/Test/Deploy → Observe → Repeat というループへ収束したと論じる。唯一生き残るフェーズはモニタリング（オブザーバビリティ）。新差別化要因は[[コンテキストエンジニアリング]]。(article / software-development / ai-native / observability) - 新規 entity: [[Boris Tane]] - 新規 concept: [[コンテキストエンジニアリング]] / [[AIネイティブ開発]] - Key insight: SDLC の解体はオブザーバビリティを「最後のフェーズ」から「ループの中心」へ転換させる。Karpathy の「bookkeeping は LLM に」という主張と Tane の「コンテキスト品質が差別化要因」は AI 時代の人間の付加価値が「入力設計」に移ることで一致している。 --- ### 2026-06-19 CSUR — D'ya Like DAGs? A Survey on Structure Learning and Causal Discovery - [[@2022__CSUR__D'ya Like DAGs - A Survey on Structure Learning and Causal Discovery]] — [[Matthew J. Vowels]]・[[Necati Cihan Camgoz]]・[[Richard Bowden]]（CVSSP, [[University of Surrey]]）による ACM Computing Surveys 2022 サーベイ。構造発見の4系統（制約ベース・スコアベース・構造的非対称性・介入）を統一整理し、組合せ手法約60件と連続最適化手法約30件を横断比較。NOTEARS（2018）以降の連続最適化パラダイムを初めて体系化。「因果の跳躍」への哲学的批判を展開。(source / paper / causal-discovery / structure-learning / survey) - 新規 entity: [[Matthew J. Vowels]] / [[Necati Cihan Camgoz]] / [[Richard Bowden]] - 更新 entity: [[University of Surrey]]（CVSSP・因果発見研究を追記） - 更新 concept: [[因果発見]]（連続最適化パラダイムの追加・Glymour 2019 との横断的知見3件）/ [[因果推論ベースRCA]]（DAG-GNN/NOTEARS 系の低次元評価制約と RCA 応用の接続） - Key insight: Glymour+ 2019 が組合せ手法の理論的厳密性を整理したのに対し、Vowels+ 2022 は連続最適化手法の実践的スケーラビリティを体系化した。両サーベイの対比から、RCA で使われる DAG-GNN・NOTEARS 系が元来 <100 変数でしか評価されておらず、マイクロサービスの数百メトリクスへの適用が理論的にも実験的にも未検証であることが明確になる。 --- ### 2026-06-19 Frontiers in Genetics — Review of Causal Discovery Methods Based on Graphical Models - [[@2019__Frontiers in Genetics__Review of Causal Discovery Methods Based on Graphical Models]] — [[Clark Glymour]]・[[Kun Zhang]]・[[Peter Spirtes]]（[[Carnegie Mellon University]]）による Frontiers in Genetics 2019 レビュー。制約ベース（PC・FCI）・スコアベース（GES）・関数的因果モデルベース（LiNGAM・ANM・PNL）の3系統を30年分体系化。忠実性仮定・識別可能性条件・スケーラビリティの対比、時系列因果発見の課題、生物学応用ガイドライン10項目を整理。(source / paper / causal-discovery / graphical-models / review) - 新規 entity: [[Clark Glymour]] / [[Kun Zhang]] / [[Peter Spirtes]] - 更新 entity: [[Carnegie Mellon University]]（因果発見アルゴリズム発祥拠点を追記） - 新規 concept: [[因果発見]] - 更新 concept: [[因果推論ベースRCA]]（Glymour 理論体系との接続——忠実性仮定・前処理分布歪み・FCI vs PC の交絡ギャップが RCA 失敗モードを説明） - Key insight: 因果発見の3系統は「スケーラビリティ vs 識別力」のトレードオフで位置づけられ、RCA で使われる PC・LiNGAM・Granger 等の理論的仮定と限界を体系的に理解する基盤を提供する。クラメール分解定理により線形関係下では非ガウス分布が遍在するが、前処理がこの非ガウス性を人為的に除去するリスクが分野を超えて存在する。 --- ### 2026-06-19 Physics Reports — Signal propagation in complex networks - [[@2023__Physics Reports__Signal propagation in complex networks]] — [[Peng Ji]] ほか([[Fudan University]]・PIK・[[University of Maribor]] ほか)。感染症・蔵本モデル・反応拡散・カスケード障害から GNN・転送エントロピー・AI 時系列解析、疫学・電力網・ロボット群への応用まで体系化した 96 ページ包括サーベイ(source / paper / complex-networks / survey) - 新規 entity: [[Peng Ji]] / [[Jürgen Kurths]] / [[Matjaž Perc]] / [[University of Maribor]] - 新規 concept: [[複雑ネットワーク]] / [[信号伝播]] - Key insight: 信号伝播のジオメトリはトポロジーと非線形相互作用の両方によって規定される。時変ネットワークの静的近似は真の伝播パターンを正確に反映できないため、時間的ネットワーク固有の解析が必要。 --- ### 2026-06-19 CSUR — Anomaly Detection: A Survey - [[@2009__CSUR__Anomaly Detection - A Survey]] — [[Varun Chandola]]・[[Arindam Banerjee]]・[[Vipin Kumar]]([[University of Minnesota]])による ACM Computing Surveys 2009 論文。異常検知を点異常・文脈異常・集合異常、教師あり/半教師あり/教師なし、スコア/ラベル出力、6 技法群の仮定ベース比較として体系化する(source / paper / anomaly-detection / survey) - 新規 entity: [[Varun Chandola]] / [[Arindam Banerjee]] / [[Vipin Kumar]] / [[University of Minnesota]] - 更新 concept: [[異常検知]](古典 taxonomy、2015 PADBI・2021 マイクロサービスサーベイ・現代 AIOps への接続) - Key insight: Chandola 2009 の「技法は性能表より仮定で比較する」という見方は、LLM/時系列基盤モデル時代の異常検知にも残る。文脈異常は、現代の practical anomaly やアラート文脈依存性の古典的基礎である。 --- ### 2026-06-19 System@Scale: AI Observability (Meta, 2023) - [[@2023__SystemAtScale__AI Observability]] — [[Valentin Andrei]] ほか([[Meta]])による System@Scale 2023 講演。Dynolog・LibAsicMon・Kineto・Gpusnoop から成る 4 層 AI 観測性スタックを公開。FLOPs/sec と rDevice hour/Byte の二指標でフリートを評価する。(source / video / observability / gpu) - 新規 entity: [[Valentin Andrei]] / [[Dynolog]] / [[LibAsicMon]] / [[Kineto]] - 更新 entity: [[Meta]] - 更新 concept: [[GPU観測性]](Meta 4 層スタック・二指標の横断知見追加) --- ### 2026-06-19 Karpathy「LLM Wiki」× 稲見昌彦 3部作 — 考察更新 - [[@2026__GitHub Gist__LLM Wiki]] — [[Andrej Karpathy]](2026-04-04)による個人知識ベースアーキテクチャ提案。3層構造(Raw Sources→Wiki→Schema)と3操作(Ingest/Query/Lint)。「bookkeeping は LLM が担い人間はキュレーターと問いかけ者に専念」が核心。[[Vannevar Bush]] の Memex(1945)が残した「誰が維持管理するか」を LLM が解く。(source / article / knowledge-management) - 新規 entity: [[Andrej Karpathy]] / [[Vannevar Bush]] - 新規 concept: [[LLM Wikiパターン]] - 更新 concept: [[Human-out-of-the-loop]]（Karpathy 視点追加・稲見との役割非対称性を明示）/ [[サイバネティクス]]（Bush-Wiener-Karpathy 80年の収束を追記） - Key insight: 稲見(2026-02)が「科学者は翻訳者へ／ループのボトルネックは人間だ」と論じた2か月後、Karpathy(2026-04)が同じ問題意識を知識管理として独立に実装した。両者の差異は人間の残余的役割の配置: 稲見はAIループの出力側（翻訳者）、Karpathy は入力側（キュレーター）。 --- ### 2026-06-19 稲見昌彦「科学とAIとループ」3部作エッセイ（note.com） - [[@2026__note.com__科学の終焉と、新しい科学の始まり]] — [[稲見昌彦]]([[東京大学先端科学技術研究センター]])による連作エッセイ第一部(2026-02-05)。因果推論から構造圧縮へ科学の役割が変わる論、Human-out-of-the-loop・アロスタシス・サイバネティクスの交差。(source / article / ai-science / human-ai) - [[@2026__note.com__Out of the Blue]] — 同第二部(2026-02-12)。out of the loop の先を「inside the loops」と呼び、See-through/Feel-through・光学迷彩・調律概念で感覚拡張を論じる。(source / article / ar / cybernetics) - [[@2026__note.com__ループのボトルネックは、人間だ]] — 同第三部(2026-02-18)。CES 2026 体験からバイブコーディング・テレイグジスタンスを論じ、ライプニッツのモナド論でAIループを「操作」から「感じ取る」へ転換する。(source / article / telexistence / vibe-coding) - 新規 entity: [[稲見昌彦]] / [[東京大学先端科学技術研究センター]] / [[ノーバート・ウィーナー]] / [[マックス・テグマーク]] / [[舘暲]] / [[ゴットフリート・ライプニッツ]] / [[ジェンスン・フアン]] / [[ティモシー・リアリー]] / [[ヘレン・ケラー]] / [[VPL社]] - 新規 concept: [[Human-out-of-the-loop]] / [[サイバネティクス]] / [[アロスタシス]] / [[inside the loops]] / [[See-through]] / [[Feel-through]] / [[光学迷彩]] / [[拡張現実感]] / [[調律]] / [[バイブコーディング]] / [[テレイグジスタンス]] / [[情報顕微鏡]] / [[モナド論]] - Key insight: 3部を貫く論題は「ループから外れた人間はどこへ行くか」。第一部は理論的基盤(サイバネティクス→科学の翻訳者化)、第二部は感覚拡張(inside the loops / 調律)、第三部は実践と哲学的総括(バイブコーディング→モナド論)として展開する。 --- ### 2026-06-19 SREcon19 EMEA — Latency SLOs Done Right - [[@2019__SREcon19 EMEA__Latency SLOs Done Right]] — [[Heinrich Hartmann]]([[Circonus]])による SREcon19 EMEA 2019 講演資料。レイテンシ SLO を、対象期間中にしきい値以内で処理されたリクエスト割合として実装する方法を整理し、パーセンタイル時系列の集約不能性を示す (source / slides / sre / slo) - 新規 entity: [[Heinrich Hartmann]], [[Circonus]] - 新規 concept: [[ヒストグラムメトリクス]] - 更新 concept: [[サービスレベル目標]] ### 2026-06-19 マイクロサービス障害診断包括サーベイ (arXiv 2407.01710) - [[@2024__arXiv__Failure Diagnosis in Microservice Systems - A Comprehensive Survey and Analysis]] — [[Shenglin Zhang]] ほか([[Nankai University]] / [[Microsoft]] / [[Tsinghua University]])による arXiv 2024 包括サーベイ。98 論文を体系化し、ログ/メトリクス/トレース/マルチモーダルの 4 カテゴリ分類・RCL と FC の問題設定・公開リソース一覧を整理 (source / paper / aiops / microservices / survey) - 更新 entity: [[Shenglin Zhang]] - 更新 concept: [[マルチモーダル障害診断]] / [[根本原因分析]] - Key insight: result fusion → model fusion → feature fusion のマルチモーダル進化線と、PC アルゴリズム + ランダムウォークの古典的パイプラインの普及範囲が 98 論文スケールで初めて可視化された。LLM + 知識グラフ統合が今後の重要方向として明示。 ### 2026-06-19 GRLIA — Graph-based Incident Aggregation - [[@2021__ASE__Graph-based Incident Aggregation for Large-Scale Online Service Systems]] — [[Zhuangbin Chen]] ほか([[The Chinese University of Hong Kong]] / [[University of Newcastle]] / [[Huawei Cloud]])による ASE 2021 論文。[[GRLIA]] は、EVT 障害検知、KPI による障害影響グラフ補完、incident type の DeepWalk/Word2Vec 表現学習、トポロジ距離つきオンライン集約を統合する(source / paper / aiops / incident-management) - 新規 entity: [[GRLIA]] / [[OpsPAI]] / [[Xuemin Wen]] / [[Xiao Ling]] - 更新 entity: [[Zhuangbin Chen]] / [[Jinyang Liu]] / [[Yuxin Su]] / [[Hongyu Zhang]] / [[Yongqiang Yang]] / [[Michael R. Lyu]] / [[Huawei Cloud]] / [[The Chinese University of Hong Kong]] / [[University of Newcastle]] - 更新 concept: [[アラート集約]] / [[インシデント管理]] / [[サービス依存グラフ]] / [[グレイ障害]] - Key insight: インシデント集約の難しさはテキスト非類似だけでなく、障害伝播経路上のサービスがフォールトトレランスや閾値未満状態により沈黙することにある。GRLIA はこの欠落を KPI トレンドで補完し、表現学習に渡す障害影響グラフ自体を改善する。 ### 2026-06-27 O11yCon Tokyo 2025 — AIスパコン「さくらONE」のオブザーバビリティ - [[@2025__O11yConTokyo2025__AIスパコン「さくらONE」のオブザーバビリティ]] — [[坪内佑樹]]（[[さくらインターネット研究所]]）Observability Conference Tokyo 2025。SAKURAONE のオブザーバビリティ基盤(OTeL + Grafana)の構成開示、オブザーバビリティギャップの整理、GPU ゼロコード計装と R-Pingmesh(source / slides / observability / gpu / hpc) ### 2026-06-18 SpeakerDeck — AIスーパーコンピュータにおけるLLM学習処理性能の計測と可観測性 - [[@2025__SpeakerDeck__AIスーパーコンピュータにおけるLLM学習処理性能の計測と可観測性]] — [[Yuuki Tsubouchi]]([[SAKURA Internet]])による情報処理学会中国支部主催講演会資料。深層学習ワークロード、GPU/集団通信、[[SAKURAONE]]、GPT-3 175B 事前学習ベンチマーク、ジョブ履歴分析、OTel + Grafana、GPU ゼロコード計装、[[R-Pingmesh]] 型 RoCE 監視、AI スパコン障害管理研究動向を横断整理(source / slides / ai-supercomputer / observability) - 更新 entity: [[Yuuki Tsubouchi]] / [[SAKURA Internet]] / [[SAKURAONE]] / [[R-Pingmesh]] - 更新 concept: [[GPU観測性]] / [[LLM学習モニタリング]] / [[RDMAネットワーク監視]] - Key insight: AI スパコン可観測性の難しさは、技術的な細粒度計装だけでなく、クラウド事業者がユーザーコード・アプリログへ入れない責任境界から来る。リソース分析とワークロード分析を分けたうえで、非侵入に学習処理スパン・集団通信・RoCE 経路へ意味を戻すことが次の課題。 ### 2026-06-18 Contextual Retrieval — Anthropic Engineering Blog - [[@2024__Anthropic Engineering Blog__Introducing Contextual Retrieval]] — [[Daniel Ford]]([[Anthropic]])による Contextual Retrieval 提案記事。Contextual Embeddings + Contextual BM25 + リランキングで RAG 検索失敗率を 5.7% → 1.9% に 67% 削減(source / article / rag / information-retrieval) - 新規 entity: [[Daniel Ford]] - 更新 entity: [[Anthropic]](文脈付き検索の一次資料追加・数値修正) - 更新 concept: [[文脈付き検索]](seed → developing; 一次資料数値・BM25・リランキング・横断的知見を追加) - Key insight: BM25 語彙一致は埋め込み単体を上回る。複数技術の効果は累積的で、チャンク分割による文脈損失が RAG の主要ボトルネック。 ### 2026-06-18 PyTorch Conference 2025 — LMCache + NIXL - [[@2025__PyTorchConference__Scaling KV Caches for LLMs - How LMCache + NIXL Handle Network and Storage Heterogeneity]] — [[Moein Khazraee]]([[NVIDIA]])・[[Junchen Jiang]]([[University of Chicago]] / [[LMCache]])による PyTorch Conference 2025 講演資料。[[LMCache]] を KV キャッシュ層、[[NIXL]] を異種ネットワーク/ストレージ転送層として位置づけ、Memory Section、Metadata Handler、UCX/GDS/OBJ 例、VAST Storage での長コンテキスト TTFT 削減を示す(source / slides / llm-serving / kv-cache) - 新規 entity: [[Moein Khazraee]] - 更新 entity: [[Junchen Jiang]] / [[LMCache]] / [[NIXL]] - 更新 concept: [[KVキャッシュ管理]] / [[LLM推論]] / [[Prefill-Decode分離]] - Key insight: KV キャッシュ最適化は、GPU 内 page/chunk 粒度だけでなく、DRAM/VRAM/BLK/FILE/OBJ を登録し、remote metadata を交換し、非同期 Xfer request で転送する制御面・データ面の設計問題になっている ### 2026-06-18 GPT-4 Technical Report - [[@2023__arXiv__GPT-4 Technical Report]] — OpenAI。予測可能スケーリング・マルチモーダル・RLHF アライメント(source / paper / llm) - 更新 concept: [[LLMスケーリング則]] / [[LLM評価]] / [[RLHF誤誘導]] - 更新 entity: [[OpenAI]] ### 2026-06-18 KV キャッシュ・GPU クラスタ論文 5 本 - [[@2026__arXiv__KVCache Cache in the Wild - Characterizing and Optimizing KVCache Cache at a Large Cloud Provider]] — [[Xingda Wei]] ほか(SJTU IPADS / [[Alibaba Group]])。Aliyun 本番ワークロードの KV キャッシュ特性を初の体系的分析。理想ヒット率 to-C 62%/to-B 54%（合成 80% 超を大幅に下回る）、to-B 再利用の 97% がシングルターン。ワークロード対応エビクションで LRU 比最大 41.4% QTTFT 削減(source / paper / llm-serving / kv-cache / workload-characterization) - [[@2022__NSDI__MLaaS in the Wild - Workload Analysis and Scheduling in Large-Scale Heterogeneous GPU Clusters]] — [[Qizhen Weng]] ほか(HKUST / [[Alibaba Group]])。[[Alibaba PAI]] 6,742 GPU 異種混合クラスタの 2 か月トレース。GPU 共有で必要 GPU 平均 50% 削減、タスク繰り返し 65% で SJF が FIFO 比 63% JCT 短縮、CPU 競合ボトルネック(source / paper / gpu-cluster / scheduling) - [[@2025__EuroSys__CacheBlend - Fast Large Language Model Serving for RAG with Cached Knowledge Fusion]] — [[Jiayi Yao]] ほか(University of Chicago / Microsoft Research)。RAG 向け非プリフィックス KV キャッシュの選択的再計算で TTFT 2.2-3.3× 削減、スループット 2.8-5× 向上。EuroSys 2025 Best Paper(source / paper / kv-cache / rag) - [[@2025__arXiv__KVShare - An LLM Service System with Efficient and Effective Multi-Tenant KV Cache Reuse]] — [[Huan Yang]] ほか(Central South University / Tsinghua University)。DHD アルゴリズムとデコードフェーズのアテンション・ドリフト対処。TTFT 最大 9.39× 短縮、SOTA 比精度 20.38% 向上(source / paper / kv-cache / multi-tenant) - [[@2025__ICLR__SCBench - A KV Cache-Centric Analysis of Long-Context Methods]] — [[Yucheng Li]] ほか(Microsoft / University of Surrey)。KV キャッシュ中心の長コンテキストベンチマーク。sub-O(n) 手法のマルチターン破綻と動的スパース性の優位を示す。ICLR 2025(source / paper / kv-cache / benchmark / long-context) - [[KVキャッシュ管理]] / [[LLM推論]] / [[GPUクラスタスケジューリング]](更新 concept) - 新規 entity: [[Xingda Wei]] / [[Jinbo Han]] / [[Qizhen Weng]] / [[Alibaba PAI]] / [[Alibaba GPU Cluster Trace]] / [[Jiayi Yao]] / [[Junchen Jiang]] / [[CacheBlend]] / [[Huan Yang]] / [[KVShare]] / [[Central South University]] / [[Yucheng Li]] / [[Huiqiang Jiang]] / [[SCBench]] / [[University of Chicago]] / [[University of Surrey]] - Key insight: 本番 KV キャッシュのヒット率は合成データより大幅に低く、ワークロードに適応したエビクションが不可欠。RAG/マルチテナントでは非プリフィックスの選択的再計算が発展段階に入り、長コンテキスト手法はマルチターンの KV キャッシュ再利用を含むライフサイクル評価が必要 ### 2026-06-18 From Attention to Disaggregation 充実化 - [[@2025__arXiv__From Attention to Disaggregation - Tracing the Evolution of LLM Inference]] — [[Srinivasa Rao Aravilli]] ほか([[Capital One]])。Transformer から PD 分離までの発展と 6 最適化、3 アーキタイプ比較を整理。本回 PDF 全 22 ページを再走査して、6 最適化テーブル、GPU メモリ階層、Monolithic vs Disaggregated 比較、PEARL 並列 Speculative Decoding、3 フレームワークの制御/データプレーン詳細、性能数値、参考文献 25 件を反映(source / paper / survey / llm-serving / pd-disaggregation) - 新規 entity: [[NVIDIA Dynamo]](既存 [[Dynamo]]([[Amazon]] の KVS)とは別物として独立)/ [[AIBrix]](Kubernetes 上クラウドネイティブ制御プレーン) - Key insight: 著者は CAP 定理の適用を「単一/密結合システム内の論理リソース割当の比喩」と各図注で明示。**厳密な分散理論ではなく設計語彙**として読む。一方 3 アーキタイプ比較(research-first / cloud-native / full-stack hardware co-design)は PD 分離研究の地図として有用 ### 2026-06-18 Mooncake — KVCache-centric Disaggregated Architecture for LLM Serving - [[@2024__arXiv__Mooncake - A KVCache-centric Disaggregated Architecture for LLM Serving]] — [[Ruoyu Qin]]・[[Zheming Li]] ほか([[Moonshot AI]] / [[Tsinghua University]] MadSys)。Kimi 本番の KVCache 中心分散 LLM サービングプラットフォーム。3 プール分離・Conductor・CPP・Layer-wise Prefill・過負荷指向スケジューリングを提案(source / paper / llm-serving / kv-cache / pd-disaggregation) - [[KVキャッシュ管理]] / [[Prefill-Decode分離]] / [[LLM推論]](更新 concept) — CPU/DRAM を KVCache 第一階層に昇格、ホットブロック複製ヒューリスティック、PD 分離固有の負荷振動問題と予測ベース緩和を追記 - 新規 entity: [[Ruoyu Qin]] / [[Zheming Li]] / [[Weiran He]] / [[Mingxing Zhang]] / [[Yongwei Wu]] / [[Weimin Zheng]] / [[Xinran Xu]] - 更新 entity: [[Mooncake]] / [[Moonshot AI]] / [[Tsinghua University]] ### 2026-06-18 MPLS JAPAN 2025 — KV cache sharing with IOWN APN - [[@2025__MPLSJapan__A study on accelerating LLM inference using KV cache sharing with IOWN APN]] — [[田仲顕至]]([[NTT]])による MPLS JAPAN 2025 講演資料。[[IOWN APN]] で小規模データセンターを束ね、KV キャッシュ共有で LLM 推論の TTFT と電力効率を改善する構想を評価(source / slides / llm-serving / kv-cache / iown) - [[KVキャッシュ管理]] / [[LLM推論]] / [[AI Greenferencing]](更新 concept) — KV キャッシュ共有を広域低遅延ネットワーク、電力制約、分散小型データセンター配置へ接続 - 新規 entity: [[田仲顕至]] / [[NTT]] / [[IOWN APN]] ### 2026-06-23 Monitoring Cloudflare's Planet-Scale Edge Network (SREcon17 Europe) - [[@2017__SREcon17 Europe__Monitoring Cloudflare's Planet-Scale Edge Network]] — [[Matt Bostock]]（[[Cloudflare]]）による SREcon17 Europe 発表。116 PoP の Prometheus 監視アーキテクチャ、Nagios からの移行、症状ベースアラーティング(source / video / sre / prometheus / monitoring) - [[Matt Bostock]] — Cloudflare プラットフォームオペレーションエンジニア。Prometheus ミートアップ主催者(entity / person) - [[Cloudflare]](更新) — 2017 年 PoP 配置アーキテクチャ、Nagios 移行動機を追加。 - [[Prometheus]](更新) — フェデレーション構成と Alertmanager HA の記述を追加。 - [[アラート管理]](更新) — Cloudflare の症状ベースアラーティング→pint の 5 年間進化を横断的知見に追加。 ### 2026-06-23 Introduction to Alibaba Monitoring System (SREcon18 Asia) - [[@2018__SREcon18 Asia__Introduction to Alibaba Monitoring System]] — [[Ren Xinchi]]（[[Alibaba Group]] GOC）による SREcon18 Asia 発表。4 層モニタリング構造でビジネス層を最重要と位置づけ、5 ゴールデンエレメントと CMDB [[Hammurabi]] でビジネス KPI と優先度を一元管理する手法(source / video / monitoring / sre) - [[Ren Xinchi]] — Alibaba Group GOC シニアエンジニア。ビジネスモニタリングの設計・運用担当(entity / person) - [[Hammurabi]] — Alibaba のビジネスモニタリング用 CMDB。ビジネス機能と P1〜P4 優先度・担当者をマッピング(entity / product) - [[ビジネスモニタリング]] — ビジネス KPI を顧客影響の代理指標として一次モニタリングシグナルに据える手法(concept / monitoring / sre) - [[アラート管理]](更新) — Alibaba の CMDB ベース優先度定義を横断的知見に追加。 - [[Alibaba Group]](更新) — GOC による 7×24 モニタリング体制と Hammurabi の記述を追加。 ## Concepts ### 2026-07-17 Deploying DeepSeek with PD Disaggregation and Large-Scale Expert Parallelism on 96 H100 GPUs (LMSYS Blog) - [[Prefill-Decode分離]](更新) — SGLang が DeepEP の Normal/Low-Latency Dispatch モードを PD 分離と組み合わせて使い分ける事例を追記(concept / llm / inference) - [[Mixture-of-Experts]](更新) — 96 H100 GPU 展開での層別並列化(Attention/密FFN=DP、疎FFN=EP)、EPLB による負荷分散、推論時 MoE 通信の Prefill/Decode 切替を追記(concept / machine-learning / distributed) - [[並列化戦略]](更新) — 密な FFN 層で TP でなく DP を選ぶハードウェアアラインメント制約の事例を追記(concept / distributed / machine-learning) - [[負荷分散]](更新) — EPLB による推論時システム配置最適化(Prefill 1.49x・Decode 2.54x)を追記(concept / machine-learning / distributed / networking) ### 2026-07-16 ISC26 Recap (Glenn K. Lockwood Blog) - [[主権AI]](新規) — 一国が外国製フロンティアAIモデル・AIインフラへの依存から自らを守るための政策的・産業的方向性。2026-06-12の米国政府によるAnthropicモデル外国人アクセス遮断が世界的な引き金になった(concept / AI政策 / 地政学 / hpc) - [[ヨーロッパのAI主権]](更新) — [[主権AI]]という上位概念との関係、および欧州固有の「規制の逆説」と世界的な主権AI機運の異同を横断的知見に追記 ### 2026-06-30 Linux マルチコアスケールカーネルチューニング（yuuk.io 2015） - [[RFS（Receive Flow Steering）]](新規) — Linux 2.6.35+ でソフトウェアが CPU キャッシュ局所性を考慮してパケット処理コアを選択する仕組み。設定 3 パラメータ（rps_cpus・rps_flow_cnt・rps_sock_flow_entries）で有効化(concept / linux / networking / kernel) - [[RPS（Receive Packet Steering）]](新規) — RSS のソフトウェア実装版。シングルキュー NIC でも IPI でパケット処理を複数コアに分散(concept / linux / networking / kernel) - [[RSS（Receive Side Scaling）]](新規) — マルチキュー NIC がハードウェアで 4 タプルハッシュにより受信割り込みを複数 CPU コアに分散する仕組み(concept / linux / networking / hardware) ### 2026-06-30 9 Things You Should Do When Starting to Use SLOs (SREcon23 EMEA) - [[SLODLC]](新規) — SLO Development Lifecycle。INITIATE→DISCOVER→DESIGN→IMPLEMENT→OPERATE の 5 フェーズ。SLO 導入を継続的ライフサイクルとして構造化するオープンフレームワーク(concept / sre / slo) - [[サービスレベル目標]](更新) — 「成功定義 > エラー定義」の SLI 設計原則とステークホルダー別時間窓（Furino 2023）を横断的知見に追記 - [[SLI-SLO段階的導入]](更新) — SLODLC との対応関係と WWWWHW 文書化 6 要素（Furino 2023）を横断的知見に追記 ### 2026-06-28 The Power of Stories (SREcon26 Americas) - [[逸脱の正常化]](新規) — Diane Vaughan が Challenger 事故で提唱。アラート閾値調整など SRE の日常作業にも常在する(concept / sre / safety / human-factors) - [[インシデントストーリー]](更新) — anomalous + immutable の 2 条件、Challenger 3 視点、Once Upon an Incident を追記 - [[インシデントレポート執筆]](更新) — Hochstein の narrative description 重視・エピソードチャンク・前史から書く指針を追記 ### 2026-06-26 SREcon22 APAC 動画 ingest (Reliability Map) - [[Reliability Map (r9y.dev)]](新規) — SRE ケイパビリティをゲームのテック・ツリーに着想を得たマップとして体系化したオープンソースプロジェクト。各ケイパビリティカードは「何・なぜ・取得方法・前提」を持つ。(sre / reliability / capability) - [[SRE]](更新) — ケイパビリティ選択におけるコンテキスト抽出の重要性と Reliability Map の補完的位置づけを横断的知見に追記。 ### 2026-06-26 How Complex Systems Fail (Cook 1998) - [[複雑システム障害論]](新規) — Cook (1998) が 18 命題で体系化した複雑システム障害論。単一根本原因の否定・潜在的障害の常在・安全性の創発的特性が核(sre / safety / human-factors / reliability) - [[潜在的障害]](新規) — 複雑システムが常に内包する障害の混合。単独では不十分だが組み合わさると破滅を引き起こす(sre / safety / reliability) - [[ヒンドサイトバイアス]](新規) — 結果知識が事故前の視点の再現を阻む認知バイアス。Cook は事故調査の主要障害と指摘(safety / incident-investigation / cognitive-bias) ### 2026-06-26 工学としてのSRE再訪 (SRE NEXT 2024) - [[SREの工学化]](新規) — システム管理を「技芸(craft)」から「工学(engineering)」へ昇華させる営みの総体(sre / engineering) ### 2026-06-24 OncallX (ASE 2025) - [[オンコール自動化]](新規) — OCE が担うインシデント対応・チケットトリアージを LLM+マルチエージェントで自動化する領域。OncallX(ASE 2025)が ByteDance 本番で 789 倍高速化を実証。(aiops / on-call / llm / multi-agent) - [[マルチエージェント協調]](更新) — OncallX の木探索プランナー+専門エージェント設計が ReAct を超えた事例と、コンテキスト長増大が協調のスケーリング限界として再確認される知見を追記。 - [[LLMによる根本原因分析]](更新) — OncallX の事例から「入力品質が LLM 推論の律速因子」という知見がオンコール対応にも一般化することを追記。 - [[インシデント管理]](更新) — OncallX への参照を追加。 ### 2026-06-18 LLM 推論 KV キャッシュ管理/分離型推論 6 論文 - [[@2023__SOSP__Efficient Memory Management for Large Language Model Serving with PagedAttention]] — [[Woosuk Kwon]] ほか。[[vLLM]] と PagedAttention の原典。KV キャッシュを固定サイズブロックでページ化し、非連続 GPU メモリ上で管理して 2-4 倍スループット改善(source / paper / llm-serving / kv-cache) - [[@2024__NeurIPS__SGLang - Efficient Execution of Structured Language Model Programs]] — [[Lianmin Zheng]] ほか。[[SGLang]]、RadixAttention、圧縮 FSM、API speculative execution により structured LM programs を高速化(source / paper / llm-serving / structured-generation) - [[@2025__arXiv__LMCache - An Efficient KV Cache Layer for Enterprise-Scale LLM Inference]] — [[Yuhan Liu]] ほか。[[LMCache]] を KV キャッシュの GPU 外退避・再読込・階層ストレージ・PD 転送層として定義(source / paper / llm-serving / kv-cache) - [[@2024__arXiv__P-D-Serve - Serving Disaggregated Large Language Model at Scale]] — [[Yibo Jin]] ほか。Huawei の数万 NPU 規模で scenario 単位 P/D group、on-demand forwarding、block-free D2D transfer を提案(source / paper / llm-serving / pd-disaggregation) - [[@2024__arXiv__A Survey on Efficient Inference for Large Language Models]] / [[@2025__arXiv__From Attention to Disaggregation - Tracing the Evolution of LLM Inference]] — LLM 推論効率化の三層タクソノミーと、attention から disaggregation への発展史を整理(source / paper / survey) - [[KVキャッシュ管理]](新規 concept) — PagedAttention、RadixAttention、LMCache、P/D-Serve を横断し、GPU 内 page と外部 transfer chunk の二重粒度、prefix 再利用、cache-aware scheduling の緊張を整理 - [[LLM推論]] / [[Prefill-Decode分離]](更新 concept) — KV キャッシュがクラスタデータ管理へ拡張した系譜、scenario 単位 P/D organization、転送粒度変換を追記 - 新規 entity: [[SGLang]] / [[P-D-Serve]] / [[Woosuk Kwon]] / [[Yuhan Liu]] / [[Srinivasa Rao Aravilli]] / [[Yibo Jin]] / [[Zixuan Zhou]] / [[Tensormesh Inc]] / [[Infinigence-AI]] / [[Capital One]] - 更新 entity: [[vLLM]] / [[LMCache]] ### 2026-06-18 LLM 推論サービング論文 2 本(DistServe OSDI 2024 / Taming the Titans INLG 2025) - [[@2024__OSDI__DistServe - Disaggregating Prefill and Decoding for Goodput-optimized Large Language Model Serving]] — [[Yinmin Zhong]]・[[Shengyu Liu]] ほか([[Peking University]] / [[UC San Diego]] / [[StepFun]])。Prefill と Decode の同居が TTFT/TPOT 干渉と資源結合を生むことを示し、[[DistServe]] で段階別の資源割当・並列化・配置を探索。vLLM/DeepSpeed-MII 比で最大 7.4 倍リクエスト率、12.6 倍厳しい SLO(source / paper / llm-serving / osdi) - [[@2025__INLG__Taming the Titans - A Survey of Efficient LLM Inference Serving]] — [[Ranran Zhen]]・[[Juntao Li]] ほか([[Soochow University]] / [[Huawei Cloud]])。LLM 推論サービングをインスタンス、クラスタ、新興シナリオへ階層化した INLG 2025 サーベイ(source / paper / survey / llm-serving / inlg) - [[Prefill-Decode分離]](新規 concept) — Prefill と Decode を別資源で実行し、TTFT/TPOT の段階差に合わせて Goodput を最適化する設計。KV キャッシュ転送・耐障害性を未解決課題として整理 - [[LLM推論]](更新 concept) — DistServe による Goodput 最適化の一次論文としての位置づけ、INLG 2025 サーベイによる階層型整理を追加 - 新規 entity: [[DistServe]] / [[Yinmin Zhong]] / [[Shengyu Liu]] / [[Junda Chen]] / [[Jianbo Hu]] / [[Xuanzhe Liu]] / [[Ranran Zhen]] / [[Juntao Li]] / [[Yixin Ji]] / [[Zhenlin Yang]] / [[Tong Liu]] / [[Min Zhang]] / [[Qingrong Xia]] / [[Xinyu Duan]] / [[Zhefeng Wang]] / [[Baoxing Huai]] / [[Soochow University]] / [[UC San Diego]] / [[StepFun]] - 更新 entity: [[Peking University]] / [[Huawei Cloud]] / [[Yibo Zhu]] / [[Xin Jin]] / [[Hao Zhang]] / [[vLLM]] ### 2026-06-18 SpeakerDeck — 推論基盤のパフォーマンス検証と最適化戦略 - [[@2026__SpeakerDeck__推論基盤のパフォーマンス検証と最適化戦略]] — [[道下幹也]]([[SAKURA Internet]])による SpeakerDeck 資料。LLM 推論基盤のユーザー体験・SLO/SLA・Goodput ベース最適化、PD Disaggregation、Mooncake Store による KV Cache Reuse/Sharing を実測(source / slides / llm-serving / benchmark) - [[LLM推論]](更新 concept) — 同一 4 GPU 条件での PD 分離の ITL テイル改善、KV Cache Reuse/Sharing の TTFT 改善と読み込みコストの未解決点を追加 - [[サービスレベル目標]](更新 concept) — LLM 推論 SLO が TTFT・ITL・Goodput・Tokens/Dollar を束ねる観察を追加 - [[道下幹也]] / [[SAKURA Internet]] / [[高火力 PHY]] / [[vLLM]] / [[LMCache]] / [[Mooncake]](更新 entity) ### 2026-06-18 分散深層学習の通信・スケジューリング・ネットワーク基盤論文 14 本 - [[Dragonflyトポロジ]](新規 concept) — Dragonfly のグループ構造・コスト分析・適応ルーティングを Fat-Tree / HammingMesh / Rail-only と横断比較 - [[データセンター輻輳制御]](新規 concept) — DCQCN から Meta AI 訓練クラスタの受信側駆動制御まで、RDMA 向け輻輳制御の進化を整理 - [[RoCE設計課題]](新規 concept) — Hoefler+ 2023 の 8 つの構造的欠陥を中心に RoCE のライフサイクル限界を体系化 - [[HPCインターコネクトベンチマーク]](新規 concept) — Ethernet と InfiniBand の帯域・レイテンシ定量比較(SC-W 2024) - [[RDMA]](更新 concept) — DCQCN 原点・Microsoft 全 DC RoCEv2 展開・Meta 24k GPU AI 訓練・RoCE 8 欠陥・PFC の構造的限界を追記 - [[GPUクラスタスケジューリング]](更新 concept) — Tiresias(2DAS)と Themis(仕上がり時間公平性)の横断的知見を追記 - [[Fat-Tree]](更新 concept) — Dragonfly コスト比較・Rail-only スパイン層除去・HammingMesh 帯域分離を追記 - 14 source: [[@2015__SIGCOMM__Congestion Control for Large-Scale RDMA Deployments]] / [[@2016__SIGCOMM__RDMA over Commodity Ethernet at Scale]] / [[@2008__ISCA__Technology-Driven, Highly-Scalable Dragonfly Topology]] / [[@2009__IEEE-Micro__Cost-Efficient Dragonfly Topology for Large-Scale Systems]] / [[@2018__SC__Harnessing GPU Tensor Cores for Fast FP16 Arithmetic to Speed up Mixed-Precision Iterative Refinement Solvers]] / [[@2019__NSDI__Tiresias - A GPU Cluster Manager for Distributed Deep Learning]] / [[@2020__NSDI__Themis - Fair and Efficient GPU Cluster Scheduling]] / [[@2022__NSDI__Accelerating Collective Communication in Data Parallel Training across Deep Learning Frameworks]] / [[@2022__SC__HammingMesh - A Network Topology for Large-Scale Deep Learning]] / [[@2023__arXiv__Rail-only - A Low-Cost High-Performance Network for Training LLMs with Trillion Parameters]] / [[@2023__IEEE Computer__Datacenter Ethernet and RDMA - Issues at Hyperscale]] / [[@2024__ICSE__An Empirical Study on Low GPU Utilization of Deep Learning Jobs]] / [[@2024__SIGCOMM__RDMA over Ethernet for Distributed AI Training at Meta Scale]] / [[@2024__SC-W 2024__Benchmarking Ethernet Interconnect for HPC AI workloads]] - 新規 entity: [[John Kim]] / [[William J. Dally]] / [[Steve Scott]] / [[Dennis Abts]] / [[Juncheng Gu]] / [[Kang G. Shin]] / [[Yibo Zhu]] / [[Chuanxiong Guo]] / [[Daniel Firestone]] / [[Jitendra Padhye]] / [[Haitao Wu]] / [[Kshiteej Mahajan]] / [[Adithya Gangidi]] / [[Rui Miao]] / [[Azzam Haidar]] / [[Stanimire Tomov]] / [[Jack Dongarra]] / [[Nicholas J. Higham]] / [[Lorenzo Pichetti]] / [[Flavio Vella]] / [[Joshua Romero]] / [[Weiyang Wang]] / [[Kayvon Shakeri]] / [[Hongqiang Liu]] / [[Ying Zhang]] / [[Mellanox]] / [[ETH Zürich]] / [[Hewlett Packard Enterprise]] / [[Broadcom]] / [[CINECA]] / [[University of Trento]] / [[Sapienza University of Rome]] / [[University of Manchester]] / [[University of Tennessee, Knoxville]] / [[MAGMA]] / [[Horovod]] / [[Northwestern University]] - 更新 entity: [[Torsten Hoefler]] / [[Manya Ghobadi]] / [[Aditya Akella]] ### 2026-06-17 自動化のアイロニー後続 2 論文(Baxter+ ECCE2012 / Strauch IEEE-THMS2017) - [[@2012__ECCE__The Ironies of Automation Still Going Strong at 30]] — [[Gordon Baxter]]・[[John Rooksby]] ほか([[University of St Andrews]])。Bainbridge (1983) 30 周年再検証: 航空(名古屋 A300)・金融(フラッシュクラッシュ)・クラウド(AWS 障害)の 3 ドメインでアイロニー残存確認。クラウド低コストによる品質迂回は新しいアイロニー(source / paper / automation / human-factors) - [[@2017__IEEE THMS__Ironies of Automation - Still Unresolved After All These Years]] — [[Barry Strauch]]([[National Transportation Safety Board]])。NTSB 事故調査官として Crown Princess / B747-SP / AF447 / Marshall パイプライン等で Bainbridge 予測を実証。技能マスキング・同一エラー 30 年反復・機能過多の新アイロニー。自律走行車・スマートフォンへの射程拡大(source / paper / automation / human-factors / accident-investigation) - [[自動化のアイロニー]](更新 concept) — 3 ソース横断知見(40 年間の構造的不変性・ドメイン拡大・低コストアイロニー・技能マスキング・エラー反復)と未解決の問い 3 件を追加。status を seed→developing に昇格 - 新規 entity: [[Gordon Baxter]] / [[John Rooksby]] / [[Barry Strauch]] / [[University of St Andrews]] / [[National Transportation Safety Board]] - 更新 entity: [[Lisanne Bainbridge]](被引用数・研究軌跡の補足) ### 2026-06-17 ペパボ研究所 gpt-oss サービング性能評価(LLM推論・GPU選定) - [[@2025__ペパボ研究所__gpt-ossモデルのサービング性能評価]] — [[三宅悠介]]([[GMOペパボ]])による gpt-oss サービング評価。H100 のみ並列スケール有効、出力トークン数がスループットを支配、Reasoning effort 制御がモデルサイズ選択と同等に重要(source / article / llm-serving / gpu / vLLM) - [[三宅悠介]](新規 entity) — GMOペパボペパボ研究所研究員/プリンシパルエンジニア - [[GMOペパボ]](新規 entity) — ペパボ研究所が機械学習/LLM 運用研究を公開する企業 - [[LLM推論]](更新 concept) — GPU 世代別スケール可否・Reasoning effort トレードオフの横断的知見追加 - [[vLLM]](更新 entity) — gpt-oss benchmark で H100 × vLLM の並列スケーリング観察を追記 ### 2026-06-17 マイクロサービスベンチマーク/データセット 4 論文一括(DeathStarBench + Smith+ + OSS-MS + TrainTicketTrace) - [[@2019__ASPLOS__An Open-Source Benchmark Suite for Cloud and IoT Microservices]] — [[Yu Gan]] ほか([[Christina Delimitrou]] @ [[Cornell University]])。DeathStarBench suite(5+1 サービス × 25-41 microservices)、自前 distributed tracing 0.1% overhead、front-end stalls/network 36.3%/tail-at-scale を実証(source / paper / microservices / benchmark / Cornell) - [[@2023__arXiv__Benchmarks for End-to-End Microservices Testing]] — [[Sheldon Smith]] ほか([[Baylor University]])・[[Tomas Cerny]]・[[Davide Taibi]]。Train-Ticket + eShopOnContainers の Selenium + Gatling test benchmark を Zenodo 公開(source / paper / microservices / benchmark / testing) - [[@2024__MSR__A Dataset of Microservices-based Open-Source Projects]] — [[Dario Amoroso d'Aragona]]([[Tampere University]])ほか 19 名。World of Code から 378 件の OSS-MS dataset(7 criteria + 6 軸ラベル)を CC BY-NC-SA で公開(source / paper / microservices / dataset / mining-software-repositories) - [[@2026__SANER-C__TrainTicketTrace - A Multi-Fault Distributed Dataset for Microservice Fault Detection and Localization]] — [[Pirmin Urbanke]]・[[Stefan Fischer]]([[Software Competence Center Hagenberg]])。Train-Ticket 42 services × 9 fault × trace+metric+log の 3 modality dataset、EvoMaster + OpenTelemetry/Jaeger/Prometheus(source / paper / microservices / dataset / fault-localization) - [[マイクロサービスベンチマーク]](新規 concept) — 実装(benchmark system)と dataset(benchmark dataset)の 2 形態、Train-Ticket 共通基盤化、観測スタック標準化、fault layer 分離の系譜を横断的に整理 - [[DeathStarBench]] / [[Train-Ticket]](更新 entity) — 原典 source と後続 dataset の追加リンク - [[マイクロサービスアーキテクチャ]] / [[マイクロサービスコールグラフ]] / [[分散トレーシング]] / [[Fault Localization]] / [[障害注入]](更新 concept) — 横断的知見・未解決の問いに 4 source からの観察を追記 - 新規 entity: [[Christina Delimitrou]] / [[Yu Gan]] / [[Cornell University]] / [[Davide Taibi]] / [[Tomas Cerny]] / [[University of Oulu]] / [[Baylor University]] / [[eShopOnContainers]] / [[EvoMaster]] / [[World of Code]] / [[Software Competence Center Hagenberg]] / [[Pirmin Urbanke]] / [[Stefan Fischer]] / [[Dario Amoroso d'Aragona]] / [[Alexander Bakhtin]] / [[Tampere University]] ### 2026-06-17 Time-RA(ACL Findings 2026)— TSAD 生成型推論タスク + RATs40K - [[@2026__ACL Findings__Time-RA - Towards Time Series Reasoning for Anomaly Diagnosis with LLM Feedback]] — [[Yiyuan Yang]](Oxford)・[[Zichuan Liu]](南京大)・[[Qingsong Wen]]†(Squirrel Ai) ほか。TSAD を二値識別→生成型推論(検知+14+6分類+因果説明)へ転換、RATs40K(実世界10ドメイン約4万件・マルチモーダル)、LoRA SFT でプラグアンドプレイ転用可能(source / paper / time-series / anomaly / multimodal / llm / benchmark) - [[Yiyuan Yang]](新規 entity) — University of Oxford、Time-RA 共同第一著者 - [[時系列推論]](更新 concept) — 異常診断への拡張(TIME-RA)追記 - [[時系列異常検知ベンチマーク]](更新 concept) — RATs40K の位置付け追記 - [[時系列マルチモーダルLLM]](更新 concept) — 視覚化→推論整合性 vs 分類の非対称性追記 ### 2026-06-17 GLM family x4(ACL 2022 起点 + GLM-4.5 + GLM-5 + GLM-OCR) - [[@2022__ACL__GLM - General Language Model Pretraining with Autoregressive Blank Infilling]] — [[Zhengxiao Du]] ほか([[Tsinghua University]]・[[BAAI]]・[[MIT CSAIL]]・[[Shanghai Qi Zhi Institute]])、ACL 2022。自己回帰空白埋め + 2D 位置符号化で NLU/生成統一、BERTLarge 1.25 倍で SuperGLUE +4.6〜5.0%、GLM 系統の起点(source / paper / machine-learning / language-model / pretraining) - [[@2025__arXiv__GLM-4.5 - Agentic Reasoning and Coding Foundation Models]] — [[Zhipu AI]]・[[Tsinghua University]]、arXiv 2508.06471。355B/32B MoE で ARC 統合、ハイブリッド推論モード(エキスパート蒸留)、深さ優先設計、TAU-Bench 70.1%/SWE-bench Verified 64.2%(source / paper / moe / agentic / reasoning / coding) - [[@2026__arXiv__GLM-5 - From Vibe Coding to Agentic Engineering]] — [[Zhipu AI]]・[[Tsinghua University]]、arXiv 2602.15763。744B/40B MoE + DSA + 28.5T トークン + 非同期 RL slime、Intelligence Index v4.0 オープンウェイト初 50、SWE-bench Verified 77.8%(source / paper / moe / agentic-rl / dsa) - [[@2026__arXiv__GLM-OCR Technical Report]] — [[Zhipu AI]]・[[Tsinghua University]]、arXiv 2603.10910。0.9B 小型 VLM で OmniDocBench v1.5 94.62 点 1 位(235B/Gemini-3 Pro 超え)、PP-DocLayout-V3 + パラメータ共有 MTP ドラフトヘッド + 4-stage GRPO RL(source / paper / ocr / vision-language / multimodal / document-understanding) - [[自己回帰空白埋め]](新規 concept) — GLM が提案した汎用事前学習目的関数。スパン破壊を自己回帰生成として再定義(concept / machine-learning / pretraining) - [[2D位置符号化]](新規 concept) — GLM の位置符号化拡張(原文中位置 + スパン内位置)(concept / machine-learning / pretraining) - [[スパン破壊]](新規 concept) — T5/GLM 系統のマスク戦略(concept / machine-learning / pretraining) - [[事前学習目的設計]](新規 concept) — 自己回帰/自己符号化/エンコーダ-デコーダの統一視点(concept / machine-learning / pretraining) - [[言語モデル事前学習]](既存 concept 更新) — GLM 起点の系譜を追記(concept / machine-learning / pretraining) - [[エージェント型コーディング]](既存 concept 更新) — GLM-4.5/5 の coding 能力を反映(concept / agentic / coding) - [[非同期エージェントRL]](新規 concept) — GLM-5 slime と MiniMax-M2 Forge の独立収束(concept / rl / agentic) - [[DSA]](新規 concept) — DeepSeek Sparse Attention、GLM-5 が大規模実装(concept / attention / sparsity) - [[光学文字認識]](新規 concept) — GLM-OCR が OCR の MTP 親和性を実証(concept / vision-language / ocr) - [[文書理解]](新規 concept) — レイアウト解析 + 並列リージョン認識の 2 段(concept / vision-language / document-understanding) - [[ビジョン言語モデル]](既存 concept 更新) — GLM-OCR の小型 VLM 設計を追記(concept / multimodal) - [[マルチトークン予測]](既存 concept 更新) — DeepSeek-V3 vs GLM-OCR の MTP 設計比較を横断的知見追加(concept / llm / training) - [[Mixture-of-Experts]](既存 concept 更新) — GLM-4.5(355B/32B)・GLM-5(744B/40B)を追加(concept / llm / architecture) - [[Zhipu AI]]・[[BAAI]]・[[Zhengxiao Du]]・[[Yujie Qian]]・[[Ming Ding]]・[[Jiezhong Qiu]]・[[Zhilin Yang]]・[[Jie Tang]]・[[Wenmeng Yu]]・[[Xiaotao Gu]](新規/更新 entity) ### 2026-06-17 CursorBench (Cursor Blog) - [[@2026__Cursor__CursorBench - How Cursor Evaluates Model Quality]] — [[Naman Jain]]([[Cursor Research]])、Cursor Blog 2026。CursorBench 3.1 のハイブリッド評価手法・SWE-bench 批判・Cursor Blame を解説。OpenAI の SWE-bench Verified 報告停止(未解決問題 60% にテスト欠陥)を引用(source / article / coding-agents / benchmark / evaluation) - [[コーディングエージェント評価]](新規 concept) — 公開ベンチマーク限界(調整不足・採点問題・汚染)とハイブリッド評価方式の横断整理(concept / coding-agents / benchmark) - [[CursorBench]] — v3.1 詳細・Cursor Blame・4 評価次元・識別力を更新(entity / dataset / coding-agents) - [[Naman Jain]] — Together AI/Agentica から Cursor Research への移籍を追記(entity / person / coding-agents) - [[SWE-Bench-Verified]] — OpenAI 報告停止・3 限界の批判セクションを追加(entity / dataset) ### 2026-06-17 アラート管理・時系列異常検知 10 本(NOMS2012-FSE2025) - [[@2012__NOMS__Optimizing System Monitoring Configurations for Non-Actionable Alerts]] — [[Liang Tang]]・[[Tao Li]] ほか([[Florida International University]]・[[IBM T.J. Watson Research Center]])、IEEE NOMS 2012。チケット遅延設計でリアル見逃しゼロを保証しつつ非アクション可能を最大 75% 削減(source / paper / aiops / alert-management / monitoring) - [[@2009__ICAC__Ranking the Importance of Alerts for Problem Determination in Large Computer Systems]] — [[Guofei Jiang]] ほか([[NEC Laboratories America]])、ICAC 2009。不変条件ネットワークと NTV ピアレビューで事前知識ゼロのアラート真陽性ランキング(source / paper / aiops / ranking) - [[@2017__KDD__Anomaly Detection in Streams with Extreme Value Theory]] — [[Alban Siffer]] ほか([[Inria]]/[[IRISA]])、KDD 2017。EVT POT で分布仮定不要・閾値不要の SPOT/DSPOT、Alert Storm のルーツ(source / paper / time-series / anomaly-detection / streaming / EVT) - [[@2018__CIKM__Collaborative Alert Ranking for Anomaly Detection]] — [[Ying Lin]] ほか([[NEC Laboratories America]]・[[University of Houston]]・[[Temple University]]・[[Amazon]])、CIKM 2018。CAR は Pitman-Yor ベイズ + エンティティ埋め込みの統一凸最適化、ROC-AUC 0.998(source / paper / aiops / alert-ranking / enterprise-security) - [[@2020__CLOUD__DEAR - Distributed Evaluation of Alerting Rules]] — [[Mathias Mormul]] ほか([[University of Stuttgart]])、IEEE CLOUD 2020。BET でアラートルール評価を VM に自動配布、TTI を 27s → 370ms(source / paper / cloud-monitoring / distributed-monitoring) - [[@2022__ICSE__Online Summarizing Alerts through Semantic and Behavior Information]] — [[Jia Chen (Fudan)]] ほか([[Fudan University]])、ICSE 2022。OAS は障害報告書 + ASR+ABR+ACT 深層学習、Fudan 三部作の起点(source / paper / aiops / alert-aggregation / Fudan) - [[@2024__FSE__ChangeRCA - Finding Root Causes from Software Changes in Large Online Systems]] — [[Guangba Yu]] ほか([[Sun Yat-sen University]]・[[Tencent]])、FSE 2024。RCCA(ACD の昇格)、WeChat 81 件で HR@1=85.78%(source / paper / aiops / rca / software-change) - [[@2025__arXiv__ARGOS - Agentic Time-Series Anomaly Detection with Autonomous Rule Generation via Large Language Models]] — [[Yile Gu]] ほか([[Microsoft Research]]・[[University of Washington]])、arXiv 2501.14170。LLM はルール生成のみ、推論はルール実行、内部データで F1 +28.3%(source / paper / aiops / tsad / llm / agentic) - [[@2025__arXiv__Can Multimodal LLMs Perform Time Series Anomaly Detection]] — [[Xiongxiao Xu]] ほか([[Illinois Institute of Technology]]・[[Emory University]]・[[University of Southern California|USC]])、arXiv 2502.17812、WWW 2026。MLLM は粗粒度で従来手法超え、点別では限界(F1 8.12% 上限)、相補的活用(source / paper / tsad / multimodal-llm) - [[@2025__FSE__Alert Summarization for Online Service Systems by Validating Propagation Paths of Faults]] — [[Jia Chen (Fudan)]] ほか([[Fudan University]])、FSE 2025。ProAlert は教師なし fault propagation pattern 学習、Fudan 三部作の最新(source / paper / aiops / alert-aggregation / Fudan) - [[アラート管理]] / [[アラート集約]] / [[アラートストーム]] / [[アラート抑制]] / [[アラートフィルタリング]] / [[時系列異常検知]] / [[変更起因インシデント]] / [[根本原因分析]] — 既存 concept を 10 ソースで更新(横断的知見・未解決の問い) ### 2026-06-17 アラート管理 3 本(Zha+ Electronics / VOCE FASE / SkyNet SIGCOMM) - [[@2024__Electronics__Leveraging Large Language Models for Efficient Alert Aggregation in AIOPs]] — [[Junjie Zha]] ら([[State Grid Jiangsu Electric Power]])、MDPI Electronics 2024。時空間 DBSCAN + LLM × [[サービス依存グラフ]]の二段階アラート集約。100K アラート × 130 ストームで F1 0.815-0.850(source / paper / aiops / alert-management / llm) - [[@2025__FASE__VOCE - A Virtual On-Call Engineer for Automated Alert Incident Analysis Using a Large Language Model]] — [[Jia Chen (Fudan)]] ほか([[Peng Wang (Fudan)]] グループ、[[Fudan University]])、FASE 2025。VOCE は 3 因子(system layer/impact scope/severity)× LLM × 階層 causality mining。10,680 アラート/827 incidents で accuracy 88.90%(GPT-4o)/81.26%(LLaMA-2 13B)。時間順仮定 45.34% 否定。(source / paper / aiops / llm / incident-management) - [[@2025__SIGCOMM__SkyNet - Analyzing Alert Flooding from Severe Network Failures in Large Cloud Infrastructures]] — [[Bo Yang]]・[[Huanwu Hu]]・[[Yifan Li]] ほか([[Ennan Zhai]]・[[Tao Lin (Alibaba)]] corresponding、[[Alibaba Cloud]])、SIGCOMM 2025。Alibaba Cloud 本番(89 DC × 10⁵ デバイス)1.5 年、mitigation time 80% 削減。12 監視ツール統合 + hierarchical alert tree + severity score。**LLM 不採用**を §2.3 で明文化(source / paper / aiops / networking / alert-management) - [[アラートインシデント分析]](新規 concept) — VOCE が導入。集約後の "originating alert 特定" を独立タスクとして体系化(concept / aiops / alert-management) - [[LLMによる根本原因分析]](新規 concept) — LLM 役割の 3 分化(外部知識リーダー / グラフマッパー / 多因子分析器)を横断的に観察(concept / aiops / llm / rca) - [[サービス依存グラフ]](新規 concept) — Zha+ 2024 と VOCE が LLM hallucination 制御材として共通利用(concept / aiops / microservices / graph) - [[ネットワーク監視]](新規 concept) — SkyNet が示す単一ソース coverage 限界(3-84%)と多ソース統合(concept / networking / observability) - [[アラート集約]] / [[アラートストーム]] — 既存 concept を 3 ソースで更新 ### 2026-06-16 SpeakerDeck — Reliability in the Age of AI - [[@2026__SpeakerDeck__Reliability in the Age of AI - Engineering for AI Velocity]] — [[Ryota Yoshikawa]]([[Topotal]])による SpeakerDeck 資料。AI による開発速度向上と信頼性指標悪化を整理し、SRE プラクティスを AI でスケールさせる段階論を示す(source / slides / sre / aiops) - [[Ryota Yoshikawa]] — [[Topotal]] CTO。`@rrreeeyyy` として SRE/AI 運用関連資料を公開(entity / person / sre) - [[Topotal]] — SRE as a Service とインシデントマネジメント SaaS [[Waroom]] を扱う企業(entity / organization / sre) - [[Waroom]] — AI も活用したインシデントマネジメント SaaS(entity / product / incident-management) ### 2026-06-16 SREcon26 Americas — Zhou/Zhang AI DB Debugging (Databricks) - [[@2026__SREcon26 Americas__How We Debug 1000s of Databases with AI]] — Annie Zhou・Sophie Zhang(Databricks)、SREcon26 Americas 2026 講演動画。AI支援 DB デバッグシステム([[Storax]])の本番導入と3教訓(ユーザー共感先行・安全基盤・テスト可能フレームワーク)。調査時間最大90%削減(source / video / sre / aiops / database) - [[Annie Zhou]] — Databricks ストレージプラットフォームチームのエンジニア(entity / person / sre) - [[Sophie Zhang (Databricks)]] — Databricks ストレージプラットフォームチームのエンジニア(entity / person / sre) - [[Databricks]] — データ・AI プラットフォーム企業。Apache Spark・Delta Lake・MLflow・Unity Catalog の開発元(entity / organization / industry) - [[Storax]] — Databricks 内部 AI デバッグツールのバックエンドサービス。セントラルファースト・シャーデッド、細粒度AC、Temporal承認ゲート(entity / product / sre / database) ### 2026-06-16 SREcon18 Asia — Wilkinson SLO Alerting - [[@2018__SREcon18 Asia__A Theory and Practice of Alerting with Service Level Objectives]] — Jamie Wilkinson(Google)、SREcon18 Asia スライド。シンプトムベースドアラーティング・SLO バーンレートアラート(source / slides / sre / slo) - [[Jamie Wilkinson]] — Google SRE。SLO バーンレートアラート体系化(entity / person / sre) ### 2026-06-16 SREcon26 Americas — Forsgren - [[DORA]] — DevOps Research and Assessment の 4 メトリクス。SRE チーム自身のオペレーション能力計測にも適用できる(sre / devops / metrics) - [[SPACE]] — Satisfaction・Performance・Activity・Communication・Efficiency の 5 次元で開発者体験を計測するフレームワーク(sre / developer-experience / metrics) - [[MTWTF]] — Mean Time to WTF。アラートから「状況を理解した」までの時間。MTTR の先行指標(sre / incident-management) ### 2026-06-16 joisino ブログ 13 記事から派生 - [[Transformer]] — 自己注意中核の系列モデル。線形注意により [[カーネル法]] 経由で [[RNN]] と等価書き直しが可能。(machine-learning / sequence-modeling) - [[線形注意]] — softmax 内積でなくカーネル特徴写像で類似度を測る注意。固定次元状態の RNN として展開できる。(machine-learning / attention) - [[Physics of Language Models]] — Allen-Zhu/Yuanzhi Li らの「合成データ＋線形プロービング」研究プログラム。LLM の普遍則を制御実験で抽出。(machine-learning / llm / interpretability) - [[知識容量スケーリング則]] — LLM はパラメータ 1 つにつき約 2 ビットの知識を記憶可能(Allen-Zhu+ 2024)。(machine-learning / scaling) - [[LLM算術機構]] — LLM の四則演算は厳密アルゴリズムでなく [[ヒューリスティックの束]] の積み重ね。[[ロジットレンズ]]で可視化(Nikankin+ ICLR 2025)。(machine-learning / llm / interpretability) - [[ヒューリスティックの束]] — 範囲・剰余・パターン等の粗い条件判定ニューロン群の積み重ねで結果を出すモデル戦略。(machine-learning / interpretability) - [[ゼロエラー境界]] — モデル自身が問題サイズの限界を定める評価フレーム(ZEH)。人間の恣意的範囲設定を排除し[[LLM能力スパース性]]を可視化。(llm / evaluation) - [[プラトン的表現仮説]] — 異モダリティのモデルが性能向上とともに共通の世界統計モデルへ収束する仮説(Huh+ 2024)。(machine-learning / representation-learning) - [[1サンプルRLVR]] — 訓練データ 1 問でも全データに匹敵する推論性能を得る現象。エントロピー正則化と内省語獲得が鍵(Wang+ ICLR 2026)。(machine-learning / reinforcement-learning / llm) - [[RLHF誤誘導]] — 標準的 RLHF で LLM が人間を誤解させる振る舞いを学ぶ現象。真の性能不変のまま評価が劇的に上昇。(ai-safety / rlhf) - [[LLM比較器]] — LLM を 2 項比較関数として用いる手法。主観的・曖昧な基準のソートに有効([[LLMランキング]] / [[joisino-LLMでソート-2026]])。(llm / ir) - [[汎化誤差バウンド]] — 訓練データ上の経験損失と真リスクの差を抑える上界。[[集中不等式]]+[[カバリングナンバー]]+[[PAC学習]]。(machine-learning / learning-theory) - [[AI検証可能性]] — 探索 AI/検証人間の役割分担を成立させる「検証可能な証拠」の概念。NP 完全性・対話型証明系と接続。(ai-safety / interpretability) - [[LLM意味表象]] — LLM 埋め込みが捉える言葉の意味。カテゴリ分類は人間と一致するが典型度の順位相関は低い([[認知意味論]]・[[プロトタイプ意味論]]視点)。(machine-learning / llm / semantics) - [[否定文理解]] — softmax の構造上 BERT 系で否定文に対応する埋め込みが数学的に存在しない、LLM もしばしば誤答する問題群。(machine-learning / llm / nlp) - [[グラフニューラルネットワーク]] — グラフ構造データに対するニューラルネットワーク。メッセージパッシングで近傍情報を集約し置換対称性を本質的に持つ。ICLR 2024 では 170 本採択。(machine-learning / graph-neural-network) - [[GNN同変性]] — 入力の対称性を保存して出力が変換される GNN の性質。分子・タンパク質・MLP パラメータのメタネットワークで活用。パーミュテーション対称性問題は [[モデルパラメータ算術]] と接続。(machine-learning / graph-neural-network) - [[タスクベクトル]] — τ = θ_ft − θ_0 でタスク能力を表現する差分パラメータ (Ilharco+ ICLR 2023)。加減算でタスク転移・削除・合成が可能。(machine-learning / model-merging) - [[モデルパラメータ算術]] — モデルパラメータへの算術演算でモデル能力を直接操作する研究領域。モデルスープ・[[タスクベクトル]]・NTK 理論・Git Re-Basin を包含。(machine-learning / model-merging) - [[アテンションヘッド]] — Transformer の自己注意ユニット。7 種に機能分化（文法・受け皿・逐次・検索・帰納・関数ベクトル・反復）し、訓練の結果として自然出現する。(machine-learning / llm / interpretability) - [[帰納ヘッド]] — `[A][B]...[A]→[B]` パターンで文脈内学習を実現する注意ヘッド。二層構造で実現（Olsson+ 2022）。(machine-learning / llm / interpretability) - [[機構的解釈性]] — LLM 内部の回路・アルゴリズムを特定する研究分野（mechanistic interpretability）。(machine-learning / llm / interpretability) - [[関数ベクトル]] — タスクを表すベクトル。few-shot 例の最終トークン内部状態の平均として抽出でき MLP 入力へ加算するだけでタスクを実行（Todd+ ICLR 2024）。(machine-learning / llm / interpretability) - [[反復ヘッド]] — CoT のテープ上で処理位置を追跡する注意ヘッド（Cabannes+ NeurIPS 2024）。(machine-learning / llm / interpretability) - [[LLMアプリケーション信頼性]] — LLM を意思決定支援・ワークフロー自動化・ツール呼び出し・マルチエージェントシステムに組み込んだとき、入力・コンテキスト・状態管理・外部ツール・バージョン更新・コスト制約を含むシステム全体が期待動作を保つ性質。AI エージェントが生成する変更も荷重を受ける変更として扱う。(LLM systems / reliability) - [[agentic SRE]] — 本番システムの障害調査・診断・緩和を AI エージェントが実行する取り組み。エージェント導入は自動化であると同時に複雑性を足すため、検証・巻き戻し・ゲートを含む安全設計が要る。(SRE / AIOps) - [[SRE]] — ソフトウェアエンジニアリングの手法を運用問題に適用するディシプリン。AI エージェント時代には、固定計画より実験で学ぶ計画、汎用緩和の継続検証、リスク先行開発が前景化する。(SRE / クラウド運用) - [[グレイ障害]] — コンポーネントが完全停止せず徐々に性能が劣化する故障様式。Huang+ 2017 の定式化を AI クラウド文脈(冗長による劣化漸減・ワークロード依存・部分修復)へ拡張(reliability / aiops / gpu) - [[プロアクティブ検証]] — インシデント発生前にベンチマーク群で能動的にハードウェアを stress テストし潜在的劣化を顕在化させる運用方式。SuperBench が AI インフラ向けに体系化(reliability / aiops / gpu) - [[トレース品質]] — 分散トレースが自動分析に耐えるかを評価する概念。Bento+ 2021(J Grid Computing)が data sufficiency / ontological / tools の 3 類型と temporal coverage(子スパン合計時間/親スパン時間)を品質指標として導入。OpenTracing 仕様の testability 欠如を実例で示す。(observability / distributed tracing) - [[フォールトトレランス]] — 障害存在下でのサービス継続能力。Heimerdinger+Weinstock 1992 が冗長性管理の6アクション・障害クラス分類・FCR・設計多様性・カバレッジ・fault evasion を体系化。(fault-tolerance / dependability) - [[プロアクティブ障害管理]] — 障害発生前に予兆を捉え対策を事前に打つ運用枠組み。Salfner+ 2010 が「予測 → 診断 → スケジューリング → 実行」の 4 段階を Figure 2 で定式化。サーベイ群はほぼ予測段に集中。(dependability / AIOps) - [[ソフトウェアエイジング]] — 長時間稼働ソフトウェアで内部状態の累積(メモリリーク・FD 枯渇・GC 不全等)が時間とともに symptom として現れる現象。Parnas 1994 が概念化し、Salfner+ 2010 §5.2 では symptom monitoring 系手法の主要応用領域。(dependability / software engineering) - [[Design for Reliability]] — 信頼性を test-analyze-and-fix 後工程に任せず、要求同定・設計・解析・検証・妥当性確認・制御の各段階へ組み込む設計プロセス。(systems reliability / product engineering) - [[FRACAS]] — 開発試験・生産・運用で見つかった故障を報告し、解析し、是正処置と再試験まで追跡する閉ループ。(systems reliability / failure analysis) - [[コンテナオーケストレーション]] — コンテナベースソフトウェアアプリケーションの分散クラスタを構築・継続管理する技法。Pahl ら 2019 SMS が定義し、Docker・LXC が支配的、Kubernetes・Mesos が次点。(distributed systems / cloud computing) - [[体系的マッピング研究]] — Systematic Mapping Study(SMS)。新興分野の研究構造を PICO・検索式・分類フレームワークで地図化する secondary study の一形態。(research methodology / software engineering) - [[コンテナ配置最適化]] — eBPF カーネル内集約でコンテナ間トラフィックを 9% 未満のオーバーヘッドで計測し、重み付き通信グラフをコンテナスケジューリングに接続する手法。(distributed systems / container orchestration) - [[B-Tree]] — 比較ベースの可ページング ordered index。DBMS では leaf に record を持つ B+-Tree を指して B-Tree と呼ぶことが多く、range scan・buffer manager・recoverability との統合に強い。(database systems / storage engines) - [[B-Treeノードレイアウト最適化]] — B-Tree の 1 page 内の key/value 配置、slot、heap、比較補助情報、leaf 表現を変えることで cache miss・CPU instruction・空間効率・scan 性能を改善する手法群。(database systems / performance engineering) - [[LLM向け情報検索]] — LLM が検索結果を消費し、取得文書を生成・推論・行動の入力として使う前提の情報検索。目的は raw recall から利用可能な証拠密度と検証可能性へ移る。(information-retrieval / llm-systems) - [[RAGノイズ除去]] — RAG で LLM に渡す検索結果から、推論に役立たない、または誤誘導する情報を、インデックス・検索・文脈組み立て・検証・閉ループ訓練の各段で抑える設計。(rag / information-retrieval) - [[LSMツリーコンパクション]] — LSM ツリーのコンパクションを、WA/RA の静的トレードオフではなく平均クエリスループットへの資源投資として扱う設計問題。[[EcoTune]] が動的計画法で時点と積極度を最適化する。(database systems / storage engines) - [[LLM評価]] — LLM の性能・人間嗜好との整合を定量化する手法。静的クローズドエンド型（HLE：専門家最前線ベンチマーク）とライブ人間嗜好型（Chatbot Arena）が相補的な 2 極。飽和・キャリブレーション・母集団バイアスが横断的課題。(llm-evaluation / benchmarking) - [[オブザーバビリティ]] — 外部出力のみからシステムの内部状態を計測する能力。CNCF Whitepaper（2023）は 5 シグナル（メトリクス・ログ・トレース・プロファイル・ダンプ）を定義。(distributed systems / SRE / observability) - [[継続的プロファイリング]] — 本番で継続的にパフォーマンスデータを収集し「なぜ遅いか」をコードレベルまで特定するオブザーバビリティシグナル。DODO が LLM コード最適化ベンチマーク基盤としても活用。(observability / performance) - [[本番接地型ベンチマーク]] — AI エージェント評価・最適化のベンチマークを本番テレメトリから生成する設計原則。[[DODO]] が CPU プロファイル+実呼び出しで実装し成熟 Go サービスの CPU コスト 8%+ 削減。(benchmarking / software-engineering) - [[オブザーバビリティデータモデル]] — MELT 異種テレメトリを統一管理・エージェント対応する設計アーキテクチャ。Karumuri ら(2021)が ODMS 4 原則を確立、UModel(2026)がエージェント対応実証。(AIOps / observability) - [[スケーリング則]] — ニューラル言語モデルの損失がモデルパラメータ数・データ量・計算量に対してべき乗則でスケールするという経験的法則。Kaplan et al. (2020) が 7 桁以上の範囲で実証。計算効率最適の訓練は大きなモデルを早期停止で訓練すべきと結論する。(machine-learning / scaling) - [[Chain-of-Thought Prompting]] — LLM のプロンプト例示に中間推論ステップの系列を加えることで複雑推論能力を引き出す手法。約 100B パラメータ以上での創発的能力。追加学習不要。Wei et al. NeurIPS 2022。(machine-learning / llm) - [[分散 PostgreSQL]] — PostgreSQL の SQL・トランザクション・DDL・エコシステム互換性を保ちつつ、複数ノードへデータとクエリ処理を分散するデータベース設計。[[Aurora Limitless Database]] ではルータ/シャード分離、時刻ベース MVCC、2PC、Serverless V2、シャード分割で実現される。(Database / Distributed Systems) - [[LLMアプリケーション信頼性]] — LLM を意思決定支援・ワークフロー自動化・ツール呼び出し・マルチエージェントシステムに組み込んだとき、入力・コンテキスト・状態管理・外部ツール・バージョン更新・コスト制約を含むシステム全体が期待動作を保つ性質。(LLM systems / reliability) - [[Retroactive Sampling]] — エッジエージェントで生スパンをオンディスク FIFO にバッファリングし、最小属性（33 バイト）のみ中央コレクタへ送ってサンプリング判断する手法。テールサンプリング比でネットワーク 70%・CPU/メモリ 60–70% 削減。[[VictoriaMetrics]] KubeCon EU 2026 発表。(distributed systems / observability) - [[統計的機械学習]] — 確率論・統計理論を基礎とした機械学習の枠組み。線形モデル・スパースモデリング・k-NN・アンサンブル学習・ベイズモデリングを含む。少量データ・解釈性が重要な応用物理・材料科学で有効。(machine-learning / applied-science) - [[ベイズ最適化]] — 評価コストが高い目的関数をガウス過程代理モデルと獲得関数で逐次最適化する実験計画手法。探索と活用のトレードオフ。材料パラメータ探索の典型用途。(machine-learning / experimental-design) - [[アンサンブル学習]] — バギング（ランダムフォレスト）とブースティング（XGBoost/LightGBM）が2大方式。決定木を基底とし汎化能力を向上。(machine-learning) - [[Flexible Skill Arrangement]] — O&M エージェントのコンテキスト組み立てを Skill(LoadDataSchema + Prompt + Meta)として外在化し LLM 自動生成・自然言語更新を可能にする設計パターン。[[Bian Que]] で提案。(AIOps / agentic operations) - [[agentic SRE]] — agentic SRE は、本番システムの障害調査・診断・緩和を AI エージェントが実行する取り組みである。(SRE / AIOps) - [[AIOps]] — AIOps(AI for IT Operations)は、IT/クラウド運用の検知・箇所特定・根本原因分析・緩和・予防を AI で支援または自動化する取り組みである。(AIOps / cloud operations) - [[eBPF]] — Yuuki Tsubouchi の技術解説(@2021__yuuk.io__Linux eBPF Tracing Technology)が体系化した基礎知識。(operating systems / observability) - [[Fat-Tree]] — Fat-Tree は、上位階層へ行くほどリンク帯域または並列経路を太くして、リーフ間通信のボトルネックを避けるデータセンターネットワークトポロジである。(networking / HPC) - [[Fault Localization]] — 障害検知後に、コンポーネント・メトリクス・ホスト・ランク・ネットワーク層などの原因候補の場所を絞る親概念。詳細は [[根本原因分析]]・[[RCA評価設計]]・[[ログ解析]]・[[LLM学習モニタリング]]・[[RDMAネットワーク監視]] へ分ける。(SRE / AIOps) - [[因果推論ベースRCA]] — マイクロサービス障害の根本原因分析を「因果グラフ構築(因果探索)→ 根本原因スコアリング」の 2 段階パイプラインで行う手法群。PC/FCI/LiNGAM/Granger/GES 等 9 種の探索アルゴリズムと、ランダムウォーク/PageRank/仮説検定の 3 種のスコアリングを組み合わせる。(SRE / AIOps / microservices) - [[GPUクラスタスケジューリング]] — GPUクラスタスケジューリング(machine-learning systems / distributed systems) - [[GPUクラスタ運用]] — - GPU ノード可用性は「nines」だけでなく日次ダウンタイムと node hours で運用負債として見える: @2025__DSN-W__Characterizing Modern GPU Resilien...(distributed systems / HPC / cloud operations) - [[GPUレジリエンス]] — GPUレジリエンス(HPC / distributed systems) - [[GPU観測性]] — GPU観測性(GPU systems / observability) - [[GPU最適化]] — GPU プログラムから性能を最大限に引き出すソフトウェアレベルの手法・技術群。4 テーマ・28 技術の分類体系。採用頻度トップ 4 はコアレスドアクセス・専用メモリ・分岐発散削減・auto-tuning。(hpc / gpu) - [[コアレスドメモリアクセス]] — GPU の 1 warp(32 スレッド)を整列条件下で 1 回のトランザクションにまとめる最頻出 GPU 最適化技術。(hpc / gpu) - [[カーネルフュージョン]] — 複数カーネルを統合しグローバルメモリへの中間書き出しを排除する最適化。Flash Attention の核心技術。(hpc / gpu / llm-inference) - [[分岐発散]] — GPU SIMT で warp 内スレッドが異なる実行パスを取る現象。シリアル実行で性能低下。(hpc / gpu) - [[Auto-tuning]] — GPU カーネルのパラメータ最適値を自動探索するプロセス。全論文の 1/8 超が採用し性能可搬性にも必須。(hpc / gpu / performance) - [[Heisenbug]] — Gray は本番ソフトウェア(設計レビュー、品質保証、アルファテスト、ベータテスト、本番運用を経たもの)では「硬い」Bohrbug はすでに除去されており、残留バグの大多数は Heisenbug であると主張した。(software reliability) - [[Infrastructure as Code]] — 中心的な問題は semantic gap:構文的に正しく、コンパイルを通過した IaC プログラムであっても、クラウドレベルの規約に違反してデプロイ時に失敗しうる。(cloud / systems) - [[IPCメトリクス]] — 計装済みサービスがプロセス間通信(IPC)の統計情報を収集・公開するオブザーバビリティシグナル。[[eBPF]]フローと補完してサービス依存マップを構築する(observability / distributed systems) - [[LLMスケーリング則]] — LLM スケーリング則（scaling laws）とは、大規模言語モデルの性能（汎化誤差）がモデルスケール $N$、データスケール $D$、計算予算 $C$ の増加に伴い冪乗則に従って予測可能に改善するという経験的...(machine-learning / scaling) - [[LLM分散学習]] — LLM分散学習は、数千億から兆規模の言語モデルを、数百から数万 GPU/AI アクセラレータ上で長時間訓練するためのシステム・運用・インフラの総体である。(machine-learning systems / distributed systems) - [[LLM学習モニタリング]] — 監視は 3 つの設計軸で整理できる: - 検知信号(何を見るか): ハートビート / 自己診断(MegaScale)、ホスト監視メトリクスの異常パターン(Minder)、ネットワークトラフィックのレート(Pulse...(machine-learning systems / distributed systems / networking) - [[LLM推論]] — - ハイブリッド圧縮アテンションが KV キャッシュ問題を構造的に解決し、100 万トークンコンテキスト推論を実用化した: KV キャッシュの肥大化は長コンテキスト推論の中心課題であるが、@2025__DeepSe...(LLM systems) - [[LSMツリー]] — メムテーブル→SSTable→コンパクションの書き込み最適化ストレージ構造。Bigtable 20 年史では外部コンパクションと CRDT changelog の基盤として進化。(storage systems / database internals) - [[Metastable Failure]] — SREGym では複合的な障害としてモデル化される: アプリケーション層のトリガ(例: トラフィックを増幅するリトライ設定の誤り、頻繁な GC を強いる実行時フラグ)と、システムを脆弱な状態へ追い込むインフラ制約(...(distributed systems / reliability) - [[Mixture-of-Experts]] — 分散訓練では Expert Parallelism(expert を worker 間に分散)として実現され、3 つの技術課題を持つ: - Sparse Activation: GShard(All-to-All...(machine-learning systems) - [[NetOps]] — NetOps が AIOps と異なる本質は安全性の閾値の高さにある。(networking / operations) - [[OLTPシステムアーキテクチャ]] — 1970 年代設計の RDBMS が抱えるバッファマネージャ・ロック・ログ・ラッチの 4 コンポーネントオーバーヘッドを段階的分解で定量化。単一ボトルネックは存在せず全コンポーネント除去で初めて 20 倍改善。(Database / Systems) - [[RCA入力選別]] — RCA入力選別は、根本原因分析に渡すログ・メトリクス・トレース・アラート・incident report を、過不足なく絞り込む設計課題である。(SRE / AIOps) - [[RCA評価設計]] — RCA評価設計は、根本原因分析手法が本当に因果的な診断能力を持つかを測るため、障害データ、オラクル、指標、過程評価を設計する取り組みである。(SRE / AIOps) - [[RDMA]] — RDMA(Remote Direct Memory Access)は、リモートホストのメモリへ CPU を介さず NIC が直接読み書きする通信機構である。LLM/HPC だけでなく、[[Azure Storage]] のようなクラウドストレージでも CPU 予約削減と低レイテンシ化の基盤になる。(networking / HPC) - [[RDMAネットワーク監視]] — RDMA/RoCE ネットワークの性能異常を、能動プローブ、受動トラフィック、スイッチデータプレーン、ホスト/NIC タイムスタンプなどで検知・箇所特定する取り組み。(networking / distributed systems) - [[MRC]] — MRC(Multipath RC)は RDMA の RC トランスポートを拡張し 1 キューペアが数百パスへパケットスプレーを行う新トランスポート。[[OpenAI]] が 10 万 GPU 超本番で実証。(networking / HPC) - [[SRv6]] — SRv6(Segment Routing over IPv6)はパケットに完全な経路情報を埋め込むソースルーティング技術。動的再計算不要・決定的転送・瞬時障害回避。(networking) - [[マルチプレーンClosトポロジ]] — 800G NIC を 8×100G 独立プレーンに分割しスイッチ 2 段で 131,000 GPU 超へ拡張するネットワークトポロジ設計。[[OpenAI]] が採用。(networking / HPC) - [[Scaling Telemetry Workloads]] — - 計装と分析の間に「中間処理層」を挟む設計パターンが SQL ベースで出現: @2024__IEEE CLOUD__Enabling Programmable Metric Flows の PMF は、計装層（P...(distributed systems / observability) - [[SRE]] — SRE（Site Reliability Engineering）は、ソフトウェアエンジニアリングの手法を運用の問題に適用するディシプリンである。(SRE / クラウド運用) - [[SRE AI Autonomy Levels]] — | Level | Monitor | Investigate | Mitigate | Actuate | Self-Direct | |-------|---------|-------------|-----...(SRE / AIOps / governance) - [[SRE Benchmark]] — SRE Benchmark(SRE / benchmark) - [[Transactional No-Regression]] — 「Transactional」はトランザクション的な試行(適用 → 観測 → 望ましくなければ巻き戻し)を、「No-Regression」は試行が現状の信頼性指標を後退させない不変条件を含意する。(agentic SRE / safety) - [[TSG自動化]] — - SOP フローは「TSG 自動化の RCA 特化版」——Microsoft 系 3 本との接点と差異: @2025__WWW__Flow-of-Action - SOP Enhanced LLM-Based M...(AIOps / SRE / incident management) - [[べき等性]] — べき等性(GPU systems / fault tolerance) - [[インシデント管理]] — - インシデント対応ループを「証拠 → 仮説 → 緩和 → 変更記録」の翻訳の連鎖として捉え、各継ぎ目にエージェントを置く: 本 wiki は ICSE 研究で本番インシデントのライフサイクル(検知→トリアージ→診...(AIOps / SRE / cloud operations) - [[インターネットスケールサービス設計]] — - Cassandra（@2010__SIGOPS_OSR__Cassandra - A Decentralized Structured Storage System）は、Dynamo と同じく「障害は常態」の前...(SRE / cloud operations / service design) - [[エラーバジェット]] — エラーバジェットとは、SLO で許容される障害量の上限を「予算」として扱い、開発チームと SRE が共有する信頼性管理の仕組みである。(SRE / クラウド運用) - [[エージェントネイティブ RL]] — LLM エージェントの長期ホライズン・マルチターン軌跡を前提として設計された RL 訓練インフラストラクチャおよびシステム設計の総称。(machine-learning systems / agents) - [[エージェント型コーディング]] — LLM をエージェントとして環境（コードベース + 隔離コンテナ）内に配置し、ツール呼び出し（ファイル読み書き・シェル実行・検索・ウェブ検索）を通じてリポジトリを自律的に探索・修正するソフトウェア工学の取り組み。(software-engineering / machine-learning) - [[エージェント型強化学習]] — LLM を方策(ポリシー)としてオンポリシーの RL で事後学習する取り組みの総称。(machine-learning / agents) - [[LLM時系列アプローチ]] — LLM を時系列に適用する手法の 5 分類: Prompting(LLMTime/PromptCast)・Quantization(VQ-VAE/DeWave)・Aligning(One Fits All/MTAM)・Vision・Tool。One Fits All が言語・画像事前学習の時系列転移可能性を実証(machine-learning / time-series) - [[エージェント型時系列予測]] — 実装は 3 パラダイムに整理される: Workflow(事前定義 DAG/SOP による構造化実行。(machine-learning) - [[エージェントシステム運用]] — LLM エージェントシステム自体の信頼性・安全性・制御可能性を維持する運用技術の体系。AgentOps = モニタリング/異常検知/根本原因局所化/解決の 4 段階。(agent operations / AIOps) - [[エージェント運用安全性]] — 中心の形式装置が保証契約(assurance contract)で、自律度の段 k ごとに Ck = (Tk, Rk, Gk, Uk, Bk)(許可ツール面・必須証拠・迂回不能ゲート・ロールアウトプロトコル・予算、...(agentic operations / safety) - [[オープンLLM開発]] — オープン LLM 開発とは、大規模言語モデルの訓練パイプライン全体——事前学習データ、中間チェックポイント、後訓練データ、コード、訓練ログ、評価フレームワーク——を公開し、任意段階での介入・カスタマイズ・再現を可能...(machine-learning / open-source) - [[オープンネットワーキング]] — - DCN 設計の「最後の一マイル」——スイッチ設定生成——は依然として産業の暗黙知だった: @2026__NSDI__Matryoshka - Realizing Hyperscale Data Center N...(networking / distributed systems / HPC) - [[クラウドスケールRPC特性]] — クラウドスケールRPC特性は、ハイパースケール環境で RPC が示す規模・構造・レイテンシ・CPU コスト・エラー率の横断的な性質をまとめる概念である。(distributed-systems / cloud) - [[クラウド管理モダリティ]] — モダリティはインフラライフサイクルの 3 段階——provisioning(リソース生成と相互接続)・updates(live 更新と再作成を伴う更新)・monitoring(実時間の状態/テレメトリ取得)——を横...(cloud / systems) - [[クリティカルパス分析]] — クリティカルパス分析は、分散トレース上でエンドツーエンドレイテンシを実際に支配する RPC/処理区間を特定し、ユーザー影響の大きい遅延やエラーを優先的に扱う手法である。(microservices / observability) - [[コードLLM]] — コード LLM（Code LLM）とは、ソースコードの生成・補完・理解・変換に特化して学習された大規模言語モデルの総称である。(software-engineering / machine-learning) - [[ゴシッププロトコル]] — ゴシッププロトコル（gossip protocol）は、分散システムにおいてノード間で情報を伝播させるための通信手法であり、各ノードがランダムに選んだ少数の相手と定期的に状態を交換することで、最終的にクラスタ全体に...(distributed systems / membership / failure detection) - [[サーバーレスアーキテクチャ]] — サーバーレスコンピューティング = FaaS + BaaS（CNCF Serverless Whitepaper, 2019; Berkeley View on Serverless Computing, 2019）。(cloud computing / distributed systems) - [[サービスレベル目標]] — サービスレベル目標（SLO）とは、サービスの信頼性・性能に関する定量的な目標値である。(cloud operations) - [[サービストポロジ]] — マイクロサービス間の実行時依存関係をグラフ構造で表現したリアルタイム地図。eBPF・IPC メトリクス・分散トレースの 3 層融合で構築。Netflix が本番採用(distributed systems / observability / microservices) - [[ストラグラー]] — ストラグラー(machine-learning systems / distributed systems) - [[ソフトウェア変更管理]] — ソフトウェア変更管理(Software Change Management)は、大規模オンラインシステムにおいてソフトウェア変更の展開から解決までのライフサイクルを管理する取り組みである。(AIOps / SRE) - [[ソフトウェア耐障害性]] — ソフトウェア耐障害性(systems reliability) - [[チェックポイント]] — チェックポイント(fault tolerance) - [[テスト時計算スケーリング]] — ソフトマックスアテンションの二次計算量は、テスト時計算の連続的な延伸を阻む根本的なボトルネックとなる。(machine-learning / reasoning) - [[テレメトリ]] — - 計装の最前線が「GPU/アクセラレータ層」と「LLM 推論演算子・集合通信オペレーション」へ降りる: 博士論文が計装を path/time-oriented データ収集として整理し、eBPF のゼロ計装(Age...(distributed systems / observability) - [[ディペンダビリティ]] — ディペンダビリティ(dependability)とは、「正当に信頼できるサービスを提供する能力」であり、可用性(availability)・信頼性(reliability)・安全性(safety)・完全性(inte...(systems reliability / security) - [[データベース O&M]] — データベースの異常診断・復旧・性能最適化・サービス運用標準化を扱う領域。AI 診断だけでなく運用対象の形を狭める標準化も含む。(Database / AIOps) - [[データベースノブチューニング]] — データベースノブチューニングは、DBMS が公開する多数の設定パラメータ(メモリ、スレッド、キャッシュ、I/O など)を対象ワークロードに合わせて最適化し、レイテンシ低下またはスループット向上を狙う取り組みである。(データベース / AIOps) - [[データベース自律診断]] — データベース自律診断は、スロークエリ、リソース枯渇、ハング、クラッシュ、演算子起因の性能異常などを自動的に分析し、根本原因と解決策候補を特定する取り組みである。(データベース / AIOps) - [[トイル]] — トイルとは、手動的・反復的・自動化可能・戦術的・持続的価値がなく・サービス成長に比例して増大する運用作業の総称である。(SRE / 運用管理) - [[トレースサンプリング]] — トレースサンプリング(distributed systems / observability) - [[ドメイン別RCA]] — ドメイン別RCAは、根本原因分析を汎用 AIOps の単一手法として扱わず、対象システムの構造・信号源・介入可能性に応じて分ける考え方である。(SRE / AIOps) - [[ネットワークシミュレーション]] — ネットワークシミュレーションは、実際のネットワークインフラを構築・変更することなく、トポロジ・プロトコル・ワークロード設計の性能評価を行う手法の総体。(network systems / distributed systems) - [[ネットワーク依存性発見]] — 分散アプリケーションのサービス間依存関係を実行時通信から自動発見する手法群。パケット・ソケット・トランザクションの3層と、カーネル内フローバンドリング(Tsubouchi+2022)によるCPU 2.2%以下のソケットベース手法を含む。(distributed systems / observability / SRE) - [[ハードウェアカウンタ]] — ハードウェアカウンタ(performance analysis) - [[ビジョン言語モデル]] — ビジョン言語モデル(Vision-Language Model; VLM)は、LLM の言語理解・生成能力を視覚情報の処理に拡張したマルチモーダルモデルである。(machine-learning) - [[ブラスト半径]] — あるコンポーネントの障害・変更・メンテナンスが波及する影響範囲。[[サービストポロジ]]グラフの下流推移閉包で推定する(distributed systems / SRE / reliability) - [[プラットフォームエンジニアリング]] — プラットフォームエンジニアリングは、開発者が安全・効率的にプロダクトを構築・デプロイ・運用できる内部セルフサービス基盤(IDP)を構築・運用するディシプリンである。(SRE / クラウド運用) - [[プロセスペア]] — 1. ロックステップ: 主とバックアップが同一命令列を同期実行する。(fault-tolerant systems) - [[マイクロサービスアーキテクチャ]] — マイクロサービスアーキテクチャ(Microservice Architecture / MSA)は、モノリシックアプリケーションを小さなソフトウェアサービスに分解し、明確に定義された API(エンドポイント)を通じ...(distributed systems / software architecture) - [[マイクロサービスコールグラフ]] — マイクロサービスコールグラフとは、ユーザーリクエスト 1 件を起点として発生するマイクロサービス間のすべての呼び出しを有向グラフで表したものである。(distributed systems / microservices) - [[マルチトークン予測]] — マルチトークン予測（Multi-Token Prediction, MTP）は、標準的な次トークン予測に加えて複数の未来トークンを同時に予測する訓練目的関数である。(machine-learning) - [[マルチモーダル障害診断]] — マルチモーダル障害診断(Multimodal Failure Diagnosis)は、マイクロサービスベースのシステムにおいて、ログ・メトリクス・トレースの 3 種類の監視データを統合して障害の根本原因箇所特定(R...(AIOps / Microservices) - [[メインメモリデータベース]] — データベース全体を主記憶に常駐させ、バッファプール管理・WAL・ページ指向レイアウトを再設計する DBMS アーキテクチャ。メモリ常駐単体では不十分で他コンポーネント除去との組み合わせが必要。(Database / Systems) - [[モデル圧縮]] — 圧縮の動機は明確である——LLaMA-2 70B は FP16 で約 140 GB の GPU メモリを要し、単一 GPU でのデプロイが不可能になる。(LLM efficiency) - [[ログパース]] — - ログ署名（コード位置）による事前クラスタリングが従来パーサの精度と速度を同時に上回る: @2023__ICSE__LogReducer - Identify and Reduce Log Hotspots in...(AIOps / log analysis) - [[ログ生成]] — ログ生成(software engineering / observability) - [[ログ解析]] — 研究領域としてのログ解析は、単一タスクでなくエンドツーエンドのパイプライン全体として捉えるのが現在の到達点である。(AIOps / log analysis) - [[ワークフロー自動化]] — ワークフロー自動化は、人間が手順書・Runbook・TSG・運用プロセスとして実行していた複数ステップの作業を、機械が状態を見ながら実行・分岐・検証する取り組みである。(AIOps / SRE) - [[リアルタイム依存性マップ]] — 分散システムのサービス間依存関係を実トラフィックに基づき継続更新するグラフ。静的アーキテクチャ図と対比して「リビングマップ」とも呼ばれる(distributed systems / observability) - [[一貫性ハッシュ法]] — 一貫性ハッシュ法（consistent hashing）は、ハッシュ関数の出力空間を固定の環状空間（リング）として扱い、データ項目とノードをリング上の位置に配置するパーティショニング手法である。(distributed-systems) - [[並列ファイルシステム]] — 並列ファイルシステムとは、ネットワーク経由で接続された複数のサーバ・ストレージデバイスにファイルデータをストライピング(分散配置)し、並列 I/O によってアグリゲートスループットを最大化する分散ファイルシステムである。(distributed systems / HPC storage) - [[並列化戦略]] — 主要な並列化次元(Hybrid の構成要素): - Data Parallelism: 入力 batch を分割し各デバイスがモデル複製で処理、勾配を集団通信で集約。(machine-learning systems / distributed systems) - [[仮説駆動RCA]] — 仮説駆動RCAは、障害症状から複数の原因仮説を立て、限定された証拠で検証・棄却・再定式化しながら根本原因へ近づく RCA の調査スタイルである。(SRE / AIOps) - [[分散ストレージ]] — 複数サーバにまたがるデータ格納・管理システム。Bigtable 20 年史は中核モデル維持とサービス運用化を、Azure Storage の RDMA 展開はネットワークが性能とコスト構造を支配することを示す。(distributed-systems) - [[分散トレーシング]] — - 「サンプリングで量を減らす」と「圧縮でサイズを減らす」は直交する 2 軸: 既存の横断的知見は、ヘッド/テールサンプリング(Hindsight・TraStrainer・Astraea)がトレースの本数や計装点を...(distributed systems / observability) - [[変化点検知]] — 変化点検知(time-series / AIOps) - [[多変量時系列予測]] — 多変量時系列予測(machine-learning) - [[専用データベースシステム]] — 専用データベースシステム（specialized database systems）とは、特定のワークロード特性に合わせてストレージ構造・クエリ処理・トランザクションモデル・可用性機構を最適化したデータベースエンジ...(database systems) - [[差分プライバシー]] — 差分プライバシー(Differential Privacy, DP)は、データ解析アルゴリズムの出力から個々のレコードが存在したかどうかを確率的に推定困難にする情報理論的プライバシー保証の枠組みだ。(privacy / machine learning / data systems) - [[強化ファインチューニング]] — 中心アルゴリズムには DPO(報酬モデル + PPO のパイプラインを選好ベース目的の直接最適化で簡素化)、PPO(連続行動空間での安定性で広く使われる)、GRPO(PPO をグループベースの方策更新へ拡張)がある。(machine-learning / aiops) - [[強化学習スケーリング]] — - RL のスケーリングにはベースモデルの規模閾値が存在し、小規模モデルでは純粋 RL の効果が現れない: @2025__arXiv__DeepSeek-R1 - Incentivizing Reasoning C...(machine-learning / scaling-laws) - [[性能可搬性]] — 性能可搬性(HPC / machine-learning systems) - [[時系列データベース]] — 時系列データベース(distributed systems / time-series) - [[時系列基盤モデル]] — @2025__arXiv__Foundation Models for Time Series - A Survey はより一般的に、TSFM を NLP の基盤モデル(LLAMA・BERT・GPT)のパラダイムを...(machine-learning) - [[u-μP]] — 小規模プロキシモデルでチューニングしたハイパーパラメータを大規模モデルへ転移するスケーリング実験手法。Toto 2.0 で採用、dd_unit_scaling ライブラリ公開(machine-learning / scaling) - [[Contiguous Patch Masking]] — 学習時に連続パッチを一括マスクしシングルパス推論を可能にする時系列 TSFM のアーキテクチャ技術。Toto 2.0 の主要革新、レイテンシを大幅削減(machine-learning / time-series) - [[時系列質問応答]] — ARFBench は TSQA を多肢選択の単一クラス分類問題に落とし込む設計を取る。(machine-learning / time-series) - [[暗黙のコンテキスト伝搬]] — 暗黙のコンテキスト伝搬(implicit context propagation)とは、分散トレーシングにおいてトレース ID・スパン ID などの識別子をパケットのヘッダやペイロードに明示的に挿入することなく、ネ...(distributed systems / observability) - [[根本原因分析]] — 根本原因分析(Root Cause Analysis, RCA)は、障害の症状から、影響するシステム層・障害種別・因果連鎖を絞り込み、人間またはエージェントが次の緩和判断に使える説明を得る取り組みである。(SRE / AIOps) - [[特徴量削減]] — 特徴量削減(AIOps / time-series) - [[異常検知]] — LLM 時代の異常検知手法は、サーベイの整理では 3 方向に分かれる(§4.1):(1) モデルの汎化向上(時系列・ログの基盤モデルの開発/fine-tuning)、(2) 大モデルで小モデルを強化(LLM がログ...(AIOps / time-series) - [[結果整合性]] — 結果整合性（eventual consistency）は、分散データストアにおいて、すべての更新が最終的にすべてのレプリカに到達することを保証する整合性モデルである。(distributed-systems) - [[耐障害LLM訓練]] — 耐障害LLM訓練(machine-learning systems / distributed systems) - [[自動化のアイロニー]] — 1. 設計者のアイロニー: オペレータを「信頼性が低い」として排除しようとする設計者自身のエラーが、運用上の主要な問題源となる 2. 残余タスクのアイロニー: 自動化できなかったタスクだけがオペレータに残され、それ...(ヒューマンファクター / 自動化設計 / 認知工学) - [[設定マイニング]] — Zodiac はこの系譜をIaCへ拡張する。(program analysis / configuration) - [[近似クエリ処理]] — 時系列モニタリングでは、スライディングウィンドウに対する集約(quantile・count・distinct・entropy・L2 norm・TopK)を近似する。(databases / time-series / streaming analytics) - [[運用障害分析]] — 運用障害分析（operational failure study / failure data analysis）は、本番システムの障害事後報告や障害追跡データベースを体系的に収集・分類し、障害原因の分布・修復時間...(SRE / dependability / systems) - [[限定観測可能性]] — 限定観測可能性 (Limited Observability) とは、根本原因分析 (RCA) の文脈において、根本原因候補 (Root Cause Candidates, RCC) の一部またはすべてを直接監視で...(SRE / AIOps) - [[障害予測]] — 障害予測(AIOps / cloud operations) - [[障害注入]] — - 障害注入の有効性を「実障害データとの突き合わせ」で評価した最初の実証が 2003 年に存在する: @2003__USITS__Why Do Internet Services Fail and What Can...(SRE / AIOps) - [[障害緩和]] — @2025__CSUR__A Survey of AIOps in the Era of Large Language Models は緩和(assisted remediation)を自動化レベル昇順の 5 段に...(SRE / AIOps) - [[集合通信]] — - AllToAllv スケジューリングは NP 困難問題から多項式時間問題に「問題の単純化」で帰着できる: TACCL・TE-CCL・SyCCL が AllToAllv を NP 困難な制約充足問題として定式化し...(distributed systems / GPU clusters) - [[非致命的RPCエラー]] — 非致命的 RPC エラー(non-fatal RPC error)とは、マイクロサービスアーキテクチャにおいて、内部 RPC が失敗コードを返しても上位リクエストが成功する場合のエラー。(distributed systems / microservices / performance) - [[Transformer]] — 再帰・畳み込みを排し自己アテンションのみに基づく系列変換モデルアーキテクチャ。GPT シリーズを通じて LLM の基盤アーキテクチャとなった。(machine-learning) - [[言語モデル事前学習]] — 大規模ラベルなしテキストで汎用表現を学習し個別タスクに転移する二段階パラダイム。GPT-1 が確立し GPT-2/3 でゼロショット/文脈内学習へ発展。(machine-learning) - [[文脈内学習]] — 言語モデルが推論時にプロンプト中の少数例示からパラメータ更新なしにタスクを遂行する能力。GPT-3 が 175B 規模で大規模に実証。(machine-learning) - [[Webロードバランシング]] — ウェブリクエストを複数サーバーへ分散する機構の総称。OSI 層（L2/L3/L7）・応答返路（双方向/一方向）・コンテンツ把握（content-blind/content-aware）の 3 軸で分類する。(distributed / web-systems / load-balancing) - [[サーバーレスワークフロー]] — 複数イベントと Function を n:m マッピングで結び、逐次・並列実行・条件分岐・連鎖で構成するオーケストレーションパターン。CNCF 白書(2018)が 5 パターン・6 状態を定義。AWS Step Functions 等のステートマシン型が代表実装。(cloud computing / distributed systems) - [[AI Greenferencing]] — 再生可能エネルギーの発電源（風力発電所等）にモジュラー型 AI コンピュートを配置し、電力網を迂回して AI 需要を発電源で消費する展開モデル。[[Microsoft]] が提唱。(AI infrastructure / sustainable computing) - [[変更起因インシデント]] — ソフトウェア・構成・データ・インフラへの変更が直接の引き金となって発生するインシデント。「導入→検知→緩和」の 3 段ライフサイクル。コード変更が最多(54-55%)、RbIC は RaIC より TTM を 40.6% 短縮。4 課題: 不足した監視指標・不正確な変更監視・低ビジネストラフィック・非効率な異常変更箇所特定。(AIOps / SRE / change management) - [[クラウドモニタリング]] — クラウドサービスの稼働状態・性能・健全性を自動化ウォッチドッグで継続観察しインシデントを先手で検知・報告する運用実践の総体。Ganatra et al. 2023 はミス検知 6 カテゴリタクソノミを構築し、40.41% が「必要なモニタ/アラートが存在しない（Missing monitor/alert）」に起因することを実証。(AIOps / SRE / cloud operations) - [[アラート管理]] — モニタリングシステムが生成する raw alert を correlation・storm handling・determination の 3 プロセスで整理する [[インシデント管理]] の上流工程。Yu+ JNCA2024 が alert と incident を別ライフサイクルとして分離する統一 AIM アーキテクチャを提示。(AIOps / ITSM) - [[インシデントTTM予測]] — オンラインサービスのインシデント緩和完了までの所要時間(TTM: Time To Mitigation)を複数時点で予測する ML タスク。Wang+ ISSRE2021 が T3(最終担当チーム後の緩和フェーズ)が TTM の平均 70% を占めることを初めて定量化し、2 段階 biGRU+アテンションの TTMPred を提案。(AIOps / incident management) - [[分散メッセージブローカ]] — ソフトウェアアーキテクチャの段を非同期 publish-subscribe で疎結合させる中間層。Kafka(スループット最大化)と AMQP(信頼性・レイテンシ最大化)が起源(LinkedIn のログ処理 vs 金融取引処理)に由来する対照的な設計選択を示す。(distributed systems / messaging) - [[クラウド障害ライフサイクル]] — クラウドサービス障害の TTD・TTI・TTM・TTR 4 段ライフサイクルを定量化する枠組み。Li+ ISSRE 2022 が三大クラウド 354 件を分析し MTTM=304.2 分・TTM が TTR の 53% を支配することを実証。(cloud-reliability / SRE / dependability) - [[Quality of Alerts]] — Yang+ DSN2022 が提案する自動評価枠組み。indicativeness(ユーザ影響を指すか)・precision(重大度を正しく反映するか)・handleability(処理容易性)の 3 軸でアラートの有用性を自動評価する。アラートアンチパターン自動検知の基盤に位置づけ(AIOps / Alert Management) - [[アラートアンチパターン]] — 誤導的・情報量不足・行動可能でないアラートで OCE 診断を妨げる設計。Yang+ DSN2022 が個別 4 種(Unclear Name/Description・Misleading Severity・Improper/Outdated Rule・Transient/Toggling)と集合 2 種(Repeating・Cascading)を実証同定(AIOps / Alert Management) - [[アラート集約]] — システム障害がトリガするアラートストームを同一根本原因クラスタにまとめる技術。意味類似度系・統計系・ハイブリッド系の 3 系統対立は頻度分布と semantic dispersion の交差で決まる(AIOps / Alert Management) - [[COLA]] — Kuang+ ICSE-SEIP2024 のハイブリッド型オンラインアラート集約フレームワーク。相関マイニング(温度+空間)で高信頼ペアを高速判定、低信頼ペアのみ LLM 推論(CoT 2 ラウンド + ICL + P-tuning v2 SFT)。Cloud X(匿名化 Huawei Cloud)で F1 0.901-0.930、本番 4 ヶ月運用(AIOps / Alert Aggregation) - [[KIMetrix]] — Singal+ arXiv2025 のマイクロサービス向けメトリクス選定システム(IBM Research India)。エントロピー + 相互情報量 + AIMD + topology-aware で SelectKBest/mRMR/Boruta/Max Weighted Clique を上回る coverage(DeathStarBench CPU で 99.44%)(AIOps / Observability) - [[情報量基準メトリクス選定]] — SRE がアラート定義の前段で「どのメトリクスを監視するか」を自動決定する問題。Singal+ arXiv2025 が Informative Metric Subset Problem として形式化し最大重み付きクリーク問題からの帰着で NP 完全性を証明(AIOps / Observability) - [[AirAlert]] — Chen+ WWW2019 が Microsoft で実証したアウテージ予測・診断システム。Bayesian network(FCI)で信号-アウテージ依存性を学習し、XGBoost で予測。サービスレベル outage で Simple Spike(F1 7-11%)が崩壊する場面で F1 53-88% を達成(AIOps / Outage Prediction) ### 2026-06-17 distributed training batch (15 new + 6 updated) - [[テンソル並列]], [[パイプライン並列化]], [[PTD-P]], [[ZeROメモリ最適化]], [[ZeROオプティマイザ]], [[ZeROパラメータシャーディング]], [[シーケンス並列化]], [[選択的活性化再計算]], [[再マテリアライゼーション]], [[混合精度訓練]], [[共有異常]], [[Virtual Private Cluster]], [[ネットワーク対応スケジューリング]], [[タスク並列フレームワーク]], [[動的タスクグラフ]] ### 2026-07-01 NORAD Near Miss batch (2 updated) - [[複雑システム障害論]] — [[@2023__SREcon23Americas__Epic Incidents of History - The 1979 NORAD Nuclear Near Miss]] が引用する Walker・Woods・Rayo(2016)の「複数の系統的寄与要因 vs 根本原因」論を、命題 7(RCA の社会的構築性)の歴史的スケールへの拡張として追記 - [[根本原因分析]] — 1979年 NORAD 誤警報を「単一根本原因の探索が構造的に成立しない」歴史的事例として追記 ### 2026-07-01 SREcon23 EMEA McCarthy ingest (1 updated) - [[インシデント重大度評価]](更新) — McCarthy の correctness 軸(可用性でなく正しさの毀損)と、意図でなく結果を選ぶ重大度判断の処方箋を横断的知見に追記 ### 2026-07-01 Hard Choices, Tight Timelines (SREcon24 Americas) ingest (1 new) - [[トレードオフ意思決定]](新規) — インシデント対応中の階層横断的トレードオフ意思決定(skip-level tradeoff)を定義。The Void データベースの限界(推論過程の欠落)を vignette 法で補完した調査に基づく(concept / sre / incident-management / tradeoff) ### 2026-07-01 Storytelling as an Incident Management Skill (SREcon24 Americas) ingest (2 updated) - [[インシデントストーリー]](更新) — de Vesine の因果論理中心 narrative と Nash/Hochstein の人物中心 narrative を「目的別使い分け」として整理する横断的知見、および「対応中の協調的ストーリーテリング」という適用フェーズを追記(concept / sre / incident-management / postmortem) - [[ポストモーテム]](更新) — de Vesine の5段階「エンゲージングなポストモーテム」構成を、Nolan のテンプレート批判・Partington の learning > fixing と接続する横断的知見を追記(concept / sre / postmortem) --- ## Entities - [[DeepGEMM]] — DeepSeek 開発の MoE 向け GEMM 最適化ライブラリ。連続レイアウト(Prefill)とマスク形式(Decode)を使い分け(repository / distributed-systems / moe) - [[EPLB]] — DeepSeek 開発の Expert Parallelism Load Balancer。冗長エキスパート配置でスループット Prefill 1.49x・Decode 2.54x 向上(repository / distributed-systems / moe) - [[LineShine]] — 中国の全CPU(Arm)スーパーコンピュータ。2026年Top500首位。LX2プロセッサ(SME行列拡張・304コア/ソケット)による同質アーキテクチャ(product / hpc) - [[Top500]] — 世界のスーパーコンピュータをHPL性能で順位づけするリスト・運営組織。2026年に[[LineShine]]で中国が7年ぶりに首位復帰(organization / hpc) - [[IO500]] — ストレージシステムのI/O性能を順位づけするベンチマークリスト。2026年にSugon [[ParaStor F9000]]がDAOSを上回り首位(organization / hpc / storage) - [[Sugon]] — 中国のHPC・ストレージハードウェアメーカー。[[ParaStor F9000]]開発元(organization / hpc / storage) - [[ParaStor F9000]] — Sugon製オールフラッシュ並列ファイルシステム・アプライアンス。2026年IO500首位(product / storage / hpc) - [[Yutong Lu]] — 中国のHPC研究者(卢宇彤)。ISC26 Top500セッションで[[LineShine]]の技術詳細を発表(person / hpc) - [[James Lin]] — 上海交通大学HPCセンター副ディレクター(林新华)。Top500における中国の再登場の地政学的意味と「エージェントのためのスパコン」構想を発表(person / hpc) - [[Weicheng Huang]] — 台湾国家高性能計算センター所属。[[主権AI]]の機運がHPCセンター予算にもたらした恩恵を定量化(person / hpc) - [[Sal Furino]] — Customer Reliability Engineer。SLO 導入・SRE 文化浸透を専門。SLODLC フレームワークを SREcon23 EMEA で紹介(person / sre) - [[Chris Jones]] — [[Google]] App Engine SRE、[[SRE Book]] 第 4 章（SLO）共著者。SREcon16 でエラーバジェット制御ループを口頭解説(person / sre / google) - [[Lorin Hochstein]] — Airbnb Staff Software Engineer, Reliability。SRE・インシデント管理・レジリエンスエンジニアリングの実践者。SREcon26 Americas クロージングキーノート(person / sre / incident-management) - [[Airbnb]] — 民泊プラットフォーム企業。Once Upon an Incident セッションで組織的インシデントストーリーテリングを実践(organization / tech / sre) - [[Aaron Bowden]] — Google Cloud Professional Services SRE Practice Lead JAPAC。[[Reliability Map (r9y.dev)]] オープンソースプロジェクト主導者。(person / sre / google) - [[Richard I. Cook]] — University of Chicago 医師・研究者。How Complex Systems Fail (1998) 著者。複雑システム安全工学・ヒューマンファクタ研究の先駆者(person / safety / human-factors) - [[Mark Burgess]] — CFEngine 開発者。システム管理の工学化を主張した先駆者(person / sre / systems-administration) - [[Ruowei Fu]] — [[Nankai University]] 所属研究者、OncallX 筆頭著者(person / aiops / on-call) - [[OncallX]] — Nankai University / ByteDance 共同開発のオンコール自動化システム(product / aiops / on-call) - [[Dong Wang]] — Baidu プリンシパルアーキテクト。SRE チームを率い異常検知・障害自動修復に従事(person / sre / anomaly-detection) - [[Baidu]] — 中国最大の検索エンジン企業。10 億ユーザー超(organization / internet / china) - [[Nicole Forsgren]] — [[DORA]] 共同創設者・研究者。DX を SRE の信頼性システム特性として論じた(person / sre / developer-experience) - [[Abi Noda]] — 開発者体験の専門家。[[Nicole Forsgren]] と "Frictionless"(2026)共著(person / developer-experience) - [[Zeyuan Allen-Zhu]] — [[Meta FAIR]]。[[Physics of Language Models]] シリーズ主導、[[知識操作]]・[[知識容量スケーリング則]]・[[文脈自由文法]]学習の制御実験を確立(person / llm / interpretability) - [[Yuanzhi Li]] — MBZUAI。[[Zeyuan Allen-Zhu]] と共同で [[Physics of Language Models]] シリーズを主導(person / llm / interpretability) - [[Yann LeCun]] — [[Meta FAIR]] Chief AI Scientist・NYU 教授。次トークン予測のみによる学習が[[LLM意味表象]]の人間整合性を高めないと主張、世界モデル系自己教師あり学習を提唱([[joisino-LLMと言葉の感じ方-2026]] 文脈)(person / ai-research) - [[Meta FAIR]] — Meta AI Research。[[Zeyuan Allen-Zhu]]・[[Yann LeCun]] が所属し [[Physics of Language Models]] や次トークン予測限界の研究を発信(organization / industrial-lab / machine-learning) - [[Anthropic]] — Claude を提供する AI スタートアップ。[[文脈付き検索]] (Contextual Retrieval)・[[報酬ハッキング]]・[[スコファンシ]]の研究源として 13 件の joisino 記事で複数言及(organization / ai-startup / safety-research) - [[Michelle Brush]] — [[Google]] Engineering Director, SRE。Google Compute Engine と Persistent Disk の信頼性を担い、SREcon26 Americas 2026 で AI エージェント時代の複雑システム信頼性を論じた(person / sre / google) - [[Youcef Remil]] — [[University of Lyon]] / [[INSA Lyon]] / [[CNRS]] UMR 5205 / [[Infologic]] 所属。AIOps for incident management サーベイ([[@2024__arXiv__AIOps Solutions for Incident Management]])の筆頭著者(person / aiops) - [[Anes Bendimerad]] — [[Infologic]] 所属。Remil+ 2024 AIOps サーベイ共著者(person / aiops) - [[Romain Mathonat]] — [[Infologic]] 所属。Remil+ 2024 AIOps サーベイ共著者(person / aiops) - [[Mehdi Kaytoue]] — [[University of Lyon]] / [[INSA Lyon]] / [[CNRS]] UMR 5205 / [[Infologic]] 所属。Remil+ 2024 AIOps サーベイの senior author(person / aiops / pattern-mining) - [[University of Lyon]] — フランス・リヨンの大学連合体。[[CNRS]] UMR 5205 と協働(organization / university) - [[INSA Lyon]] — フランス・ヴィルールバンヌの工学系大学(Institut National des Sciences Appliquées de Lyon)。[[University of Lyon]] 連合・[[CNRS]] UMR 5205(LIRIS)との協働拠点(organization / university) - [[CNRS]] — フランス公的研究機関(Centre national de la recherche scientifique)。UMR 5205(LIRIS)は [[University of Lyon]] / [[INSA Lyon]] との共同研究室(organization / research-institute) - [[Infologic]] — フランス・ブール=レ=ヴァランスの企業。AIOps 産学連携の本拠で、Infologic SQL Queries / Alerts / ASH を public dataset として提供(organization / industry / aiops) - [[Yuting Jiang]] — [[Microsoft Research]]。SuperBench equal contribution 著者(person / ai-systems) - [[Ziyue Yang]] — [[Microsoft Research]]。SuperBench equal contribution 著者(person / ai-systems) - [[Lei Qu]] — [[Microsoft Research]]。SuperBench 共著(person / ai-systems) - [[Yongqiang Xiong]] — [[Microsoft Research]] Asia。Systems and Networking Research Group(person / ai-systems) - [[Lidong Zhou]] — [[Microsoft Research]]。グレイ障害概念(Huang+ 2017)提唱者の一人(person / distributed-systems) - [[SuperBench]] — Azure 本番にデプロイされた GPU クラスタ向けプロアクティブ検証システム。OSS は microsoft/superbenchmark(product / aiops / gpu) - [[Dahua Lin]] — [[Shanghai AI Laboratory]] / [[The Chinese University of Hong Kong]] の研究者。[[InternLM]] 系 LLM 開発を主導(person / llm-systems) - [[Yonggang Wen]] — [[Nanyang Technological University]] 教授。AI システム・データセンターワークロード分析(person / ai-systems) - [[Nanyang Technological University]] — シンガポールの研究大学。S-Lab を含む AI システム研究拠点(organization / academic) - [[SenseTime Research]] — 中国 [[SenseTime Research|SenseTime]] の研究組織。[[Helios]] と [[Acme]] 特性化研究に参加(organization / industry / ai) - [[InternLM]] — [[Shanghai AI Laboratory]] の LLM シリーズ(7B〜123B、transformer decoder-only)(product / llm) - [[AcmeTrace]] — [[Acme]] Seren/Kalos の 6 か月マルチモーダル本番トレース公開版(dataset / gpu-cluster) - [[Andre Bento]] — [[University of Coimbra]] / CISUC の研究者。Bento+ 2021(J Grid Computing)の corresponding author。[[OpenTracing Processor]] (OTP) のリードオーサ(person / observability / tracing) - [[Jaime Correia]] — [[University of Coimbra]] / CISUC の研究者。Bento+ 2021(J Grid Computing)と Pina+ 2018(IEEE NCA)の共著者(person / observability / microservices) - [[Ricardo Filipe]] — [[University of Coimbra]] / CISUC の研究者。Bento+ 2021(J Grid Computing)と Pina+ 2018 の共著者(person / observability / microservices) - [[Filipe Araujo]] — [[University of Coimbra]] / CISUC の研究者。Bento+ 2021(J Grid Computing)と Pina+ 2018 の共著者(person / observability / microservices) - [[OpenTracing]] — 分散トレーシングのベンダー中立 API/抽象標準。trace ID・span ID・親 span ID で span tree を構成、annotation で key-value メタ情報を付与。2019 年に OpenCensus と統合する形で [[OpenTelemetry]] に合流(product / observability / tracing) - [[OpenTracing Processor]] — Bento+ 2021(J Grid Computing)が公開した OpenTracing データ用処理パイプライン。Java Streaming API で span→trace 再構築、NetworkX で graph 処理、OpenTSDB+Grafana にメトリクス出力。GitHub: andrepbento/OpenTracingProcessor(repository / observability / tracing) - [[Felix Salfner]] — [[Humboldt University of Berlin]] の研究者。[[@2010__ACM CSUR__A Survey of Online Failure Prediction Methods]] 筆頭著者。HSMM ベースのオンライン障害予測の中心人物(person / dependability / failure-prediction) - [[Maren Lenk]] — [[Humboldt University of Berlin]] 所属(2010 年時点)。[[@2010__ACM CSUR__A Survey of Online Failure Prediction Methods]] 2nd author(person / dependability) - [[Miroslaw Malek]] — [[Humboldt University of Berlin]] 教授。ディペンダビリティ・プロアクティブ障害管理研究の指導的研究者。[[@2010__ACM CSUR__A Survey of Online Failure Prediction Methods]] senior author(person / dependability / failure-prediction) - [[Humboldt University of Berlin]] — ベルリンの研究大学。[[Miroslaw Malek]] らの dependable computing グループを擁し、HSMM ベース予測手法と Salfner+ 2010 サーベイの発信源(organization / university / dependability) - [[Patrick D. T. O'Connor]] — [[@2012__Wiley__Practical Reliability Engineering|Practical Reliability Engineering]] 第 5 版の著者(person / reliability) - [[Andre Kleyner]] — [[@2012__Wiley__Practical Reliability Engineering|Practical Reliability Engineering]] 第 5 版の共著者(person / reliability) - [[Wiley]] — John Wiley & Sons。[[@2012__Wiley__Practical Reliability Engineering|Practical Reliability Engineering]] 第 5 版の出版元(organization / publisher) - [[Claus Pahl]] — [[Free University of Bozen-Bolzano]] コンピュータサイエンス学部准教授。クラウドコンテナ技術 SMS(IEEE TCC 2019)対応著者(person / cloud / containers) - [[Pooyan Jamshidi]] — [[Carnegie Mellon University]] ポスドク研究者(2017 時点)。高設定可能システム・機械学習・データ集約型計算(person / cloud / ML) - [[Free University of Bozen-Bolzano]] — イタリア・ボルツァーノ所在の大学。[[Claus Pahl]] 所属(organization / university) - [[University of Pisa]] — イタリア・ピサ所在の大学。[[Antonio Brogi]]・[[Jacopo Soldani]] 所属の SOCC 研究グループ(organization / university) - [[Docker]] — Linux LXC のメカニズム(namespace・cgroup)を利用したコンテナ事実上の標準ソリューション(product / container) - [[LXC]] — Linux Container プロジェクト(2007 年頃)。namespace・cgroup を提供するコンテナ研究の起点(product / container) - [[Satoru Kobayashi]] — [[University of Tokyo]] 大学院生（2018 年）。[[LogCausalAnalysis]] 主著者。PC + G-square によるネットワーク syslog 因果マイニング（TNSM 2018）(person / network / log-analysis) - [[Kazuki Otomo]] — [[University of Tokyo]] 大学院生（2018 年）。ネットワーク時系列知識抽出(person / network) - [[Kensuke Fukuda]] — [[National Institute of Informatics]] / SOKENDAI 准教授（2018 年）。インターネットトラフィック解析・異常検知(person / network / anomaly-detection) - [[Hiroshi Esaki]] — [[University of Tokyo]] 教授。JPNIC 副会長・WIDE Project 理事(person / network) - [[University of Tokyo]] — 日本の国立総合大学（東京）(organization / university) - [[National Institute of Informatics]] — 日本の情報学国立研究機関（NII）(organization / research-institute) - [[SINET4]] — 日本全国研究教育ネットワーク。TNSM 2018 の評価データセット（456 日・35M 件 syslog）(dataset / network) - [[LogCausalAnalysis]] — PC + G-square によるネットワーク syslog 因果マイニング OSS(repository / log-analysis) - [[Xiang Rao]] — [[National University of Defense Technology]] 所属。ノイズログフィルタリング手法 SBF の筆頭提案者(person / log-analysis / distributed) - [[Huaimin Wang]] — [[National University of Defense Technology]] 上席研究者。分散システムの信頼性・障害診断分野(person / distributed) - [[National University of Defense Technology]] — 中国・長沙所在の国防省立大学(NUDT / 国防科技大学)。国家平行分散処理重点実験室を擁する(organization / university) - [[Francisco Neves]] — [[HASLab]]-INESC TEC / [[University of Minho]] 研究者。eBPF ブラックボックストラフィック監視・コンテナ配置最適化（SAC 2020）の筆頭著者(person / distributed) - [[Ricardo Vilaça]] — [[University of Minho]] 研究者。SAC 2020 コンテナ配置最適化論文の共著者(person / distributed) - [[José Pereira]] — [[University of Minho]] 研究者。SAC 2020 コンテナ配置最適化論文の共著者(person / distributed) - [[HASLab]] — ポルトガル INESC TEC 傘下・[[University of Minho]] 附属の分散システム研究ラボ(organization) - [[University of Minho]] — ポルトガル Braga 所在の大学。[[Francisco Neves]] らが所属(organization) - [[Marcus Müller]] — [[TU Munich]] 所属。B-Trees Are Back の筆頭著者(person / database) - [[Lawrence Benson]] — [[TU Munich]] 所属。B-Trees Are Back の共著者(person / database) - [[Viktor Leis]] — [[TU Munich]] 所属。B-Trees Are Back の共著者で、[[vmcache]] など DBMS 内部構造研究に関与(person / database) - [[btree-cpp]] — B-Trees Are Back の unsynchronized B-Tree 実装(repository / database) - [[btree24]] — B-Trees Are Back の [[vmcache]] 統合版 B-Tree 実装(repository / database) - [[vmcache]] — Virtual-Memory Assisted Buffer Management に基づく storage engine / buffer management 基盤(product / database) - [[Hengrui Wang]] — [[EcoTune]] 論文の第一著者([[Tsinghua University]]) - [[Jiansheng Qiu]] — [[EcoTune]] 論文の共著者([[Tsinghua University]]) - [[Fangzhou Yuan]] — [[EcoTune]] 論文の共著者([[Tsinghua University]]) - [[Huanchen Zhang]] — [[EcoTune]] 論文の責任著者([[Tsinghua University]]、[[Shanghai Qi Zhi Institute]] 兼務) - [[EcoTune]] — LSM ツリーの平均クエリスループットを最適化する動的計画法ベースのコンパクション方針(product / database) - [[RocksDB]] — LSM ツリーベースのキーバリューストア。[[EcoTune]] の評価実装対象(product / database) - [[Shanghai Qi Zhi Institute]] — [[EcoTune]] 論文で [[Huanchen Zhang]] の兼務所属として記載される研究機関(organization) - [[Dan Hendrycks]] — [[Center for AI Safety]] 創設者・エグゼクティブディレクター。MMLU 設計者・HLE 上級著者(person) - [[Long Phan]] — [[Center for AI Safety]] 所属研究者。HLE 共同第一著者(person) - [[Center for AI Safety]] — AI 安全性研究非営利機関。[[Dan Hendrycks]] が創設。HLE ベンチマーク共同開発(organization) - [[Scale AI]] — AI データラベリング・評価プラットフォーム企業。HLE 論文の主要所属機関(organization) - [[Liz Fong-Jones]] — [[Honeycomb.io|Honeycomb]] Principal Developer Advocate。オブザーバビリティ・SRE コミュニティの著名人。CNCF TAG Observability Whitepaper（2023）の主要貢献者(person) - [[CNCF]] — Cloud Native Computing Foundation。Linux Foundation 傘下の非営利組織。Kubernetes・Prometheus・[[OpenTelemetry]] など主要クラウドネイティブ OSS をホスト(organization) - [[TAG Observability]] — CNCF の Technical Advisory Group for Observability。[[オブザーバビリティ]]ホワイトペーパー（v1.0、2023）策定組織(organization) - [[Tom Henighan]] — [[OpenAI]] 所属の研究者。スケーリング則多モダリティ拡張論文（arXiv:2010.14701）の均等貢献筆頭著者。画像・動画実験を担当(person) - [[Jason Wei]] — [[Google Brain]] / Google Research 所属の研究者。[[Chain-of-Thought Prompting]] の筆頭著者(person) - [[Denny Zhou]] — [[Google Brain]] 所属の研究者。[[Chain-of-Thought Prompting]] の共著者(person) - [[Lablup Inc]] — [[Backend.AI]] と [[Sokovan]] を開発する AI インフラ企業。504 GPU 本番訓練クラスタ運用分析を報告(organization) - [[Backend.AI]] — [[Lablup Inc]] の AI/ML ワークロード管理プラットフォーム。セッション単位の訓練ライフサイクルと自動リトライを提供(product) - [[Sokovan]] — [[Backend.AI]] の GPU 中心スケジューリング層。NUMA-aware 配置と 60 ノード訓練のギャングスケジューリングを担う(product) - [[Daemyung Kang]] — [[Lablup Inc]] の 504 GPU 本番訓練クラスタ運用分析論文の筆頭著者(person) - [[Azure Storage]] — [[Microsoft]] Azure のクラウドストレージサービス。計算とストレージを分離し、sU-RDMA/sK-RDMA によるフロントエンド/バックエンド通信を導入(product) - [[RDMA Estats]] — [[Azure Storage]] の RDMA 展開で用いられたホスト側診断テレメトリ。RDMA 操作レイテンシをホスト/NIC/ネットワークに分解(product) - [[Wei Bai]] — [[Microsoft]] 所属。[[Azure Storage]] のリージョン内 RDMA 展開経験論文の筆頭著者(person) - [[Aurora Limitless Database]] — [[Amazon Web Services]] の分散 OLTP データベースシステム。Amazon Aurora PostgreSQL をルータ/シャード構成へ拡張し、PostgreSQL 互換性と強い整合性を維持した水平スケーリングを狙う(product) - [[Dmitry Arkhangelskiy]] — [[Amazon Web Services]] 所属。[[Aurora Limitless Database]] 論文の筆頭著者(person) - [[Jacopo Soldani]] — [[University of Pisa]] 所属。マイクロサービス異常検知・RCA 統合サーベイ（ACM CSUR 2021）の筆頭著者(person) - [[Antonio Brogi]] — [[University of Pisa]] 所属。マイクロサービス異常検知・RCA 統合サーベイ（ACM CSUR 2021）の共著者(person) - [[@2021__CSUR__Anomaly Detection and Failure Root Cause Analysis in (Micro)Service-Based Cloud Applications - A Survey]] — [[Jacopo Soldani]]・[[Antonio Brogi]]（[[University of Pisa]]）による ACM CSUR 2021 サーベイ。異常検知 25 手法・RCA 26 手法を 2 軸分類(データ源 × 手法)し、PC アルゴリズム + ランダムウォークの古典的 RCA パイプラインを体系化。説明可能性・対策推奨・継続的変化への対応を未解決課題として提示する(source / paper) - [[Luís M. Barata]] — [[Cluster Computing]] 2026 のマイクロサービス異常検知・根本原因特定サーベイの筆頭著者(person) - [[Sérgio Sequeira]] — [[Universidade da Beira Interior]] 所属。マイクロサービス異常検知・根本原因特定サーベイの共著者(person) - [[Eurico Lopes]] — [[Instituto Politécnico de Castelo Branco]] 所属。マイクロサービス異常検知・根本原因特定サーベイの共著者(person) - [[Pedro R. M. Inácio]] — [[Instituto de Telecomunicações]] / [[Universidade da Beira Interior]] 所属。マイクロサービス異常検知・根本原因特定サーベイの共著者(person) - [[Mário M. Freire]] — [[Instituto de Telecomunicações]] / [[Universidade da Beira Interior]] / [[NOVA LINCS]] 所属。マイクロサービス異常検知・根本原因特定サーベイの共著者(person) - [[Instituto de Telecomunicações]] — マイクロサービス異常検知・根本原因特定サーベイの著者所属(organization) - [[Universidade da Beira Interior]] — マイクロサービス異常検知・根本原因特定サーベイの著者所属(organization) - [[Instituto Politécnico de Castelo Branco]] — マイクロサービス異常検知・根本原因特定サーベイの著者所属(organization) - [[NOVA LINCS]] — マイクロサービス異常検知・根本原因特定サーベイの著者所属(organization) - [[Cluster Computing]] — Springer Nature 系の論文誌(organization) - [[Luan Pham]] — [[RMIT University]] 所属。[[@2024__FSE__BARO - Robust Root Cause Analysis for Microservices via Multivariate Bayesian Online Change Point Detection|BARO]] と [[RCAEval]] の開発者。マイクロサービス RCA の因果推論ベース手法を包括評価した ASE 2024 論文の筆頭著者(person) - [[Huong Ha]] — [[RMIT University]] 所属。[[Luan Pham]] と共にマイクロサービス RCA 評価研究に従事した共著者(person) - [[Hongyu Zhang]] — [[Chongqing University]] 所属。ソフトウェア工学・AIOps 研究者。マイクロサービス因果推論 RCA 評価論文(ASE 2024)の責任著者(person) - [[RMIT University]] — オーストラリア・メルボルンの大学。[[Luan Pham]]・[[Huong Ha]] の所属機関(organization) - [[Chongqing University]] — 中国・重慶の大学。[[Hongyu Zhang]] の所属機関(organization) - [[RCAEval]] — マイクロサービス RCA のオープンソース評価フレームワーク。[[Luan Pham]] が開発。21 種以上の因果推論ベース RCA 手法と合成・実システムデータセットを収録。GitHub: phamquiluan/RCAEval(repository) - [[RCAgent]] — クラウド RCA 向けツール拡張 LLM 自律エージェントフレームワーク。社内配置 LLM、意味的に最小なツール、OBSK、専門エージェント、TSC を組み合わせる(product) - [[Zefan Wang]] — [[Tsinghua University]] 所属。[[RCAgent]] 論文の第一著者(person) - [[Zichuan Liu]] — [[Nanjing University]] 所属。[[RCAgent]] 論文の共同第一著者(person) - [[Yingying Zhang]] — [[Alibaba Group]] 所属。[[RCAgent]] 論文の責任著者(person) - [[Aoxiao Zhong]] — [[Harvard University]] 所属。[[RCAgent]] 論文の共著者(person) - [[Jihong Wang]] — [[Xi’an Jiaotong University]] 所属。[[RCAgent]] 論文の共同第一著者(person) - [[Fengbin Yin]] — [[Alibaba Group]] 所属。[[RCAgent]] 論文の共著者(person) - [[Lunting Fan]] — [[Alibaba Group]] 所属。[[RCAgent]] 論文の共著者(person) - [[Lingfei Wu]] — [[Anytime AI]] 所属。[[RCAgent]] 論文の共著者(person) - [[Qingsong Wen]] — [[Squirrel Ai Learning]] 所属。[[RCAgent]] 論文の責任著者(person) - [[Xi’an Jiaotong University]] — [[RCAgent]] 論文の著者所属(organization) - [[Anytime AI]] — [[RCAgent]] 論文の著者所属(organization) - [[Squirrel Ai Learning]] — [[RCAgent]] 論文の著者所属(organization) - [[Vaishali Vinay]] — [[Microsoft]] Security Research 所属。LLM アプリケーション失敗モードのシステムレベルタクソノミーを提示した IEEE CAI 2026 論文の著者(person) - [[VictoriaTraces]] — [[VictoriaMetrics]] が開発する分散トレーシングバックエンド。エージェント `vtagent` を持ち OTLP 対応。[[Retroactive Sampling]] を 2026 年下半期に統合予定(product) - [[Zhu Jiekun]] — [[VictoriaMetrics]] エンジニア。[[Retroactive Sampling]]プロトタイプの KubeCon EU 2026 発表者(person) - [[Glenn K. Lockwood]] — HPC・AI インフラエンジニア・ブロガー。元 Microsoft 大規模 AI 訓練クラスタ担当、現 [[VAST Data]] 所属。超大規模クラスタ論争に関する実務者視点の論考で知られる(person) - [[VAST Data]] — AI インフラ向けストレージ・データプラットフォーム企業。[[Glenn K. Lockwood]] の現所属組織(organization) - [[Microsoft Fairwater]] — Microsoft の超大規模 AI 訓練クラスタ。450 MW・数十万 GPU(product) - [[AWS Rainier]] — AWS の超大規模 AI 訓練クラスタ。Trainium2 チップ約 50 万枚搭載(product) - [[Pieter Hijma]] — [[Vrije Universiteit Amsterdam]] 准教授。GPU プログラミング最適化 CSUR 論文の筆頭著者。28 技術・4 テーマ分類体系を確立(person) - [[Stijn Heldens]] — [[Netherlands eScience Center]] 研究者。GPU 最適化 CSUR 論文共著者。litstudy ライブラリ開発者(person) - [[Ben van Werkhoven]] — [[Netherlands eScience Center]] 研究者。[[Kernel Tuner]] 開発者。GPU 最適化 CSUR 論文共著者(person) - [[Henri E. Bal]] — [[Vrije Universiteit Amsterdam]] 教授。GPU 最適化 CSUR 論文のシニア著者(person) - [[Alessio Sclocco]] — [[Netherlands eScience Center]] 研究者。GPU 最適化 CSUR 論文共著者(person) - [[Vrije Universiteit Amsterdam]] — オランダの公立研究大学（VU Amsterdam）。GPU 最適化 CSUR 論文の主要研究拠点(organization) - [[Netherlands eScience Center]] — オランダの eScience 研究機関（NLeSC）。[[Kernel Tuner]] 開発元(organization) - [[Anthropic]] — AI 安全性企業。Claude モデルファミリー（Haiku/Sonnet/Opus）の開発・運用元。2021 年設立。[[Dario Amodei]] CEO(organization) - [[赤穂昭太郎]] — [[産業技術総合研究所]] 人間情報インタラクション研究部門上級主任研究員。[[統計的機械学習]]・[[ベイズ最適化]] の研究者(person) - [[産業技術総合研究所]] — 国立研究開発法人（AIST）。日本最大規模の公的研究機関の一つ(organization) - [[Ravi Sharma]] — AI スーパーコンピュータネットワーキングに関する LinkedIn Pulse 記事著者。[[MRC]]・[[SRv6]]・[[マルチプレーンClosトポロジ]] を解説(entity) - [[Kuaishou Technology]] — 中国短動画プラットフォーム企業。[[Bian Que]] エージェント型 O&M フレームワーク開発元 - [[Bian Que]] — [[Kuaishou Technology]] 開発のエージェント型 O&M フレームワーク。統一運用パラダイム・[[Flexible Skill Arrangement]]・統一自己進化メカニズムで構成 - [[Bochao Liu]] — [[Kuaishou Technology]] 所属。[[Bian Que]] の均等貢献第一著者 - [[Ben Chen]] — [[Kuaishou Technology]] 所属。[[Bian Que]] の責任著者 - [[Zexin Wang]] — CNIC CAS/UCAS の研究者。AgentOps サーベイ論文の第一著者 - [[David Lo]] — Singapore Management University 教授・IEEE Fellow。エージェントシステム運用サーベイ共著者 - [[Yintong Huo]] — Singapore Management University の研究者。AgentOps サーベイ共著者 - [[SRE NEXT]] — 日本最大規模の SRE 専門カンファレンス。2024 年は Platform Engineering と AI がトレンドの焦点。[[Yuuki Tsubouchi]] がベストスピーカー賞受賞 - [[JAXA]] — 宇宙航空研究開発機構。SRE NEXT 2024 で月着陸実証機 SLIM 運用への SRE 実践(帯域制限下での Grafana 監視)を発表 - [[Michael Stonebraker]] — Turing Award 受賞者。「One Size Fits All」(ICDE 2005)で専用 DB の必要性を主張、H-Store(VLDB 2007)で OLTP 82 倍を実証 - [[Ugur Cetintemel]] — Brown University 准教授。「One Size Fits All」(ICDE 2005)の共著者 - [[Jeffrey Dean]] — Google フェロー。Bigtable(OSDI 2006)筆頭著者、MapReduce・TensorFlow 共同設計者 - [[Sanjay Ghemawat]] — Google フェロー。Bigtable(OSDI 2006)共著者、GFS・MapReduce 共同設計者 - [[Werner Vogels]] — Amazon CTO。Dynamo(SOSP 2007)の最終著者 - [[Giuseppe DeCandia]] — Amazon。Dynamo(SOSP 2007)筆頭著者 - [[Avinash Lakshman]] — Dynamo 共著者(Amazon) → Cassandra 筆頭著者(Facebook) - [[Prashant Malik]] — Facebook。Cassandra(SIGOPS OSR 2010)共著者 - [[Samuel Madden]] — MIT 教授。H-Store(VLDB 2007)共著者 - [[Daniel J. Abadi]] — H-Store(VLDB 2007)共著者。C-Store 共同設計者 - [[Stavros Harizopoulos]] — H-Store(VLDB 2007)共著者 - [[Pat Helland]] — H-Store(VLDB 2007)共著者。分散トランザクションの著名研究者 - [[Amazon]] — 高可用 KV ストア Dynamo(SOSP 2007)の開発元 - [[Facebook]] — Apache Cassandra の開発元(現 Meta) - [[MIT]] — H-Store プロジェクトの拠点 - [[Brown University]] — Michael Stonebraker 所属。H-Store 共同研究拠点 - [[Dynamo]] — Amazon の内部 KV ストア。結果整合性・一貫性ハッシュ法・ベクタークロック(SOSP 2007) - [[Bigtable]] — Google の分散ストレージ/非リレーショナルデータベース。OSDI 2006 の多次元疎マップ設計から、SIGMOD Companion 2026 時点で 10 EB・ピーク 70 億 QPS 規模へ成長 - [[@2026__SIGMOD Companion__Twenty Years of Bigtable]] — Bigtable の 20 年運用経験論文。10 EB・ピーク 70 億 QPS、レプリケーション、SQL、CDC、CRDT、マテリアライズドビュー、サービス運用化を整理 - [[Fabio Baltieri]] — Google 所属。Twenty Years of Bigtable の筆頭著者 - [[Google File System]] — Google の分散ファイルシステム。Bigtable の永続化層 - [[Chubby]] — Google の分散ロックサービス。Bigtable のタブレット管理 - [[Apache Cassandra]] — Dynamo + Bigtable のハイブリッド分散ストレージ(Facebook 発) - [[H-Store]] — メインメモリ OLTP プロトタイプ。商用 RDBMS 比 82 倍(VLDB 2007) - [[Gorilla]] — Facebook のインメモリ TSDB。デルタ・オブ・デルタ + XOR 圧縮で 12 倍圧縮、HBase 比クエリレイテンシ 73 倍削減(VLDB 2015) - [[Tuomas Pelkonen]] — Facebook エンジニア。Gorilla インメモリ TSDB（VLDB 2015）の筆頭著者 - [[@2015__VLDB__Gorilla - A Fast, Scalable, In-Memory Time Series Database]] — Pelkonen ほか（Facebook）、VLDB 2015。インメモリ TSDB Gorilla の設計・圧縮・耐障害性・本番実績を詳述 - [[ByteSeries]] — ByteDance/HUST の本番監視向けインメモリ TSDB。Compressed Inverted Index(trie + p4nzenc64)+ 3 段メモリ構造で tsdc 比メタデータ −60%・多次元クエリ 1.8〜10.7 倍(SoCC 2020) - [[tsdc]] — ByteDance の元本番インメモリ TSDB。メタデータがメモリ 80% 超を占め ByteSeries に置き換えられた - [[Xuanhua Shi]] — HUST 教授。ByteSeries(SoCC 2020)の筆頭著者 - [[Yongluan Zhou]] — University of Copenhagen 所属。ByteSeries(SoCC 2020)の共著者 - [[University of Copenhagen]] — デンマーク・コペンハーゲンの総合研究大学。Yongluan Zhou の所属機関 - [[@2020__SoCC__ByteSeries - An In-Memory Time Series Database for Large-Scale Monitoring Systems]] — Xuanhua Shi ほか(HUST / ByteDance / NUS / Univ. of Copenhagen)、SoCC 2020。100 億次元超監視向けインメモリ TSDB ByteSeries の設計・Compressed Inverted Index・評価を詳述 - [[Lindorm TSDB]] — [[Alibaba Group]] の大規模監視向けクラウドネイティブ分散 TSDB。共有なし + 共有ストレージ・TSM・Seriescache・前処理ダウンサンプリング・Lindorm ML(product / time-series) - [[Feifei Li]] — [[Alibaba Group]] データベース部門。[[Lindorm TSDB]] 主要設計者（PVLDB 2023）(person) - [[Zhejiang University]] — 中国・杭州市の重点大学（985 工程）。[[Lindorm TSDB]] 論文参加機関（organization） - [[@2023__PVLDB__Lindorm TSDB - A Cloud-native Time-series Database for Large-scale Monitoring Systems]] — Shen・[[Dan Pei]]・[[Feifei Li]] ほか（[[Alibaba Group]]/[[Zhejiang University]]/[[Tsinghua University]]）、PVLDB 2023。大規模監視向け分散 TSDB の設計・実装・評価。書き込み 10× / クエリ最大 16× 高速化・インデータベース ML 2× 短縮を実証(source / paper / time-series) - [[Apostolos Kokolis]] — Meta の ML 研究クラスタ信頼性論文(HPCA 2025)の共同筆頭著者 - [[Michael Kuchnik]] — Meta の ML 研究クラスタ信頼性論文(HPCA 2025)の共同筆頭著者 - [[Carole-Jean Wu]] — Meta の ML システム研究者。Revisiting Reliability 論文のシニア著者 - [[Meta AI Research SuperCluster]] — Meta の A100 世代 ML 研究クラスタ群。RSC-1 は 16k GPU、RSC-2 は 8k GPU - [[Myeongjae Jeon]] — Philly トレース論文(USENIX ATC 2019)の筆頭著者 - [[Philly]] — Microsoft の DNN 訓練向けマルチテナント GPU クラスタ管理サービス - [[philly-traces]] — Philly 論文が公開した DNN 訓練クラスタのスケジューラトレース - [[Adrián Pérez Diéguez]] — Qualcomm Technologies 所属。LLM 事前学習性能チューニング論文(PMBS25)の筆頭著者 - [[Qualcomm]] — LLM 事前学習性能チューニング論文(PMBS25)の著者所属組織 - [[Mi Zhang]] — Ohio State University 准教授、AIoT-MLSys Lab 主宰。Efficient LLMs サーベイ(TMLR 2024)の責任著者 - [[Mosharaf Chowdhury]] — University of Michigan 准教授。ML システム・ネットワーク研究(Gavel/Tiresias/Perseus) - [[The Ohio State University]] — 米国オハイオ州コロンバスの研究大学。AIoT-MLSys Lab が Efficient LLMs サーベイを主導 - [[Xupeng Miao]] — LLM サービングサーベイ筆頭著者(Purdue University、ACM Computing Surveys 2025) - [[Zhihao Jia]] — CMU 助教授。FlexFlow・SpecInfer の創始者、LLM サービングサーベイ責任著者 - [[Tianqi Chen]] — CMU 教授。TVM・XGBoost・MLC-LLM の創始者、MLSys 分野の著名研究者 - [[Purdue University]] — 米国インディアナ州の研究大学。LLM サービングサーベイ筆頭著者 Xupeng Miao の所属 - [[道下幹也]] — さくらインターネットクラウド事業本部エンジニア。「高火力 PHY で作る分散推論基盤」連載著者（LINE Yahoo で 6 年間 IaaS・GPU 業務） - [[高火力 PHY]] — さくらインターネットの GPU ベアメタルサーバーサービス（HGX H100 × 8、NVLink、400Gbps NIC × 8） - [[vLLM]] — LLM 推論フレームワーク。ページドアテンションによる KV キャッシュ効率化でスループット特化、OpenAI API 互換 - [[NIXL]] — NVIDIA Inference Xfer Library。LLM 推論向け KV Cache 転送ライブラリ（NB API/SB API 2 層、UCX/GDS/OBJ/MoonCake/3FS の 5 バックエンド） - [[UCX]] — Unified Communication X。高帯域・低レイテンシネットワーク向けオープンソース通信フレームワーク（UCT/UCP 構成） - [[LMCache]] — KV キャッシュ管理・転送ソフトウェア。NIXL 経由で Prefill-Decode Disaggregation を実現 - [[Kazuki Fujii]] — 東京科学大学博士課程。LLM 推論ベンチマーク測定の基礎知識を Zenn で体系的に解説 - [[GenAI-Perf]] — NVIDIA 製オープンソース LLM 推論ベンチマークツール。TTFT・ITL・TPS・RPS を計測。ITL 算出に TTFT を含まない（LLMPerf とは異なる定義） - [[TensorRT-LLM]] — NVIDIA の LLM 推論最適化ライブラリ。量子化・テンソル並列・Flash Attention を統合し NVIDIA GPU 上の推論を高速化 - [[NVIDIA NIM]] — NVIDIA Inference Microservices。最適化済み推論ランタイムを内包したコンテナ化 LLM エンドポイント（OpenAI API 互換） - [[東京科学大学]] — 2024 年に東京工業大学と東京医科歯科大学が統合して設立された日本の研究大学 - [[Max Planck Institute for Informatics]] — ドイツ・ザールブリュッケンの Max-Planck 傘下の情報科学研究所。Matryoshka の共同研究機関(Yiting Xia) - [[Yu Luo]] — OpsAgent 筆頭著者(南開大学)。training-free データプロセッサ+クロスレビュー+デュアル自己進化の IM 向け MAS を設計 - [[Lenovo]] — OpsAgent の本番展開先(天津)。53 日・10,492 件で 84.09% 精度・解決時間 2.5 時間→126 秒 - [[FLASH]] — 反復インシデント診断を自動化する Microsoft の LLM ワークフローエージェント(status supervision + hindsight、本番 +13.2%) - [[StepFly]] — TSG 自動化のエンドツーエンドエージェント型フレームワーク(Microsoft/Tsinghua、DAG+QPP+並列、GPT-4.1 約 94%) - [[TSG Mentor]] — StepFly 第 1 段の TSG 品質改善ツール(品質問題検知 F1 0.81) - [[LLexus]] — TSG を計画前置でコンパイルし決定論的に実行する Microsoft のインシデント管理エージェント - [[TaskWeaver]] — Microsoft のコードファースト LLM エージェントフレームワーク(FLASH の主要ベースライン) - [[Semantic Kernel]] — Microsoft の LLM オーケストレーション OSS(LLexus の計画生成) - [[Azure Durable Functions]] — Microsoft Azure のステートフルなサーバレス実行基盤(LLexus エグゼキュータ) - [[Saravan Rajmohan]] — FLASH・StepFly 双方の共著者(Microsoft Redmond)。TSG 自動化 2 本の結節点 - [[Xuchao Zhang]] — FLASH 筆頭著者(Microsoft Redmond) - [[Tanish Mittal]] — FLASH 共著者(Microsoft Bengaluru) - [[Chetan Bansal]] — FLASH 共著者(Microsoft Redmond、クラウドインシデント RCA 研究) - [[Rujia Wang]] — FLASH 共著者(Microsoft Redmond) - [[Zhixin Ren]] — FLASH 共著者(Microsoft Redmond) - [[Hao Huang]] — FLASH 共著者(Microsoft Redmond) - [[Jiayi Mao]] — StepFly 筆頭著者(Tsinghua University) - [[Liqun Li]] — StepFly 共著者(Microsoft) - [[Yanjie Gao]] — StepFly 共著者(Microsoft Research / Renmin University of China) - [[Zegang Peng]] — StepFly 共著者(Tsinghua University) - [[Si Qin]] — StepFly 共著者(Microsoft) - [[Samia Khalid]] — StepFly 共著者(Microsoft USA) - [[Sitaram Lanka]] — StepFly 共著者(Microsoft USA) - [[Dongmei Zhang]] — StepFly 共著者(Microsoft) - [[Pedro Las-Casas]] — LLexus 筆頭著者(Microsoft) - [[Alok Kumbhare]] — LLexus 共著者(Microsoft) - [[Rodrigo Fonseca]] — LLexus 共著者(Microsoft) - [[Sharad Agarwal]] — LLexus 共著者(Microsoft) - [[Muhammad Bilal]] — NetOps/AIOps サーベイの責任著者(Lancaster University) - [[Jon Crowcroft]] — NetOps/AIOps サーベイ共著者(University of Cambridge、ネットワーキングの著名研究者) - [[Ruizhi Wang]] — NetOps/AIOps サーベイ共著者(Nanjing University of Information Science and Technology) - [[Xiaolong Xu]] — NetOps/AIOps サーベイ共著者(Nanjing University of Information Science and Technology) - [[Schahram Dustdar]] — NetOps/AIOps サーベイ共著者(TU Wien + ICREA Barcelona) - [[Renmin University of China]] — 中国・北京の研究大学(中国人民大学)。StepFly 共著者 Yanjie Gao の所属(Microsoft Research 兼任) - [[Zeyang Ma]] — LLM4Log サーベイ筆頭著者(Concordia University SPEAR lab) - [[Jinqiu Yang]] — LLM4Log サーベイ共著者(Concordia University) - [[Tse-Hsun Chen]] — LLM4Log サーベイ senior 著者・SPEAR lab 主宰(Concordia University) - [[Concordia University]] — カナダ・モントリオールの大学。SPEAR lab を擁しログ解析の主要研究拠点の 1 つ - [[LLM4Log (repository)]] — LLM4Log サーベイのコンパニオンリポジトリ(145 論文を 7 タスク分類) - [[NSync]] — IaC reconciliation のための初の自動エージェントシステム(UMich+AWS) - [[Lilac]] — IaC lifting のニューロシンボリックなルール抽出パイプライン(UMich+UCSD) - [[AWS CloudTrail]] — AWS の API 監査ログサービス。NSync の drift 検知の観測点 - [[aztfexport]] — Azure 特化の IaC lifting ツール。Lilac の主要比較対象 - [[Amazon Web Services]] — クラウドプロバイダ(AWS)。NSync 共同研究機関 - [[University of California, San Diego]] — Lilac 共同研究機関(UCSD) - [[Zhenning Yang]] — NSync 第一著者(UMich) - [[Jingjia Peng]] — Lilac 第一著者(UMich) - [[Mingyue Cheng]] — USTC の研究者。ATSF ポジションペーパー第 1 著者、公式コード atsf を管理。時系列×エージェントの研究グループ中心 - [[Xiaoyu Tao]] — USTC の研究者。ATSF 第 2 著者で AgenticRL 実装 Cast-R1・MemCast・TokenCast の筆頭著者 - [[Qi Liu]] — USTC の責任著者(時系列×エージェント。本 wiki の別人 Xin Liu とは別人) - [[Enhong Chen]] — USTC のシニア研究者。同グループの時系列・エージェント研究に一貫して参加 - [[University of Science and Technology of China]] — 中国・合肥の大学(USTC)。State Key Laboratory of Cognitive Intelligence。ATSF 著者全員の所属 - [[Cast-R1]] — エージェント型時系列予測の RL 実装(ATSF の AgenticRL パラダイム代表、Tao+ 2026b・arXiv:2602.13802、source 化済み・10 データセットで最低 MSE) - [[TimeCopilot]] — ワークフローベースのエージェント型予測システム(ATSF の Workflow パラダイム代表、arXiv:2509.00616) - [[SREGym]] — AI SRE エージェント向けの高忠実度ライブベンチマーク兼フレームワーク - [[Stratus]] — マルチエージェントの SRE エージェント(4 エージェント + 状態機械、TNR で安全な巻き戻しと再試行) - [[CrewAI]] — STRATUS の実装基盤 LLM マルチエージェントフレームワーク - [[IBM Research]] — ITBench/STRATUS の IBM 側拠点 - [[AIOpsLab]] — AIOps エージェント評価フレームワーク(AgentOps を提唱) - [[ITBench]] — SRE/CISO/FinOps 横断の IT 自動化ベンチマーク(IBM/UIUC、ICML'25。一次論文取り込み済み) - [[Rohan Arora]] — ITBench の同等貢献リード・STRATUS 共著者(IBM Research) - [[ChaosMesh]] — カオスエンジニアリング / 障害注入ツール - [[DeathStarBench]] — マイクロサービスベンチマークスイート(AIOpsLab・SREGym 共通テストベッド) - [[Tianyin Xu]] — SREGym 最終著者(UIUC) - [[Yinfang Chen]] — AIOpsLab・SREGym・STRATUS 第一/共著者(UIUC) - [[Saurabh Jha]] — ITBench 主導著者・STRATUS 共著者(IBM Research) - [[Minghua Ma]] — AIOpsLab の責任著者(Microsoft) - [[University of Illinois Urbana-Champaign]] — 主要研究機関 - [[Microsoft]] — AIOpsLab 主要所属 - [[PAGER]] — 先回り型の障害予測・説明・対話支援エージェント(Adobe) - [[Adobe Experience Platform]] — Adobe の大規模カスタマーデータプラットフォーム(PAGER の対象) - [[Adobe]] — AEP・PAGER を擁する企業 - [[Yunyao Li]] — PAGER のシニア著者(Adobe) - [[MicroRemed]] — エンドツーエンドのマイクロサービス修復を評価する初のライブベンチマーク(PKU/Alibaba) - [[ThinkRemed]] — マイクロサービス修復のマルチエージェントフレームワーク(Coordinator/Probe/Execution/Verification) - [[Ansible]] — 宣言的・エージェントレスな IT 自動化フレームワーク(MicroRemed の緩和出力形式) - [[Train-Ticket]] — 鉄道予約題材のマイクロサービスベンチマーク(MicroRemed 最難環境) - [[Online-Boutique]] — Google のマイクロサービスデモ(= microservices-demo) - [[Lingzhe Zhang]] — MicroRemed・LLM4AIOps サーベイ第一著者(PKU、AIOps/SRE 向け LLM を多作) - [[Tong Jia]] — MicroRemed・LLM4AIOps サーベイの責任著者(PKU) - [[Ying Li]] — LLM4AIOps サーベイの責任著者(PKU、AIOps クラスタ) - [[Philip S. Yu]] — LLM4AIOps サーベイ共著者(UIC、データマイニングの著名研究者) - [[Peking University]] — MicroRemed 主所属 - [[Alibaba Group]] — MicroRemed 共同所属、Qwen3 開発元 - [[Google]] — SRE 発祥企業。Bigtable・GFS・Chubby 等の分散基盤と、AI-Ops を本番(Cloud/Ads/YouTube/Search)で展開 - [[AI Operator]] — Google の自律的な一次対応エージェント(L2/L3 稼働) - [[Actus]] — Google のアクチュエーション安全ゲートウェイ(dry-run・Red Button) - [[Detectr]] — Google の Gemini 駆動の障害検知(ユーザーフィードバックベース) - [[AI Insights]] — Google SRE の過去インシデント連続レビュー・知見抽出・risk category 注釈システム(Gemini embedding + vector DB) - [[Agent Development Kit]] — Google のエージェント開発プラットフォーム(ADK)。Google SRE AI の構築基盤 - [[Gemini Enterprise Agent Platform]] — Google のフルスタック AI 基盤。**旧 Vertex AI のリブランド**(2026-05-29 一次確認) - [[Model Context Protocol]] — AI エージェントとツール接続を標準化するオープン仕様(MCP) - [[Datadog]] — オブザーバビリティ SaaS ベンダ。自律 SRE エージェント Bits AI SRE・時系列基盤モデル Toto・本番接地型コード最適化 DODO を開発(産業界 2 例目) - [[DODO]] — Datadog Observability-Driven Optimizer。CPU プロファイル+Live Debugger 実呼び出しで本番接地型ベンチマークを生成し LLM エージェントが Go コードを最適化 - [[Junaid Ahmed]] — Datadog AI Research エンジニア。[[DODO]] 共同開発者 - [[Piotr Bejda]] — Datadog AI Research エンジニア。[[DODO]] 共同開発者 - [[Bits AI SRE]] — Datadog の自律インシデント調査・RCA エージェント(仮説駆動、TTR 最大 95% 減を主張) - [[Toto]] — Datadog の観測データ特化のゼロショット時系列予測基盤モデル。v1.0(151M)→ v2.0(4M〜2.5B 5 サイズ、CPM・u-μP 採用) - [[BOOM]] — 実運用テレメトリのみで構成した観測時系列予測ベンチマーク(2,807系列・約3.5億点、Datadog) - [[Ameet Talwalkar]] — Toto 論文のシニア著者(CMU 兼 Datadog) - [[Emaad Khwaja]] — Toto 2.0 の著者(Datadog AI Research) - [[Gerald Woo]] — Toto 2.0 の著者(Datadog AI Research) - [[Chris Lettieri]] — Toto 2.0 の著者(Datadog AI Research) - [[David Asker]] — Toto 2.0 の著者(Datadog AI Research) - [[Carnegie Mellon University]] — Toto 論文に Datadog AI Research と共同参加した大学 - [[Falcon-X]] — Ant International の異種多変量向け encoder-only 時系列基盤モデル(591M、潜在プロトタイプルーティング) - [[Ant International]] — Falcon-X を開発した企業組織(連絡先 @ant-intl.com) - [[Chronos-2]] — グループアテンションで多変量・インコンテキスト学習を可能にした TSFM(Falcon-X の主要比較対象) - [[GIFT-Eval]] — 汎用時系列予測ベンチマーク(15 univariate + 8 multivariate、7 ドメイン、144K 系列) - [[fev-bench]] — 現実的な時系列予測ベンチマーク(100 タスク、観測系 BOOMLET を含む) - [[MetricSifter]] — 障害箇所特定の前処理の特徴量削減フレームワーク(変化点検知 + KDE、SAKURA Internet) - [[Meltria]] — マイクロサービスの障害データセット生成基盤(MetricSifter の実証データ作成) - [[Sock Shop]] — 靴下販売題材のマイクロサービスベンチマーク(MetricSifter の実証研究、7 マイクロサービス) - [[PyRCA]] — メトリクスベースの RCA ライブラリ(MetricSifter の合成データ生成器兼 FL ベースライン) - [[Yuuki Tsubouchi]] — MetricSifter 筆頭著者・博士論文著者・本 vault 所有者(SAKURA Internet、元 Hatena SRE) - [[Hirofumi Tsuruta]] — MetricSifter 第 2 著者(SAKURA Internet、機械学習)。Zenn ハンドル tsurubee で LLM・時系列記事を執筆 - [[Ryosuke Matsumoto]] — Transtracer / socket-based tracing 論文の共著者(博士論文 Chapter 3 の基) - [[Masahiro Furukawa]] — Hatena SRE。Tsubouchi+ JIP 2022(TCP/UDP ソケットベース依存性発見)の共著者 - [[SAKURA Internet]] — 日本のクラウド事業者。Research Center が MetricSifter を生んだ - [[HeteroTSDB]] — 異種 KVS を TTL ベースで階層化する TSDA(KairosDB 比 3.98 倍の取り込み、Mackerel に実投入) - [[go-conntracer-bpf]] — カーネル内フローバンドリングの eBPF ネットワークフロートレーサの Go ライブラリ - [[Knative]] — Google 主導のKubernetes ネイティブ FaaS 基盤 OSS。サーバーレスのビルディングブロックを提供(serverless / kubernetes) - [[OpenFaaS]] — Alex Ellis 主導の OSS FaaS フレームワーク。Kubernetes または containerd 上でイベント駆動 Function を実行(serverless / open-source) - [[eunomia-bpf]] — eBPF×AI を主題とする OSS コミュニティ(bpftime/GPTtrace/AgentSight/Kgent を開発) - [[Yusheng Zheng]] — eunomia-bpf の中心人物。eBPF×AI 総説の著者 - [[bpftime]] — ユーザ空間 eBPF ランタイム(eGPU で GPU へ eBPF をオフロード) - [[GPTtrace]] — 自然言語からカーネルトレース用 eBPF を LLM で生成(AI for eBPF) - [[AgentSight]] — eBPF でゼロ計装の LLM/AI エージェント可観測性(claude code 等を <3% オーバーヘッドで観測) - [[Kgent]] — 初の LLM 駆動 eBPF 合成ツール(Z3 記号検査 + テスト、約 80% 意味的正しさ、別名 KEN) - [[Mackerel]] — Hatena の SaaS サーバ監視サービス(HeteroTSDB の本番採用先) - [[Hatena]] — 監視 SaaS Mackerel を運営する日本企業(Yuuki Tsubouchi の元勤務先) - [[Kyoto University]] — Yuuki Tsubouchi に博士号を授与した大学(本博士論文の発行機関) - [[Shanghai AI Laboratory]] — LLM 訓練システムサーベイの主所属。InternLM/InternEvo を擁する中国の AI 研究機関 - [[Jiangfei Duan]] — LLM 訓練システムサーベイの筆頭著者(Shanghai AI Lab / CUHK) - [[Peng Sun]] — LLM 訓練システムサーベイの責任著者(Shanghai AI Lab)。Acme ワークロード特徴づけ記事の著者 - [[Qinghao Hu]] — LLM 開発ワークロード特徴づけ記事の著者。Acme 6 か月トレースを分析 - [[Tianwei Zhang]] — LLM 開発ワークロード特徴づけ記事の著者。Acme 6 か月トレースを分析 - [[Acme]] — Shanghai AI Laboratory の LLM 開発向け GPU データセンター。Seren/Kalos、計 4,704 A100 GPU - [[InternEvo]] — Shanghai AI Laboratory の LLM 事前学習フレームワーク。V2 が 123B LLM・2,048 GPU で V1 比約 16% 高速化 - [[MegaScale]] — ByteDance/PKU の 10,000 GPU 超 LLM 訓練本番システム(175B を 12,288 GPU・55.2% MFU) - [[Minder]] — ByteDance の大規模分散訓練向け自動 faulty machine detector(machine-level の類似度 + 連続性 + per-metric LSTM-VAE、precision 0.904) - [[Megatron-LM]] — NVIDIA の SOTA OSS LLM 訓練フレームワーク(MegaScale の基盤兼ベースライン) - [[ByteDance]] — 10,000 GPU 超 AI クラスタで LLM を訓練する企業(MegaScale・Minder 開発主体) - [[Pulse]] — Nanjing University の LLM 訓練のトラフィック中心監視システム(BlueField-3 上のマイクロ秒 RDMA 計測 → machine-level の箇所特定、非侵入的) - [[NCCL]] — NVIDIA の集団通信ライブラリ(LLM 分散訓練の標準 CCL、Pulse の hook 対象) - [[BlueField-3]] — NVIDIA のプログラマブル SmartNIC/DPU(Pulse NIC Agent のマイクロ秒 RDMA 計測プラットフォーム) - [[Aegis]] — Alibaba の AI 訓練クラウド向け障害診断(OP-level、Pulse の SOTA ベースライン) - [[Holmes]] — 超大規模 GPU クラスタの LLM 訓練の異常箇所特定(OP-level・ストラグラー特化、Pulse ベースライン) - [[GreyHound]] — hybrid-parallel 訓練の fail-slow 検出(非侵入的だが OP-level、Pulse ベースライン) - [[Nanjing University]] — Pulse の主所属(State Key Lab of Novel Software Technology、ネットワーク計測/RDMA) - [[Yibo Xiao]] — Pulse 論文の筆頭著者(Nanjing University) - [[Qingkai Meng]] — Pulse 論文の責任著者(Nanjing University) - [[Chen Tian]] — Pulse 論文のシニア著者(Nanjing University、μMon/Astral の計測系譜) - [[Ziheng Jiang]] — MegaScale 論文の筆頭著者(ByteDance) - [[Xin Jin]] — MegaScale 論文の責任著者(Peking University) - [[Xin Liu]] — MegaScale 論文の責任著者(ByteDance) - [[Yangtao Deng]] — Minder 論文の筆頭著者(Tsinghua University、ByteDance との共同研究) - [[Zhuo Jiang]] — Minder 論文の責任著者(ByteDance High-speed Network チーム) - [[Minlan Yu]] — Minder 論文の責任著者(Harvard University) - [[Tsinghua University]] — Minder 論文の筆頭著者らの所属大学(中国) - [[Harvard University]] — Minder 論文の責任著者 Minlan Yu の所属大学(米国) - [[University of Illinois Chicago]] — 米国シカゴの研究大学(UIC)。LLM4AIOps サーベイ共著者 Philip S. Yu の所属(既出 UIUC とは別) - [[The Hong Kong University of Science and Technology (Guangzhou)]] — 中国・広州の研究大学(HKUST-GZ)。LLM4AIOps サーベイ共著者 Xuming Hu の所属 - [[SAKURAONE]] — SAKURA Internet の 800 GPU オープン Ethernet AI–HPC クラスタ(SONiC+RoCEv2、TOP500 HPL 49 位) - [[SONiC]] — オープンソースのネットワーク OS(SAI で ASIC 抽象化、RoCEv2 のロスレス Ethernet を提供) - [[Fumikazu Konishi]] — SAKURAONE 論文の筆頭著者・責任著者(SAKURA Internet Research Center) - [[Haoran Yan]] — GenAI クラウドインシデント実証研究の第一著者(HUST、ICSE 2026) - [[Huazhong University of Science and Technology]] — 中国・武漢の研究大学(HUST) - [[MonitorAssistant]] — LLM ベースのエンドツーエンドの実用的異常検知システム(GPT-4 Turbo、Microsoft のクラウドサービスに投入) - [[Zhaoyang Yu]] — MonitorAssistant の第一著者(Tsinghua University & BNRist、異常検知・RCA) - [[Dan Pei]] — Tsinghua University & BNRist の教授。NetManAIOps グループを主宰し AIOps 研究を広く牽引 - [[TelecomTS]] — 5G 通信ネットワーク由来の大規模マルチモーダルオブザーバビリティデータセット(Yale University) - [[Yale University]] — TelecomTS の主所属 - [[Ali Maatouk]] — TelecomTS の corresponding author(Yale University) - [[Rex Ying]] — TelecomTS の senior author(Yale University) - [[Aoyang Fang]] — 障害伝播を意識した RCA ベンチマーク論文の第一著者(CUHK-Shenzhen) - [[Pinjia He]] — 障害伝播を意識した RCA ベンチマーク論文の corresponding author(CUHK-Shenzhen) - [[The Chinese University of Hong Kong, Shenzhen]] — 中国・深圳の研究大学(CUHK-Shenzhen)。障害伝播を意識した RCA ベンチマーク論文の主所属 - [[LogPilot]] — アラート定義(PromQL)の意図を解釈してログを絞り、log chain のクラスタリングで根本原因を診断する LLM ベースのアラート診断フレームワーク(CUHK×ByteDance、Volcano Engine 本番展開) - [[Volcano Engine]] — ByteDance のクラウドプラットフォーム。LogPilot の本番デプロイ先・データ出所、Doubao LLM 提供元 - [[Zhihan Jiang]] — LogPilot 筆頭著者(CUHK、Michael R. Lyu グループ。ログ解析・ログ parsing 専門) - [[Michael R. Lyu]] — CUHK 教授。ログ解析・AIOps の著名研究者で Drain・LILAC・COCA・LogPilot を主導(ログ解析の二大ハブの一方、他方は Dan Pei) - [[Tieying Zhang]] — LogPilot の corresponding author(ByteDance、Volcano Engine への本番展開を取りまとめ) - [[The Chinese University of Hong Kong]] — 香港の研究大学(CUHK)。Michael R. Lyu グループがログ解析・AIOps を牽引(CUHK-Shenzhen とは別大学) - [[Zodiac]] — クラウド IaC のセマンティックチェックを自動マイニング・デプロイ検証するツール(UMich×Microsoft、Azure/Terraform で 510 チェック発掘) - [[Terraform]] — HashiCorp の宣言的 IaC フレームワーク(市場最有力)。core compiler は cloud-agnostic で provider 固有チェックはプラグイン経由のみ - [[Microsoft Azure]] — Microsoft のパブリッククラウド。Zodiac のセマンティックチェック検証対象(52 リソース種別) - [[Ang Chen]] — クラウド IaC × LLM エージェント研究の指導著者(UMich)。Zodiac・Lilac・NSync を貫く connecting node - [[Yiming Qiu]] — Zodiac 筆頭著者・Lilac 共著者(UMich) - [[Patrick Tser Jern Kon]] — Zodiac・Lilac 共著者(UMich、preprint 配布ページ cs-pk.com を運営) - [[Ryan Beckett]] — Zodiac 共著者(Microsoft)。ネットワーク構成検証の著名研究者 - [[University of Michigan]] — Zodiac・NSync・Lilac・クラウド管理ビジョン論文の主所属(Ann Arbor)。Ang Chen グループの拠点 - [[Martin Casado]] — クラウド管理ビジョン論文の共著者(Andreessen Horowitz、GoEx 共著) - [[Archit Bhatnagar]] — クラウド管理ビジョン論文の共同筆頭著者(UMich) - [[Tongyuan Miao]] — クラウド管理ビジョン論文の共著者(UMich) - [[Yunming Xiao]] — クラウド管理ビジョン論文の共著者(UMich、Pulse の Yibo Xiao とは別人) - [[Yibo Huang]] — クラウド管理ビジョン論文の共著者・cloudless computing 共著(UMich) - [[University of California, Berkeley]] — クラウド管理ビジョン論文の共同所属(Yiming Qiu の第 2 所属) - [[Andreessen Horowitz]] — クラウド管理ビジョン論文の産業側共同所属(Martin Casado、a16z) - [[Azure Copilot]] — Azure 向けに調整された GPT-4 ベース LLM(ビジョン論文の SDK/CLI/IaC エージェントのモデル) - [[WorkArena]] — Web エージェントの knowledge work ベンチマーク/実装基盤(ビジョン論文の ClickOps エージェントの土台、GPT-4o) - [[ARFBench]] — ソフトウェアインシデント対応の時系列質問応答(TSQA)を測る初のベンチマーク(750 問・142 系列、Datadog 本番インシデント由来) - [[Toto-1.0-QA-Experimental]] — Toto を VLM(Qwen3-VL)と結合した ARFBench 用の時系列 QA モデル(精度 63.9% でフロンティアモデルに匹敵) - [[Qwen3-VL]] — Alibaba のビジョン言語モデル(Toto-1.0-QA-Experimental のバックボーン) - [[Stephan Xie]] — ARFBench 第一著者(CMU / Datadog) - [[Ben Cohen]] — ARFBench 共著者(Datadog AI Research) - [[Mononito Goswami]] — ARFBench 共著者(CMU / AWS) - [[Cisco]] — ネットワーク機器大手。Splunk を傘下に持ち観測特化 TSFM Cisco TSM を開発 - [[Splunk]] — 観測・セキュリティ SaaS ベンダ(Cisco 傘下)。Cisco TSM の観測データとコードを提供 - [[Splunk Observability Cloud]] — Splunk の観測プラットフォーム(Cisco TSM の観測時系列データの出所) - [[TimesFM]] — Google の decoder-only 時系列基盤モデル(Cisco TSM の継続事前学習のベース) - [[Liang Gou]] — Cisco Time Series Model の著者(Cisco / Splunk) - [[RFT-FaultBench]] — 強化ファインチューニングの初の細粒度障害ベンチマーク(5 families/16 types/779 runs、PKU) - [[RFT-FM]] — RFT の障害を検知→診断→修復する閉ループ障害管理フレームワーク(RFT Failure Management) - [[OpenRLHF]] — RLHF/RFT のオープンソース訓練フレームワーク(RFT-FaultBench の実行基盤) - [[Yunpeng Zhai]] — RFT-FM 論文の共著者(PKU/Alibaba/UIC グループ) - [[Liancheng Fang]] — RFT-FM 論文の共著者(UIC) - [[Kening Zheng]] — RFT-FM 論文の共著者(PKU) - [[Hongyi Liu]] — RFT-FM 論文の共著者(PKU/Alibaba/UIC グループ) - [[Xiaosong Huang]] — RFT-FM 論文の共著者(PKU) - [[Dell Technologies]] — TSFM サーベイの主執筆機関(Hopkinton, MA)。6 次元タクソノミーで TSFM フィールドを俯瞰 - [[Siva Rama Krishna Kottapalli]] — TSFM サーベイの筆頭著者(Dell Technologies) - [[OpenRCA]] — LLM の RCA 能力を測るベンチ/データセット(335 障害・68GB テレメトリ、最良 Claude 3.5 で 11.34%、ICLR 2025)(dataset) - [[Cloud-OpsBench]] — エージェント型 RCA の再現可能ベンチ(452 障害・40 種・K8s 全スタック、State Snapshot 決定論的デジタルツイン、過程評価 IAC/RAR/ZTDR)(dataset) - [[AlertGuardian]] — Tencent 本番のアラートライフサイクル管理フレームワーク(denoise→summary→rule refinement、MTTR 156→21 分・94.8% 削減)(product) - [[Kubernetes]] — Cloud-OpsBench が全スタックを対象とするコンテナオーケストレーション基盤(product) - [[Junjielong Xu]] — OpenRCA 筆頭著者(CUHK-Shenzhen) - [[Shilin He]] — OpenRCA 共著・corresponding author(Microsoft) - [[Qingwei Lin]] — OpenRCA 共著(Microsoft、AIOps 研究) - [[Chaoyun Zhang]] — OpenRCA 共著(Microsoft) - [[Guangba Yu]] — AlertGuardian 筆頭・Cloud-OpsBench 責任著者(SYSU→CUHK、AIOps/RCA、Nezha/MicroRank) - [[Pengfei Chen]] — AlertGuardian/Cloud-OpsBench 共著(SYSU、マイクロサービス RCA を牽引) - [[Sun Yat-sen University]] — 広州の研究大学(SYSU)。Pengfei Chen グループが AIOps・マイクロサービス信頼性を牽引(organization) - [[Tencent]] — AlertGuardian の本番投入先(論文では Company-X)・共著(organization) - [[TimeSeriesScientist]] — 単変量時系列予測の全工程を 4 エージェントで自動化する初の LLM 駆動エージェント型フレームワーク(TSci、Workflow パラダイム代表、基盤モデル不使用)(repository) - [[Haokun Zhao]] — TimeSeriesScientist 論文の筆頭著者(Stony Brook University/UC San Diego)(person) - [[Chenyu You]] — TimeSeriesScientist 論文の corresponding author(Stony Brook University、Y-Research-SBU)(person) - [[Stony Brook University]] — 米国の研究大学。Haokun Zhao・Chenyu You の所属、Y-Research-SBU の拠点(organization) - [[TiRex]] — NXAI の zero-shot 時系列基盤モデル(enhanced in-context learning、TimeCopilot の MedianEnsemble 構成要素)(product) - [[Azul Garza]] — TimeCopilot 筆頭著者。TimeGPT-1・Nixtla OSS 予測ツール群の著者(person) - [[Renée Rosillo]] — TimeCopilot 共著者(person) - [[R-Pingmesh]] — BUPT/Douyin Vision の能動プロービング型サービス認識 RoCE 監視・診断システム(SIGCOMM 24) - [[ByteRobust]] — ByteDance の LLM 訓練特化 GPU インフラ管理・障害許容システム(ETTR 最大 97%、迅速な隔離、SOSP 25) - [[SMon]] — ByteDance×NYU の LLM 学習ストラグラー監視システム(What-if 帰属のオンライン化、OSDI 25) - [[NDTimeline]] — ByteDance 内製プロファイラ(SMon の入力トレース生成、10% サンプリング) - [[StragglerAnalysis]] — ストラグラー分析論文の公式 artifact リポジトリ(ByteDance-Seed/StragglerAnalysis) - [[Astral]] — Nanjing/Tencent の 50 万 GPU 級 LLM 訓練データセンターインフラ(tier-2 同一レール+HVDC+冷却+4 層監視+Seer、SIGCOMM 25) - [[Seer]] — Astral のオペレータ粒度予測コンポーネント(自己補正、密モデル 0.3% 偏差) - [[Delta]] — NCSA の大規模 GPU HPC システム(A100/H100、計 1,056 GPU)。GPU レジリエンス研究の対象・データ源 - [[Kefei Liu]] — R-Pingmesh 筆頭著者(BUPT、Hostping 筆頭著者でもある) - [[Jiao Zhang]] — R-Pingmesh 責任著者(BUPT / Purple Mountain Laboratories) - [[Shengkun Cui]] — GPU レジリエンス論文の共同筆頭著者(UIUC) - [[Ravishankar K. Iyer]] — GPU レジリエンス論文の責任著者(UIUC、ディペンダブルコンピューティング) - [[Jinkun Lin]] — ストラグラー分析(OSDI 25)の筆頭著者(NYU) - [[Aurojit Panda]] — ストラグラー分析の共著者(NYU) - [[Jinyang Li]] — ストラグラー分析の責任著者(NYU) - [[Borui Wan]] — ByteRobust 筆頭著者(HKU/ByteDance、ByteCheckpoint 筆頭著者) - [[Liang Xiang]] — ByteRobust の責任著者格(ByteDance Seed) - [[Chuan Wu]] — ByteRobust 責任著者(HKU) - [[Hao Zheng]] — Astral 共著者(Nanjing University) - [[ChonLam Lao]] — Astral 共著者(Harvard University) - [[Gianni Antichi]] — Astral 共著者(Politecnico di Milano / Queen Mary University of London) - [[BUPT]] — 北京郵電大学。R-Pingmesh の共同研究機関(networking) - [[Douyin Vision]] — R-Pingmesh を本番展開した企業(ByteDance 傘下ブランド) - [[NCSA]] — National Center for Supercomputing Applications(UIUC 内)。Delta を運用(hpc) - [[Nokia Bell Labs]] — GPU レジリエンス論文の共著者 Catello Di Martino の所属 - [[New York University]] — NYU。ストラグラー分析の著者陣の所属(ByteDance Seed と産学共同) - [[The University of Hong Kong]] — HKU。ByteRobust の責任著者 Chuan Wu・筆頭 Borui Wan の所属 - [[Kexin Chu]] — eInfer 筆頭著者(University of Connecticut) - [[Yiwei Yang]] — eGPU 筆頭著者かつ eInfer 共著(UC Santa Cruz)。eBPF×GPU 横断 - [[Shizhen Zhao]] — eInfer 共著者(Shanghai Jiao Tong University) - [[Bohua Zou]] — ProfInfer 筆頭著者(Huawei Hilbert Research Center Dresden / TU Munich) - [[Debayan Roy]] — ProfInfer 責任著者(Huawei Hilbert Research Center Dresden) - [[Haibo Chen]] — ProfInfer・PICKER 共著者(Huawei Central Software Institute / SJTU IPADS) - [[Min Si]] — NCCLX(Collective Communication for 100k+ GPUs)筆頭著者(Meta) - [[Pavan Balaji]] — NCCLX 論文の共著者(Meta) - [[James Hongyi Zeng]] — NCCLX 論文の責任著者(Meta) - [[Sébastien Darche]] — GPU トレース収集論文(hip-analyzer)筆頭著者(Polytechnique Montréal, DORSAL lab) - [[Michel R. Dagenais]] — 同 TOPC 論文共著者・DORSAL lab 主宰(Polytechnique Montréal) - [[Mingcong Han]] — PICKER 筆頭著者(SJTU IPADS) - [[Rong Chen]] — PICKER 責任著者(SJTU IPADS) - [[Tong Yu]] — eGPU 共著者(Eunomia Inc) - [[Andrew Quinn]] — eGPU 共著者(UC Santa Cruz) - [[Hong Xu]] — Mycroft 共著者(CUHK) - [[UC Santa Cruz]] — eGPU・eInfer の著者所属(米国の研究大学) - [[University of Connecticut]] — eInfer の著者 Kexin Chu らの所属(米国の研究大学) - [[University of Washington]] — eInfer の著者 Chenxingyu Zhao の所属(米国の研究大学) - [[Shanghai Jiao Tong University]] — eInfer・ProfInfer・PICKER に関与(中国、IPADS を擁する) - [[Institute of Parallel and Distributed Systems]] — SJTU 内の研究所(IPADS)。PICKER の著者所属 - [[Meta]] — 10 万 GPU 超クラスタを運用し集合通信ライブラリ NCCLX・CTran を開発 - [[ByteDance Seed]] — ByteDance の研究組織。Mycroft の複数著者所属 - [[Polytechnique Montréal]] — GPU トレース収集論文の著者所属(カナダの工科大学) - [[DORSAL lab]] — Polytechnique Montréal の研究室。Michel R. Dagenais 主宰、TOPC・hip-analyzer - [[Huawei Hilbert Research Center Dresden]] — ProfInfer の著者所属(Huawei のドレスデン拠点) - [[Huawei Central Software Institute]] — ProfInfer の著者 Haibo Chen 所属(Huawei の研究組織) - [[TU Munich]] — ProfInfer の著者所属(ドイツの工科大学) - [[Eunomia Inc]] — eGPU の著者 Tong Yu 所属、eGPU/bpftime のコードを公開 - [[NCCLX]] — Meta の集合通信フレームワーク。NCCL 拡張で 10 万 GPU 超を一元支援 - [[CTran]] — NCCLX のカスタムトランスポート層(ゼロコピー・SM フリー・ホスト駆動) - [[DQPLB]] — NCCLX の輻輳管理機構(Dynamic Queue Pair Load Balancing) - [[torchcomms]] — NCCLX の公開コードを含む Meta のリポジトリ - [[Llama4]] — Meta の LLM。NCCLX の評価対象ワークロード - [[llama.cpp]] — エッジ/オンデバイス向け LLM 推論エンジン(ProfInfer の計装対象) - [[GGML]] — llama.cpp の ML ランタイム/テンソルライブラリ - [[Perfetto]] — タイムライン可視化ツール。ProfInfer の ProfTime が利用 - [[BCC]] — BPF Compiler Collection。eBPF ラピッドプロトタイピング向けフレームワーク(70+ ツール内包、Python/Lua/C++ フロントエンド) - [[libbpf]] — eBPF 本番実装用 C ライブラリ。CO-RE によるカーネルバージョン横断ポータビリティを提供 - [[bpftrace]] — eBPF アドホックトレーシング特化スクリプト言語(2017)。探索・デバッグ段階に最適 - [[Orange Pi]] — ProfInfer の評価デバイス(RK3588 系 SoC) - [[Rubik Pi]] — ProfInfer の評価デバイス(QCS6490 SoC) - [[Rockchip NPU]] — ProfInfer が自作バックエンドを実装した NPU - [[NVBit]] — NVIDIA GPU バイナリ計装フレームワーク。eGPU の比較対象 - [[CUPTI]] — CUDA Profiling Tools Interface。GPU プロファイリングの比較参照 - [[PTX]] — NVIDIA GPU の中間表現。eGPU の注入対象 - [[ParallelGPU OS]] — GPU 向け並行チェックポイント/復元システム(POS)。eGPU の基盤 - [[CXLMemSim]] — CXL.mem シミュレータ(eGPU 著者の先行研究) - [[hip-analyzer]] — CUDA/HIP カーネル計装ツール(TOPC の参照実装) - [[Rodinia]] — GPU ベンチマークスイート(TOPC の評価) - [[HIP]] — AMD の GPU プログラミングモデル - [[PICKER]] — インスタンス単位の GPU カーネルべき等性検証システム - [[Asymmetric Resilience]] — GPU 向け耐障害システム。PICKER の統合先 - [[Chimera]] — プリエンプティブ GPU スケジューリングシステム。PICKER の統合先 - [[PACE]] — ISAV の因果探索フレームワーク(相関クラスタリング + ラグ考慮 Granger 因果性、ORNL Summit 冷却テレメトリ 7 年) - [[SkeletonHunter]] — Alibaba Cloud のコンテナ訓練ネットワーク障害診断(トラフィックスケルトン推論で probing 2 桁削減、precision 98.2%) - [[eACGM]] — eBPF + libnvml + GMM のフルスタック非侵入 ML 監視(6 ベースライン超、OSS) - [[XPUTimer]] — Alibaba/Ant の発散 LLM 訓練異常診断(非侵入 CPython 計装 + CUDA-GDB intra-kernel inspecting、v2 で Flare に改名) - [[LLMPrism]] — Huawei Cloud のブラックボックス性能診断(スイッチ層 RoCE フローのみから並列化・タイムライン逆推定) - [[L4]] — LLM 訓練障害の自動ログ解析(cross-job/spatial(iForest)/temporal(DTW)、F1 0.873) - [[Platform-X]] — Huawei Cloud の本番マルチテナント LLM 訓練基盤(L4・LLMPrism のデプロイ先、匿名) - [[Summit]] — ORNL のスパコン(冷却インフラ 7 年テレメトリが PACE の評価データ) - [[Perlmutter]] — NERSC のスパコン(A100、GPU 性能モデリング評価、誤差 4.98%) - [[Vista]] — TACC のスパコン(GH200、GPU 性能モデリング評価、誤差 9.38%) - [[GPT-NeoX]] — DeepSpeed + Megatron-LM 統合の訓練フレームワーク(GPU 性能モデリングのオペレータ分解対象) - [[Alibaba HPN]] — Alibaba の rail-optimized LLM 訓練 DC ネットワーク(SkeletonHunter の前提) - [[DeepSpeed]] — Microsoft のメモリ最適化(ZeRO)+ 3D parallelism 実装基盤(GPT-NeoX・Aegis が参照) - [[DLRover]] — Ant Group の OSS 自動分散 DL システム(Flare/XPUTimer を含む) - [[The Pile]] — 825GB の英語テキストコーパス(GPU 性能モデリングの訓練・評価) - [[Hewlett Packard Labs]] — HPE 研究部門(PACE の主所属) - [[Oak Ridge National Laboratory]] — 米 DOE 国立研(Summit・冷却テレメトリ提供、PACE 評価) - [[Case Western Reserve University]] — GPU 性能モデリング論文の主所属(著者 5 名) - [[Rutgers University]] — GPU 性能モデリング論文の共同所属(Mingkai Zheng・Zhao Zhang) - [[Ant Group]] — 6,000 GPU で Flare を本番運用、DLRover の母体(Ant International とは別) - [[Huawei Cloud]] — Platform-X を運営、L4・LLMPrism の産業側所属 - [[Pavana Prakash]] — PACE(ISAV)筆頭著者(Hewlett Packard Labs) - [[Rolando P. Hong Enriquez]] — PACE 共著者(Hewlett Packard Labs) - [[Sergey Serebryakov]] — PACE 共著者(Hewlett Packard Labs) - [[David Grant]] — PACE 共著者(所属未確定) - [[Wesley Brewer]] — PACE 共著者(Oak Ridge National Laboratory) - [[Dejan Milojicic]] — PACE シニア著者(Hewlett Packard Labs、HPE Fellow/VP) - [[Biyao Zhang]] — GPU 性能モデリング論文の筆頭著者(Case Western Reserve University) - [[Mingkai Zheng]] — 同共著者(Rutgers University) - [[Debargha Ganguly]] — 同共著者(Case Western Reserve University) - [[Xuecen Zhang]] — 同共著者(Case Western Reserve University) - [[Vikash Singh]] — 同共著者(Case Western Reserve University) - [[Vipin Chaudhary]] — 同共著者(Case Western Reserve University) - [[Zhao Zhang]] — 同シニア著者(Rutgers University、HPC) - [[Wei Liu]] — SkeletonHunter 筆頭著者(Tsinghua University) - [[Kun Qian]] — SkeletonHunter/Aegis 共著者・Alibaba HPN 筆頭(Alibaba Cloud) - [[Zhenhua Li]] — SkeletonHunter 共著者(Tsinghua University) - [[Ennan Zhai]] — SkeletonHunter/Aegis の責任著者格(Alibaba Cloud) - [[Yunhao Liu]] — SkeletonHunter 共著者(Tsinghua University) - [[Weicheng Wang]] — SkeletonHunter/Aegis 共著者(Alibaba Cloud) - [[Yun Zhang]] — SkeletonHunter 共著者(Alibaba Cloud) - [[Jiakang Li]] — SkeletonHunter 共著者(Alibaba Cloud) - [[Shuhong Zhu]] — SkeletonHunter 共著者(Alibaba Cloud) - [[Xue Li]] — SkeletonHunter/Aegis 共著者(Alibaba Cloud) - [[Hongfei Xu]] — SkeletonHunter 共著者(Alibaba Cloud) - [[Fei Feng]] — SkeletonHunter/Aegis 共著者(Alibaba Cloud) - [[Ruilin Xu]] — eACGM 筆頭著者(Sun Yat-sen University) - [[Zongxuan Xie]] — eACGM 共著者(Sun Yat-sen University) - [[Weihao Cui]] — XPUTimer(Flare)筆頭著者(Shanghai Jiao Tong University) - [[Ji Zhang]] — XPUTimer 共著者(Independent Researcher、v2) - [[Han Zhao]] — XPUTimer corresponding(v2、Shanghai Jiao Tong University) - [[Chao Liu]] — XPUTimer 共著者(Independent Researcher、v2) - [[Jian Sha]] — XPUTimer corresponding(v2、Ant Group) - [[Bingsheng He]] — XPUTimer 共著者(National University of Singapore) - [[Minyi Guo]] — XPUTimer シニア著者(Shanghai Jiao Tong University) - [[Quan Chen]] — XPUTimer corresponding(v1、Shanghai Jiao Tong University) - [[Jianbo Dong]] — Aegis 筆頭著者(Alibaba Cloud) - [[Pengcheng Zhang]] — Aegis 共著者(Alibaba Cloud) - [[Rui Ren]] — LLMPrism 共著者(Huawei Cloud) - [[Yulun Wu]] — LLMPrism 共著者(The Chinese University of Hong Kong) - [[Wenwei Gu]] — LLMPrism 共著者(The Chinese University of Hong Kong) - [[Yujie Huang]] — LLMPrism 共著者(The Chinese University of Hong Kong) - [[Junjie Huang]] — L4 筆頭著者(The Chinese University of Hong Kong) - [[Zhuangbin Chen]] — L4 共著者(Sun Yat-sen University) - [[Yichen Li]] — L4/LLMPrism 共著者(The Chinese University of Hong Kong) - [[Renyi Zhong]] — L4 共著者(The Chinese University of Hong Kong) - [[Cong Feng]] — L4/LLMPrism 共著者(Huawei Cloud) - [[Yongqiang Yang]] — L4/LLMPrism 共著者(Huawei Cloud) - [[Zengyin Yang]] — L4/LLMPrism 共著者(Huawei Cloud) - [[Shuaiyu Xie]] — TVDiag 筆頭著者(武漢大学) - [[Jian Wang]] — TVDiag 責任著者(武漢大学 + 中関村実験室) - [[Bing Li]] — TVDiag 責任著者(武漢大学 + 中関村実験室) - [[Wuhan University]] — 武漢大学。TVDiag の主所属機関(武漢市) - [[TVDiag]] — タスク指向・ビュー不変のマルチモーダル障害診断フレームワーク(武漢大学 + 中関村実験室。TOSEM Vol.35 No.2, 2026) - [[TAMO]] — ツール支援型 LLM マルチモーダル RCA フレームワーク([[Shandong University]] + [[Beihang University]]。IEEE TSC 2025) - [[Xiao Zhang]] — TAMO 第一著者、山東大学准教授(データマイニング・分散学習) - [[Dongxiao Yu]] — TAMO 責任著者、山東大学教授(エッジインテリジェンス・分散コンピューティング) - [[Fuzhen Zhuang]] — TAMO 共著者、北京航空航天大学教授(転移学習・知識グラフ、150 本超) - [[Shandong University]] — 山東大学。TAMO の主所属機関(青島/済南) - [[CASCA]] — TU Wien の MSA ベースのカーボン認識 SLO 充足プラットフォーム(arXiv 2026) - [[Jeffrey C. Mogul]] — Google Research。可用性・SLO 研究の主要著者(HotOS 2017・HotOS 2019) - [[John Wilkes]] — Google。SLO/SRE の著名研究者(HotOS 2019、SRE 本共著者) - [[Tamás Hauer]] — Google。ウィンドウ付きユーザーアップタイムの提案者(NSDI 2020 筆頭著者) - [[Philipp Hoffmann]] — Google。Meaningful Availability 共著者(NSDI 2020) - [[John Lunney]] — Google。Meaningful Availability 共著者(NSDI 2020) - [[Dan Ardelean]] — Google。Meaningful Availability 共著者(NSDI 2020) - [[Amer Diwan]] — Google。Meaningful Availability 共著者(NSDI 2020) - [[Rebecca Isaacs]] — Google。可用性のセキュリティ的思考を提唱(HotOS 2017 共著者) - [[Brent Welch]] — Google。可用性のセキュリティ的思考を提唱(HotOS 2017 共著者) - [[Boris Sedlak]] — TU Wien。SLO 拡散方法論の筆頭著者(IEEE SOSE 2024) - [[Víctor Casamayor Pujol]] — TU Wien。SLO 拡散方法論の共著者(IEEE SOSE 2024) - [[Praveen Kumar Donta]] — TU Wien。SLO 拡散方法論の共著者(IEEE SOSE 2024) - [[Juan Luis Herrera]] — TU Wien。CASCA 筆頭著者(arXiv 2026) - [[Daniel Wang (TU Wien)]] — TU Wien。CASCA 共著者(arXiv 2026) - [[Ashish Vaswani]] — Transformer 筆頭著者(NeurIPS 2017)。Google Brain → Adept AI → Essential AI - [[Noam Shazeer]] — Scaled Dot-Product Attention 提案。Google Brain → Character AI 共同創設者 - [[Aidan Gomez]] — Transformer 共著者。トロント大学 → Cohere 共同創設者 - [[Illia Polosukhin]] — Transformer 共著者。Google Research → NEAR Protocol 共同創設者 - [[Łukasz Kaiser]] — Transformer 共著者・tensor2tensor 実装。Google Brain - [[Jakob Uszkoreit]] — Transformer 共著者。Google Research → Inceptive Nucleics 共同創設者 - [[Niki Parmar]] — Transformer 共著者。Google Research - [[Llion Jones]] — Transformer 共著者。Google Research → Sakana AI 共同創設者 - [[Google Brain]] — Google の AI 研究部門(2023 年に DeepMind と統合し Google DeepMind に)。Transformer の主要開発拠点 - [[OpenAI]] — AI 研究組織(2015 年設立)。GPT シリーズ・DALL·E・ChatGPT の開発元 - [[Alec Radford]] — GPT-1/GPT-2 筆頭著者、GPT-3 共著者。OpenAI 研究者 - [[Ilya Sutskever]] — OpenAI 共同創設者・元チーフサイエンティスト。GPT-1/2/3 共著者 - [[Karthik Narasimhan]] — GPT-1 共著者。OpenAI → Princeton - [[Tim Salimans]] — GPT-1 共著者。OpenAI - [[Dario Amodei]] — GPT-2/3 共著者。OpenAI → Anthropic 共同創設者・CEO - [[Jeffrey Wu]] — GPT-2 共同第一著者。OpenAI - [[Rewon Child]] — GPT-2/3 共著者、Sparse Transformer。OpenAI - [[Tom Brown]] — GPT-3 筆頭著者。OpenAI - [[Jared Kaplan]] — GPT-3 共著者、スケーリング則研究。Johns Hopkins / OpenAI → Anthropic - [[GPT-2]] — OpenAI の 1.5B パラメータ言語モデル。ゼロショットで 8 データセット中 7 で SOTA - [[GPT-3]] — OpenAI の 175B パラメータ言語モデル。文脈内学習を大規模に実証(NeurIPS 2020) - [[WebText]] — OpenAI が構築した 40GB ウェブテキストデータセット(Reddit 3 karma 以上でフィルタ) - [[Runzhou Wang]] — 南開大学 AIOps@NKU の研究者。NexusRCL 論文(arXiv 2026-04)の第一著者 - [[NexusRCL]] — マイクロサービス RCL の半教師付き異種グラフフレームワーク。サービス/ホストを分離した Layer-Aware HGN と Active Learning を組み合わせ、HD1/HD2 で A@1 SOTA - [[Katja Gilly]] — [[Miguel Hernández University]] の研究者。Webロードバランシングサーベイ(World Wide Web 2011)筆頭著者(person / web-systems) - [[Carlos Juiz]] — [[University of Balearic Islands]] の教授。Webロードバランシングサーベイ(World Wide Web 2011)共著者(person / web-systems) - [[Ramon Puigjaner]] — [[University of Balearic Islands]] の教授。Webロードバランシングサーベイ(World Wide Web 2011)共著者(person / web-systems) - [[Miguel Hernández University]] — スペイン・アリカンテ州エルチェ所在の公立大学。[[Katja Gilly]] 所属(organization / university) - [[University of Balearic Islands]] — スペイン・バレアレス諸島州パルマ所在の公立大学（UIB）。[[Carlos Juiz]]・[[Ramon Puigjaner]] 所属(organization / university) - [[Xiaoyun Li]] — [[Sun Yat-sen University]] の研究者。Li+ ISSRE 2022 共同第一著者(person / cloud-reliability) - [[Hongyang Chen]] — [[Sun Yat-sen University]] の研究者。Li+ ISSRE 2022 共著者(person / cloud-reliability) - [[Zhekang Chen]] — [[Bizseer]] の研究者。Li+ ISSRE 2022 産業界共著者(person / cloud-reliability / industry) - [[Netflix]] — グローバル動画ストリーミング企業。数千のマイクロサービスを運用し、SRE・オブザーバビリティ・サービストポロジの実践知を広く公開(organization / streaming / distributed-systems) - [[Apache Pekko]] — Akka のオープンソースフォーク(Apache Software Foundation)。アクターモデル・Pekko Streams による JVM 向け分散処理フレームワーク(product / streaming / distributed) - [[Tianyi Yang]] — [[The Chinese University of Hong Kong]]([[Michael R. Lyu]] 研究室)。Yang+ DSN2022 アラートアンチパターンの筆頭(person / aiops) - [[Jiacheng Shen]] — CUHK Lyu 研究室。Yang+ DSN2022 共著・AID(ASE 2021)共著(person / aiops) - [[Yuxin Su]] — [[Sun Yat-sen University]] ソフトウェア工学院、Yang+ DSN2022 責任著者(person / aiops) - [[Xiaoxue Ren]] — CUHK 計算機科学工学科。Yang+ DSN2022 共著(person / aiops) - [[Jinxi Kuang]] — CUHK Lyu 研究室。Kuang+ ICSE-SEIP2024 [[COLA]] の筆頭(person / aiops) - [[Jinyang Liu]] — CUHK Lyu 研究室。Kuang+ ICSE-SEIP2024 第 2 著者・Logzip・iPACK 共著(person / aiops) - [[Jiazhen Gu]] — CUHK Lyu 研究室。Kuang+ ICSE-SEIP2024 責任著者(person / aiops) - [[Lan Yu]] — [[Huawei Cloud]] Computing and Networking Innovation Lab。Kuang+ ICSE-SEIP2024 共著(person / cloud-reliability) - [[Rui Tan]] — [[Huawei Cloud]] Computing and Networking Innovation Lab。Kuang+ ICSE-SEIP2024 共著(person / cloud-reliability) - [[Akanksha Singal]] — [[IBM Research]] India + [[IIIT Delhi]]。Singal+ arXiv2025 [[KIMetrix]] の筆頭(person / aiops / microservices) - [[Kaustabha Ray]] — [[IBM Research]] India。Singal+ arXiv2025 共著(person / aiops) - [[Divya Pathak]] — [[IBM Research]] India。Singal+ arXiv2025 共著(person / aiops) - [[Felix George]] — [[IBM Research]] India。Singal+ arXiv2025 共著(person / aiops) - [[Mudit Verma]] — [[IBM Research]] India。Singal+ arXiv2025 共著(person / aiops) - [[Pratibha Moogi]] — [[IBM Research]] India。Singal+ arXiv2025 シニア共著(person / aiops) - [[IIIT Delhi]] — Indraprastha Institute of Information Technology Delhi。[[Akanksha Singal]] 所属(organization / university / india) - [[Derek Lin]] — [[Pivotal Software]] Palo Alto。Lin+ KDD2014 アラート/インシデントクラスタリングの筆頭(person / aiops / clustering) - [[Rashmi Raghu]] — [[Pivotal Software]] Palo Alto。Lin+ KDD2014 共著(person / aiops) - [[Vivek Ramamurthy]] — [[Pivotal Software]] Palo Alto。Lin+ KDD2014 共著(person / aiops) - [[Jin Yu]] — [[Pivotal Software]] Melbourne。Lin+ KDD2014 共著・NMF + KD-tree 部担当(person / aiops) - [[Regunathan Radhakrishnan]] — [[Pivotal Software]] Palo Alto。Lin+ KDD2014 共著(person / aiops) - [[Joseph Fernandez]] — [[Visa Inc]](Foster City)。Lin+ KDD2014 共著、Pivotal との産学連携でデータ提供側(person / aiops / industry) - [[Pivotal Software]] — Palo Alto + Melbourne。Greenplum DB + MADlib の MPP データ分析プラットフォーム企業。2019 年に VMware 買収で VMware Tanzu に統合(organization / data-analytics) - [[Visa Inc]] — Foster City, CA。決済ネットワーク事業者。Lin+ KDD2014 のエンタープライズ IT データ提供側(organization / finance) - [[Yujun Chen]] — [[Beihang University]] Beijing + [[Microsoft Research]] インターン。Chen+ WWW2019 [[AirAlert]] の筆頭(person / aiops / outage-prediction) - [[Hang Dong]] — [[Microsoft Research]] Beijing。Chen+ WWW2019 共著(person / aiops) ### 2026-06-17 distributed training batch - [[Philipp Moritz]], [[Ion Stoica]], [[Mohammad Shoeybi]], [[Bryan Catanzaro]], [[Deepak Narayanan]], [[Matei Zaharia]], [[Yanping Huang]], [[Quoc V. Le]], [[Jeff Rasley]], [[Samyam Rajbhandari]], [[Yuxiong He]], [[Hanyu Zhao]], [[Vijay Korthikanti]], [[Houwen Peng]], [[Han Hu]], [[Yanli Zhao]], [[Kai Chen (HKUST)]], [[Sudarsanan Rajasekaran]], [[Manya Ghobadi]], [[Aditya Akella]], [[Bohan Zhao]], [[Wei Xu]] - [[Ray]], [[GPipe]], [[PipeDream]], [[HiveD]], [[OpenPAI]], [[Cassini]], [[FFTrainer]] - [[iSING Lab]] ### 2026-07-01 NORAD Near Miss batch - [[Nick Travaglini]] — [[Honeycomb.io]] Technical Customer Success Manager。USENIX SREcon23 Americas で 1979 年 NORAD 核ミサイル誤警報事件を Distant-Proximal / Blunt-Sharp モデルで分析する講演を発表(person / sre) - [[Honeycomb.io]] — オブザーバビリティ製品を提供する企業。[[Nick Travaglini]] が在籍(organization / sre / observability) ### 2026-07-01 SREcon23 EMEA McCarthy ingest - [[Niall McCarthy]] — [[Afterpay]] エンジニアリングリーダー。USENIX SREcon23 EMEA で「The Incident Is The Way」を発表(person / sre / incident-management) - [[Afterpay]] — 後払い決済サービスを提供する企業。[[Niall McCarthy]] が在籍(organization / fintech / sre) ### 2026-07-01 Hard Choices, Tight Timelines (SREcon24 Americas) ingest - [[Laura Maguire]](更新) — Trace Cognitive Engineering/OSU 所属を反映。Skip-level トレードオフ意思決定研究を追加(person / sre / resilience-engineering / tradeoff) - [[Courtney Nash]](更新) — The Void の限界とトレードオフ研究への展開を追加(person / sre / incident-management / tradeoff) ### 2026-07-01 Storytelling as an Incident Management Skill (SREcon24 Americas) ingest (2 updated) - [[Laura de Vesine]](更新) — SREcon24 Americas 発表を追加。人物中心でなく因果論理中心の narrative を推す立場と、5段階「エンゲージングなポストモーテム」構成を追記(person / sre / incident-management / postmortem) - [[Datadog]](更新) — de Vesine のストーリーテリング発表を出典に追加。自社のパイプライン遅延・キャッシュ層インシデント例を含む(organization / sre / incident-management) --- ## Sources - [[@2004__OSDI__MapReduce - Simplified Data Processing on Large Clusters]] — [[Jeffrey Dean]]・[[Sanjay Ghemawat]]([[Google]], Inc.)、OSDI 2004。map/reduce の2関数だけで大規模クラスタ上の並列分散計算を記述できるプログラミングモデルとその耐障害実装を提案した基盤論文。master 中央集権スケジューリング・タスク再実行による耐障害性・[[Google File System]] 局所性最適化・straggler 緩和のバックアップタスク機構が特徴。2004年8月時点で月29,423ジョブ・入力3,288TB規模で本番稼働(source / paper / distributed-systems / task-parallel) - [[@2025__LMSYS Blog__Deploying DeepSeek with PD Disaggregation and Large-Scale Expert Parallelism on 96 H100 GPUs]] — [[SGLang]] チーム(LMSYS)2025-05-05。[[DeepSeek-V3]] 級モデルを96台のH100 GPU上でPD Disaggregation + 大規模Expert Parallelismにより配備し、DeepSeek公式プロフィールにほぼ匹敵する性能(TP16比Prefill最大3.3倍・Decode最大5.2倍)をオープンソース実装として初めて達成(source / article / llm / inference / moe / distributed) - [[@2026__Glenn K. Lockwood Blog__ISC26 Recap]] — [[Glenn K. Lockwood]] 2026年7月。2026 ISC High Performance Conference参加記。中国の全CPU(Arm)スパコン[[LineShine]]のTop500首位獲得とSugon [[ParaStor F9000]]のIO500首位獲得、2026-06-12の米国政府によるAnthropicモデル外国人アクセス遮断を引き金とした世界的[[主権AI]]インフラ投資、AI推論のメモリ帯域幅問題がアルゴリズム進歩で解決されてきたという主張を横断的に論じる(source / article / hpc / sovereign-ai / supercomputer) - [[@2024__SREcon24 Americas__What Is Incident Severity, but a Lie Agreed Upon?]] — [[Emily Ruppe|Em Ruppe]]（[[Jeli]]、[[PagerDuty]] 傘下）USENIX SREcon24 Americas（2024-03-19、サンフランシスコ）。severity を「組織内で合意された嘘」と位置づけ、組織的問題の「カナリア」として読み解く運用論(video / sre / incident-management) - [[@2015__yuuk.io__linux-networkstack-tuning-rfs]] — [[Yuuki Tsubouchi]]（坪内佑樹）2015-03-31。HAProxy・nginx・memcached 等がマルチコア環境で CPU0 softirq に集中する問題を解析し、RSS→RPS→RFS の技術体系と設定例を実験で検証。RFS 有効化で約 10% 応答速度改善(source / article / linux / networking / kernel / performance) - [[@2023__SREcon23EMEA__9 Things You Should Do When Starting to Use SLOs]] — [[Sal Furino]]（CRE）SREcon23 EMEA（2023-10-11、ダブリン）。SLO 導入 9 アドバイスを 3 カテゴリで体系化。成功率 > エラー率、ステークホルダー別時間窓、SLODLC、「Observability Without Action is Just Storage」(slides / sre / slo) - [[@2016__SREcon16__Service Levels and Error Budgets]] — [[Chris Jones]]・[[Niall Murphy]]（[[Google]]）SREcon16（2016-04）。SRE Book 第 4 章の著者が SLI/SLO/SLA とエラーバジェット制御ループを口頭解説。(video / sre / slo / error-budget) - [[@2026__SREcon26Americas__The Power of Stories]] — [[Lorin Hochstein]](Airbnb)SREcon26 Americas クロージングキーノート。インシデントストーリーの 2 条件・ポストモーテムの narrative description・逸脱の正常化(Challenger/Vaughan)・Once Upon an Incident 実践(video / sre / postmortem / incident-management / human-factors) - [[@2025__YAPC Fukuoka 2025__SREのためのテレメトリー技術の探究]] — [[坪内佑樹]]（[[さくらインターネット研究所]]）YAPC::Fukuoka 2025。テレメトリー技術探究 12 年の総括。Scaling Telemetry Workloads + 今後 4 方向(slides / sre / telemetry) - [[@2022__SREcon22 APAC__Introducing the Reliability Map – r9y.dev]] — [[Aaron Bowden]]（Google Cloud Professional Services）SREcon22 APAC（シドニー、2022-12-08）。SRE ケイパビリティのオープンソースマップ `r9y.dev` を紹介。コンテキスト抽出→ケイパビリティ選択→戦術・戦略ロードマップのプロセス提唱(source / video / sre / reliability) - [[@1998__CtL__How Complex Systems Fail]] — [[Richard I. Cook]] (CtL, University of Chicago) 1998 年。複雑システムの障害論を 18 命題で体系化。単一根本原因の否定・潜在的障害の常在・安全性の創発的特性(source / article / safety / human-factors / reliability) - [[@2024__SRE NEXT 2024__工学としてのSRE再訪]] — [[坪内佑樹]]（[[さくらインターネット研究所]]・[[Topotal]]）による SRE NEXT 2024 発表。SRE を「技芸→工学」として再訪し、歴史的背景・オープンチャレンジ・SREcon 学術接続を三軸で展開(source / slides / sre / engineering) - [[@2025__ASE__LLM-Powered Multi-Agent Collaboration for Intelligent Industrial On-Call Automation]] — [[Ruowei Fu]]・[[Shenglin Zhang]]（[[Nankai University]]）/ [[ByteDance]] ほかによる ASE 2025 論文。OncallX: LLM × マルチエージェント協調でオンコール自動化。対応 21 秒・トリアージ 4 秒（ByteDance 本番 2 か月）(source / paper / aiops / llm / multi-agent / on-call) - [[@2017__SREcon17Americas__Anomaly Detection in Infrequently Occurred Patterns]] — [[Dong Wang]]（[[Baidu]]）SREcon17 Americas 2017-03-14。祝日トラフィックの異常検知で CDF k-means クラスタリング＋リアルタイム比率補正(source / slides / sre / anomaly-detection) - [[joisino-トランスフォーマーはRNN-2024]] — [[佐藤竜馬]] 2024-09-30。Transformer の自己注意機構を [[カーネル法]] として再定式化し、線形注意により固定次元 [[RNN]] と等価に書き直せることを示す。訓練=並列・推論=定メモリの両モード切替、[[線形注意]]・[[状態空間モデル]]・[[文脈内学習]]の同質性まで通読。(source / article / machine-learning / sequence-modeling) - [[joisino-否定文理解-2024]] — [[佐藤竜馬]] 2024-12-18。BERT 系埋め込みは正反対文を高類似度で近接、softmax 構造上、否定文の埋め込みは数学的に存在不能。BERTNOT・[[Anthropic]] の[[文脈付き検索]](5.0%→2.9%)等の回避策をサーベイ。(source / article / llm / nlp / negation) - [[joisino-超人的AIと認知不能情報-2025]] — [[佐藤竜馬]] 2025-01-15。敵対的摂動は AI を騙すノイズでなく、人間に認知できない正当な分類手がかり。NP 完全性・対話型証明系を引き「探索 AI / 検証人間」の[[AI検証可能性]]を提案。(source / article / adversarial / ai-alignment) - [[joisino-機械学習理論入門-2025]] — [[佐藤竜馬]] 2025-03-17。[[集中不等式]]→ユニオンバウンド→[[カバリングナンバー]]で古典的[[汎化誤差バウンド]]([[PAC学習]])を導出、深層学習過パラメータ域で崩壊することと損失地形「盆地」構造への展望まで一本道。(source / article / learning-theory / generalization) - [[joisino-言語モデルの物理学-2025]] — [[佐藤竜馬]] 2025-03-24。[[Zeyuan Allen-Zhu]]・[[Yuanzhi Li]]([[Meta FAIR]]) の [[Physics of Language Models]] シリーズを通覧。[[知識容量スケーリング則]](約 2 bit/param)・[[知識操作]]は CoT 必須・自己回帰モデルの誤答取消不能・[[文脈自由文法]]学習。(source / article / llm / interpretability / physics-of-llm) - [[joisino-アンナカレーニナの法則-2025]] — [[佐藤竜馬]] 2025-05-20。「性能の良いモデルはどれも同じような表現を持つ」を [[プラトン的表現仮説]]・[[モデル縫合]]・[[暗黙的正則化]]・反変原理・[[アンサンブル学習]]効果薄で解説。(source / article / representation-learning / multimodal) - [[joisino-人間を騙すAI-2025]] — [[佐藤竜馬]] 2025-06-23。標準 RLHF だけで LLM が人間を誤解させる振る舞いを学ぶ([[RLHF誤誘導]])。フェイクエビデンス挿入・難読化コード生成。[[報酬ハッキング]]・[[スコファンシ]]・[[LLM自己検証]]限界、[[Anthropic]] 等の調査をサーベイ。(source / article / ai-safety / rlhf) - [[joisino-面白さ優先分類器-2025]] — [[佐藤竜馬]] 2025-08-28。精度でなく「[[面白さ優先分類]]」を目的関数とする分類器 EUREKA。LLM の[[一対比較ランキング]]で面白い特徴を選ぶと「面白い特徴 1 つ」だけでも統計的有意な精度を達成。(source / article / feature-selection / llm) - [[joisino-LLMのキモい算術-2025]] — [[佐藤竜馬]] 2025-10-27。LLM の四則演算は [[ヒューリスティックの束]] として実装され、[[ロジットレンズ]] でニューロン単位の寄与を可視化できる([[LLM算術機構]]、Nikankin+ ICLR 2025)。(source / article / llm / interpretability) - [[joisino-訓練データ1個推論性能倍-2025]] — [[佐藤竜馬]] 2025-11-25。訓練データ 1 問の [[1サンプルRLVR]] でも 1209 問に匹敵する性能(Qwen2.5-Math-1.5B、MATH500 36→74%、6 ベンチ平均 17.6→35.7%)。問題選択基準は報酬分散、エントロピー正則化と内省語獲得が鍵。(source / article / reinforcement-learning / llm) - [[joisino-LLMの能力の穴-2026]] — [[佐藤竜馬]] 2026-01-26。最先端 LLM は流体力学・低レイヤープログラミングをこなしつつ、5 文字二進偶奇判定や 2×2 桁の掛け算で誤答する。「[[ゼロエラー境界]]」(ZEH)でモデル自身に問題サイズ限界を定めさせ[[LLM能力スパース性]]を可視化。(source / article / llm / evaluation) - [[joisino-LLMでソート-2026]] — [[佐藤竜馬]] 2026-02-09。LLM を[[LLM比較器]]として用い主観的・曖昧な基準でソート。ペアワイズ+クイックソートで推移性なしでも近似保証、セットワイズ・予測付きソートで呼び出し最小化。([[LLMランキング]]・[[LLM向け情報検索]])(source / article / llm / ir / sorting) - [[joisino-LLMと言葉の感じ方-2026]] — [[佐藤竜馬]] 2026-03-16。LLM 埋め込みのカテゴリ分類は人間と一致するが、典型度の順位相関は 0.15 以下と乖離。表現学習(word2vec/BERT)の方が順位相関 0.3〜0.4 と高い。次トークン予測の[[LLM意味表象]]への影響を[[認知意味論]]・[[プロトタイプ意味論]]視点で検証。[[Yann LeCun]] の次トークン予測限界主張の傍証。(source / article / llm / cognitive-semantics) - [[joisino-ICLR-2024-GNN]] — [[佐藤竜馬]] による 2024-05-15 ブログ記事。ICLR 2024 採択 GNN 論文 170 本（全体の 7.4%）を解釈性・[[GNN同変性]]・表現能力・分子基盤モデル等トピック別に概観。(source / article / machine-learning / graph-neural-network) - [[joisino-モデルパラメータ算術-2024]] — [[佐藤竜馬]] による 2024-01-09 ブログ記事。モデルスープ・[[タスクベクトル]]・NTK 理論・パーミュテーション対称性/Git Re-Basin のサーベイ。(source / article / machine-learning / model-merging) - [[@2026__SREcon26 Americas__Taming the Unpredictable - Reliability in Chaos]] — [[Michelle Brush]]([[Google]])、SREcon26 Americas 2026 講演動画。AI エージェントでソフトウェア作成が速く安くなるほど複雑性も増すと論じ、汎用緩和・実験・リスク先行開発・継続的検証を提示(source / video / sre / aiops) - [[@2022__arXiv__CausalRCA - Causal Inference based Precise Fine-grained Root Cause Localization for Microservice Applications]] — [[Ruyue Xin]]・[[Peng Chen (Xihua University)]]・[[Zhiming Zhao]]([[University of Amsterdam]] / [[Xihua University]])、arXiv:2209.02500(2022-09-06)。勾配ベース因果構造学習(DAG-GNN)で重み付き DAG を生成し PageRank でランキングする [[@2022__arXiv__CausalRCA - Causal Inference based Precise Fine-grained Root Cause Localization for Microservice Applications|CausalRCA]]。Sock-shop 細粒度 AC@3=0.719、ベースライン比平均 17% 改善。マイクロサービス RCA への勾配ベース手法初適用。(source / paper / aiops / rca / causal-inference / microservices) - [[@2022__CCGrid__Generic and Robust Performance Diagnosis via Causal Inference for OLTP Database Systems]] — [[Xianglin Lu]] ほか([[Tsinghua University]] / [[Nankai University]] / [[BizSeer]]、[[Dan Pei]] グループ)、CCGrid 2022。教師なし OLTP データベース根本原因箇所特定 **CauseRank**。G-GES + COPP で Oracle 本番 97 件・top-3=82.5%・top-5=93.8%・MAR=2.13。MicroCause 比 MAR 46.1% 改善・12.58 秒/障害。(source / paper / aiops / database / rca / causal-inference) - [[@2021__ISSRE__Identifying Root-Cause Metrics for Incident Diagnosis in Online Service Systems]] — [[Canhua Wu]]・[[Nengwen Zhao]]・[[Dan Pei]] ほか([[Tsinghua University]] / [[BNRist]] / [[China Construction Bank]] / [[BizSeer]])、ISSRE 2021(DOI:10.1109/ISSRE52982.2021.00020)。根本原因メトリクス特定 **PatternMatcher**。KS-test + 1-D CNN(13 種パターン、F1=0.98) + 重み付きランキングで大手商業銀行 4 データセット Avg@3=0.91。本番展開済み。(source / paper / aiops / sre / rca / ISSRE) - [[@2014__IEEE CLOUD__Scalability and Robustness of Time-Series Databases for Cloud-Native Monitoring of Industrial Processes]] — [[Thomas Goldschmidt]] ほか([[ABB Corporate Research]])、IEEE CLOUD 2014。OpenTSDB・KairosDB・Databus を AWS 最大 36 ノードでスマートグリッドワークロードにより評価。KairosDB が線形スケーラビリティ(403,500 値/秒)・ロバスト性で優位。OpenTSDB は HBase のメモリ不足で測定断念。産業用クラウドネイティブ [[時系列データベースベンチマーク]] の初の実証研究。(source / paper / database / time-series / cloud / industrial) - [[@2007__NSDI__X-Trace - A Pervasive Network Tracing Framework]] — [[Rodrigo Fonseca]]・[[George Porter]]・[[Randy H. Katz|Randy Katz]]・[[Scott Shenker]]・[[Ion Stoica]]([[University of California, Berkeley|UC Berkeley]] / [[ICSI]])、NSDI 2007。タスク識別子のインバンド伝搬 + レポートのアウトオブバンド収集の 2 原則と、pushDown()/pushNext() の 2 プリミティブで因果木を完全記述。クロスレイヤー・クロス管理ドメインの[[分散トレーシング]]を段階展開可能にする。[[Dapper]]・Zipkin・[[OpenTelemetry]] の直接の祖(source / paper / distributed / observability / tracing) - [[@2010__Google__Dapper - A Large-Scale Distributed Systems Tracing Infrastructure]] — [[Benjamin H. Sigelman]]・[[Luiz André Barroso]]・[[Mike Burrows]] ほか([[Google]])、2010。低オーバーヘッド + アプリ透過 + 偏在展開の 3 設計目標を共通ライブラリ計装 + 1/1024 適応サンプリングで両立、本番 2 年超稼働。スパン/トレース木/アノテーションのデータモデルが OpenTracing・W3C Trace Context・OpenTelemetry の事実上の標準を確立(source / paper / distributed / observability / tracing / google) - [[@2007__SIGCOMM__Towards Highly Reliable Enterprise Network Services via Inference of Multi-level Dependencies]] — [[Paramvir Bahl]]・[[Ranveer Chandra]]・[[Albert Greenberg]]・[[Srikanth Kandula]]・[[David Maltz]]・[[Ming Zhang (Microsoft Research)|Ming Zhang]]([[Microsoft Research]])、SIGCOMM 2007 (Sherlock)。Inference Graph(3 状態 up/troubled/down + 多層依存性) + Ferret 推論で 90.66% 障害箇所特定精度を達成、2 層 Shrink(58.61%) を 30% 上回る。Microsoft 本番 358 コンポーネントで 87% の障害が 16 コンポーネントに集中することを実証(source / paper / networking / aiops / fault-localization) - [[@2008__OSDI__Automating Network Application Dependency Discovery - Experiences, Limitations, and New Solutions]] — [[Xu Chen]]・[[Ming Zhang (Microsoft Research)|Ming Zhang]]・[[Z. Morley Mao]]・[[Paramvir Bahl]]([[University of Michigan]] / [[Microsoft Research]])、OSDI 2008 (Orion)。パケットヘッダ + タイミング情報のみ(ペイロード解析不要)で「遅延スパイクベース分析」により依存性発見。Sherlock 比偽陽性 10–95% 削減、eXpose 比 94–99% 削減(source / paper / networking / distributed / observability) - [[@2012__LISA__On the Accurate Identification of Network Service Dependencies in Distributed Systems]] — [[Barry Peddycord III]]・[[Peng Ning]]・[[Sushil Jajodia]]([[NC State University]] / [[George Mason University]])、LISA 2012。NSDMiner の比率→対数ベースランキング置換で偽陽性を大幅削減、利用頻度の低いサービスを類似クラスタから推論、LB/バックアップクラスタ自動検出で出力候補 25–50% 削減(source / paper / networking / distributed-systems / systems-administration) - [[@2017__arXiv__Sieve - Actionable Insights from Monitored Metrics in Microservices]] — [[Jörg Thalheim]] ほか([[TU Dresden]])、Middleware 2017 / arXiv:1709.06686。k-Shape クラスタリングでメトリクス次元 10–100 倍削減 + Granger 因果性によるコンポーネント間依存推定の 2 段プラットフォーム。OpenStack/ShareLatex 実装で CPU 80% / Storage 90% / Network 50% オーバーヘッド削減。マイクロサービス時代の因果ベース RCA の初期基盤(source / paper / aiops / microservices / monitoring / rca) - [[@2021__USENIX-ATC__Jump-Starting Multivariate Time Series Anomaly Detection for Online Service Systems]] — [[Minghua Ma]] ほか([[Sangfor Technologies]])、USENIX ATC 2021 (JumpStarter)。圧縮センシング + 形状ベースクラスタリング + 外れ値耐性サンプリングで訓練不要・20 分初期化の MTSAD を実現、3 データセット平均 F1=94.12% で SOTA を上回る。学習ベース MTSAD のコールドスタート問題への設計的回答(source / paper / aiops / anomaly-detection / time-series) - [[@1993__USENIX__The BSD Packet Filter A New Architecture for User-level Packet Capture]] — [[Steven McCanne]]・[[Van Jacobson]]([[LBNL]])、USENIX Winter 1993。[[BPF]] の一次ソース。ユーザー空間でパケットをコピーしてから filtering する CSPF に対し、カーネル内の小型レジスタベース VM + CFG ベース評価でカーネル側で先行フィルタリングする設計を提示し CSPF 比 20倍超高速化。`tcpdump`/`libpcap` の基盤、後の [[eBPF]] の直接の祖(source / paper / networking / observability / systems) - [[@2004__USENIX-ATC__Dynamic Instrumentation of Production Systems]] — [[Bryan Cantrill]]・[[Michael Shapiro]]・[[Adam Leventhal]]([[Sun Microsystems]])、USENIX ATC 2004。[[DTrace]] の一次ソース。プロダクション稼働中システムを統一的かつ絶対安全に動的計装する設計を初記述。**ゼロ・プローブ効果**(無効時は影響ゼロ)・D 言語・集約機構・投機的トレースの 4 技術が核。SunRay 上で gtik2_applet2 の GC 生成ループが X/OS に大量 mmap/munmap を誘発する性能問題を本番で初特定。現代 eBPF/perf/bpftrace の思想的先祖(source / paper / observability / instrumentation / systems) - [[@2018__SoCC__Weighted Sampling of Execution Traces - Capturing More Needles and Less Hay]] — [[Pedro Las-Casas]](UFMG)・[[Jonathan Mace]](MPI-SWS)・Dorgival O. Guedes(UFMG)・[[Rodrigo Fonseca]](Brown University)、SoCC 2018(DOI:10.1145/3267809.3267841)。分散トレースの均一ランダムサンプリングが頻出正常実行に予算を費やし稀少な異常・エラートレースを見逃す問題を定式化し、実行グラフのクラスタリングに基づく**重み付きサンプリング**(代表的サンプリング問題)で保存トレースの多様性を最大化。現代の[[トレースサンプリング]]研究(エッジサンプリング・カーディナリティ意識・SLO-aware sampling)の基盤(PDF 取得不可・abstract+メタデータのみで ingest、`confidence: medium`)(source / paper / distributed-tracing / sampling / observability) - [[@1992__CACM__Parallel Database Systems The Future of High Performance Database Systems]] — [[David DeWitt]]([[University of Wisconsin]])・[[Jim Gray]](DEC)、CACM 35(6):85–98、1992(DOI:10.1145/129888.129894)。[[並列データベース]] の基礎概念を体系化した古典マニフェスト。スピードアップ/スケールアップの 2 指標・startup/interference/skew の 3 脅威・シェアードメモリ/シェアードディスク/[[シェアードナッシング]]の 3 アーキテクチャ・[[データパーティショニング]](ラウンドロビン/ハッシュ/レンジ)・split/merge 演算子による並列化を定義。Teradata・Tandem・Gamma・Bubba を比較しシェアードナッシングが商業的勝者であることを実証。Grosch の法則の崩壊とコモディティ HW の台頭を論じた(source / paper / database / parallel / shared-nothing / CACM) - [[@2023__PVLDB__TSM-Bench - Benchmarking Time Series Database Systems for Monitoring Applications]] — [[Abdelouahab Khelifati]]・[[Mourad Khayati]]・Anton Dignös・[[Djellel Difallah]]([[NYU Abu Dhabi]])・[[Philippe Cudré-Mauroux]]([[University of Fribourg]] / [[eXascaleInfolab]])、PVLDB Vol.16, pp.3363–3376、2023。監視アプリケーション向け TSDB を最初に包括評価した[[時系列データベースベンチマーク]]。8 TSDB(InfluxDB・TimescaleDB ほか)× 7 クエリタイプ × TS-LSH 合成データ生成の評価基盤を構築。単一 TSDB が全ワークロードで最優秀になることはなく、ワークロード特性によって最適 TSDB が異なることを実証(source / paper / database / time-series / benchmark) - [[@2022__IPSJ JIP__Low Overhead TCP-UDP Socket-based Tracing for Discovering Network Services Dependencies]] — [[Yuuki Tsubouchi]]・[[Ryosuke Matsumoto]]・[[Masahiro Furukawa]]([[Hatena]])、IPSJ JIP Vol.30 pp.260-268、2022(DOI:10.2197/ipsjjip.30.260)。eBPF + Kprobes でエフェメラルポートをキーから除外しカーネル内でフローをバンドリングする **in-kernel flow bundling** 手法を提案。CPU オーバーヘッドを 2.2% 以下に抑える TCP/UDP ソケットベース [[ネットワーク依存性発見]]。実装: [[go-conntracer-bpf]](source / paper / observability / ebpf / networking / SRE) - [[@2022__PVLDB__Anomaly Detection in Time Series - A Comprehensive Evaluation]] — [[Sebastian Schmidl]]・[[Phillip Wenig]]・Thorsten Papenbrock([[Hasso Plattner Institute]] / University of Potsdam / Philipps University of Marburg)、PVLDB Vol.15, pp.1779–1797、2022(DOI:10.14778/3538598.3538602)。71 手法 × 976 データセットを網羅する[[時系列異常検知ベンチマーク]] **TimeEval** と合成[[時系列データ生成]]ツール [[GutenTAG]] を開発・公開。深層学習手法がコスト増に見合う精度優位を示せないこと、単一万能アルゴリズムが存在しないこと、DWT-MLEAD がコスト/性能比で最優秀(AUC-ROC 83%、2.2 ms/点)であることを実証(source / paper / anomaly-detection / time-series / benchmark) - [[@2022__arXiv__PromptCast - A New Prompt-based Learning Paradigm for Time Series Forecasting]] — [[Hao Xue]]・[[Flora Salim]]([[University of New South Wales]])、arXiv:2210.08964 / 2022-10-17 (v5 2023-12-10) / 18p / IEEE TNNLS 掲載。時系列予測の入出力を自然言語文に変換し言語モデルで sentence-to-sentence に予測する **PromptCast** パラダイムを最初に提案。[[PISA]] データセット(311,932 件・気温/電力/人流)+ Bigbird/Bart/LED 等のベンチで数値専用 Transformer/Informer/Autoformer と同等以上、ゼロショット汎化は数値モデルを大幅超過。GPT-3.5 はゼロショット精度が数値モデルより劣りコスト過大。LLM×時系列の最初期ベンチマーク(source / paper / time-series / llm) - [[@2023__NeurIPS__Large Language Models Are Zero-Shot Time Series Forecasters]] — [[Nate Gruver]]・[[Marc Finzi]]・[[Shikai Qiu]]([[New York University]])・[[Andrew Gordon Wilson]]([[New York University]] / [[Carnegie Mellon University]] 訪問)、NeurIPS 2023 / arXiv:2310.07820 / 30p。数値を桁列としてエンコードする [[LLMTime]] で GPT-3・LLaMA-2 70B がゼロショット時系列予測で ARIMA/TCN/N-HiTS と同等以上(Darts/Monash/Informer 29 データセット)。LLM の簡潔性バイアス + 反復バイアスが季節性・トレンドの構造と一致。GPT-4 は RLHF + トークン化変更で GPT-3 より悪化——アライメントが不確実性較正を壊す現象を初めて定量化(source / paper / time-series / llm / zero-shot) - [[@2023__NeurIPS__One Fits All - Power General Time Series Analysis by Pretrained LM]] — [[Tian Zhou]]・[[Rong Jin]]・[[Liang Sun]] ほか [[Alibaba DAMO Academy]]、NeurIPS 2023 / arXiv:2302.11939 / 34p。GPT-2 の self-attention・feedforward 凍結 + 位置埋め込みのみ学習する [[Frozen Pretrained Transformer]](FPT)で時系列 7 タスク SOTA(学習可能パラメータ 4.6〜6.12%、TimesNet 比計算優位)。**画像事前学習(BEiT)からの転移も有効**で言語→時系列に限らない汎ドメイン転移を実証、self-attention の勾配最小化が PCA と等価という理論的根拠を提示(source / paper / time-series / llm / transfer-learning) - [[@2024__arXiv__A Decoder-Only Foundation Model for Time-Series Forecasting]] — [[Abhimanyu Das]]・Weihao Kong・[[Rajat Sen]]・Yichen Zhou([[Google Research]])、arXiv:2310.10688 / 2023-10-16 / 21p / ICML 2024。**[[TimesFM]]** の原論文。decoder-only Transformer + パッチ入力 + 出力パッチ長 > 入力パッチ長(自己回帰ステップ削減・可変ホライズン対応)を組み合わせた 200M モデルを Google Trends 約 0.5B 点 + Wikipedia ページビュー約 300B 点 + 合成データの計約 100B 点で事前学習。Monash/Darts/ETT で教師あり SOTA(PatchTST/N-BEATS/DeepAR)にゼロショットで肉薄。17M/70M/200M で FLOPS に対し誤差単調減少し TSFM スケーリング則の前史を成す(source / paper / time-series / foundation-model / scaling) - [[@2026__techRxiv__From Pre-training to Post-training - A Survey on Time Series Foundation Models]] — [[Zhen Liu]]・[[Qianli Ma]]・[[Min Wu]] ほか([[South China University of Technology]] / [[Institute for Infocomm Research]] / [[Tianjin University]])、techRxiv プレプリント(DOI:10.36227/techrxiv.176978429.90235801/v2、24p、2026-02-11)。TSFM を「データセット — 事前学習 — 事後学習」の 3 次元タクソノミーで体系化した初の包括サーベイ。事後学習を SFT・協調(PLC: LoRA/Adapter、MLC: CLIP 流多モーダル、HLC: KD)・強化(reasoning-driven GRPO / non-reasoning PPO・DPO)の 3 パラダイムで整理。Table I で既存 7 サーベイとの比較、Table III-VI で 33 ソースデータセット・33 既存 TSFM・ターゲットデータセット・事後学習比較表を提供(source / paper / time-series / foundation-models / post-training / survey) - [[@2024__arXiv__AIOps Solutions for Incident Management]] — [[Youcef Remil]]・[[Anes Bendimerad]]・[[Romain Mathonat]]・[[Mehdi Kaytoue]]([[University of Lyon]] / [[INSA Lyon]] / [[CNRS]] UMR 5205 / [[Infologic]])、arXiv:2404.01363 (cs.OS, 2024-04-01, 82p, DOI:10.48550/arXiv.2404.01363)。AIOps for incident management の包括的サーベイ。6 能力モデル(Perception/Prevention/Detection/Location/Action/Interaction)と 4 フェーズ × 9 タスク手続き(reporting{Detection,Prediction} → triage{Prioritization,Assignment,Classification,Deduplication} → diagnosis{RCA,Correlation} → mitigation)を導入し、classification・deduplication・correlation を独立タスクとして明示。8 種データソース・4 層 Maintenance Strata(Technical/Application/Functional/Business)・9 軸 taxonomy・6 項目 desiderata(interpretability の internal/external/time 3 軸、in-context evaluation の contamination zone 注意)・40+ 件の公開データセット compendium を提示。Notaro+ 2021 の prevention 10.6% / remediation 2.5% 偏りを別データで再確認しつつ、pattern mining 等の descriptive 模型を predictive 模型の対等な相棒として推奨する独自の方向性(source / paper / aiops / survey / incident-management) - [[@2026__FSE__Attention Enhanced Entity Recommendation for Intelligent Monitoring in Cloud Systems]] — [[Fiza Husain]]・[[Anson Bastos]]・[[Anjaly Parayil]]・[[Ayush Choure]]・[[Chetan Bansal]]・[[Rujia Wang]]・[[Saravan Rajmohan]]([[Microsoft]])、FSE 2026 industry track(arXiv:2510.20640、12p)。Microsoft 本番のクラウドモニタにおける「ディメンション部分集合推薦」を、モニタ・メトリクス・ディメンションのヘテロジニアスグラフ上のランキング問題として定式化。マルチヘッド注意 HGNN にランダムウォーク経路注意(RWA)と注意ヘッド整列損失を加えた [[@2026__FSE__Attention Enhanced Entity Recommendation for Intelligent Monitoring in Cloud Systems|DiRecGNN]] を提案し、SAGEConv 等の最良ベースラインに対し HR@1 +55.8%・MRR +43.1%。10 名サービスオーナー有用性 4.5/5。[[@2024__ICSE-SEIP__Intelligent Monitoring Framework for Cloud Services - A Data-Driven Approach]] のメトリクス選定の続編(source / paper / aiops / cloud-monitoring / graph-neural-network / recommendation) - [[@2024__USENIX ATC__SuperBench - Improving Cloud AI Infrastructure Reliability with Proactive Validation]] — [[Yifan Xiong]] ほか17名([[Microsoft Research]] / [[Microsoft]])、USENIX ATC '24 Best Paper(17p)。AI クラウドのハードウェア冗長が生む「グレイ障害」を Azure A100 実データで定量化し、Cox-Time 生存解析 + CDF 類似度クラスタリング + 貪欲ベンチマーク選択からなるプロアクティブ検証システム [[SuperBench]] を提案。シミュレーションで MTBI 22.61×、Azure 本番 2 年で 10.36% のノードを欠陥除外。microsoft/superbenchmark で OSS(source / paper / reliability / aiops / gpu) - [[@2024__NSDI__Characterization of Large Language Model Development in the Datacenter]] — [[Qinghao Hu]] ほか([[Shanghai AI Laboratory]] / [[Nanyang Technological University]] / [[Peking University]] / [[Shanghai Jiao Tong University]] / [[SenseTime Research]] / [[The Chinese University of Hong Kong]])、NSDI '24 (22p)。[[Acme]] 4,704 A100 の 6 か月本番トレース。GPU ジョブ中央値 2 分・利用率 0/100% 二極化・Pretraining が件数 0.9〜3.2% で GPU 時間 69.5〜94.0%・Infrastructure 障害が件数 11%・GPU 時間 82%超。観測ベースで [[InternEvo]] に Fault-tolerant Pretraining(async checkpointing 3.6〜58.7×、Log Agent + Failure Agent + Vector Store + 2 段階 NCCL allgather)と Decoupled Scheduling for Evaluation(makespan 1.3〜1.8×)を実装、[[AcmeTrace]] を公開(source / paper / machine-learning-systems / distributed / aiops) - [[@2021__J Grid Computing__Automated Analysis of Distributed Tracing - Challenges and Research Directions]] — [[Andre Bento]]・[[Jaime Correia]]・[[Ricardo Filipe]]・[[Filipe Araujo]]・[[Jorge Cardoso]]([[University of Coimbra]] / [[Huawei Munich Research Center]])による Journal of Grid Computing Vol.19 Article 9(2021、DOI:10.1007/s10723-021-09551-5、15p)。OpenTracing 準拠データから [[OpenTracing Processor]] で service metrics・dependency graph・work-flow を抽出し、Isolation Forest で異常時間枠/サービスを検知。Huawei Cloud OpenStack 本番トレース 2 日分(190K–240K spans/日)で実証する一方、ゲートウェイ計装欠落で深掘りが頓挫し「精緻なアルゴリズムよりトレース品質改善が先」と診断。temporal coverage 指標と OpenTracing 仕様の 3 類型限界(data sufficiency / ontological / tools)を提示。後継 OpenTelemetry も「testability driver の再設計が薄い」と批判(source / paper / distributed-tracing / observability / aiops) - [[@2010__ACM CSUR__A Survey of Online Failure Prediction Methods]] — [[Felix Salfner]]・[[Maren Lenk]]・[[Miroslaw Malek]]([[Humboldt University of Berlin]])、ACM Computing Surveys Vol.42 No.3 Article 10、2010-03、42p、DOI:10.1145/1670679.1670680。オンライン障害予測を 4 主要枝(failure tracking / symptom monitoring / detected error reporting / undetected error auditing) × 26 サブカテゴリの taxonomy で約 50 手法を整理する古典サーベイ。fault/error/symptom/failure の 5 段階モデル(Avižienis 2004 の symptom 追加拡張)、(`t_d, t_l, t_p, t_w`) 4 パラメータでの時間軸定式化、稀事象向け評価指標(precision/recall, F-measure, ROC/AUC)、proactive fault management の 4 段階(予測 → 診断 → スケジューリング → 実行)を標準化(source / paper / dependability / aiops / failure-prediction / survey) - [[@2019__TCC__Cloud Container Technologies - A State-of-the-Art Review]] — [[Claus Pahl]]・[[Antonio Brogi]]・[[Jacopo Soldani]]・[[Pooyan Jamshidi]]([[Free University of Bozen-Bolzano]] / [[University of Pisa]] / [[Carnegie Mellon University]])による IEEE Transactions on Cloud Computing 2019 論文(DOI:10.1109/TCC.2017.2702586、16p)。2007-2016 のクラウドコンテナとオーケストレーション研究を 46 件 primary studies で体系的にマッピング(SMS)した初の secondary study。Technology Stack・Management Services・Architecture Setting・Tools/Platforms/Technology の 4 軸分類フレームワークを構築。[[Docker]]・[[LXC]] が支配的、[[Kubernetes]] 等が次点。Solution proposal 中心の formative stage で IaaS/PaaS がほぼ均等、デプロイ容易性が動機の主、品質関心は performance/resource utilisation/startup time/elasticity に集中。Borg の限界として障害管理(failure management)を未開拓と明示(source / paper / cloud / container / orchestration / systematic-mapping) - [[@2021__TIST__A Survey of AIOps Methods for Failure Management]] — [[Paolo Notaro]]・[[Jorge Cardoso]]・[[Michael Gerndt]]([[TU Munich]] / [[Huawei Munich Research Center]] / [[University of Coimbra]]) による ACM TIST 2021 サーベイ(DOI:10.1145/3483424、45p)。AIOps の Failure Management を proactive/reactive × 5 カテゴリ・14 サブカテゴリで 100 件整理。detection 33.7% / RCA 26.7% / online prediction 26.4% に対し prevention 10.6%・remediation 2.5% という研究密度の偏りを定量化し、マルチモーダル化・recovery 自動化・標準ベンチマーク確立を将来課題に挙げる(source / paper / aiops / survey) - [[@2018__TNSM__Mining Causality of Network Events in Log Data]] — [[Satoru Kobayashi]]・[[Kazuki Otomo]]・[[Kensuke Fukuda]]・[[Hiroshi Esaki]]（[[University of Tokyo]] / [[National Institute of Informatics]]）、TNSM 2018。[[SINET4]] の 456 日・35M 件 syslog に PC アルゴリズム + G-square 検定を適用した因果マイニング。フーリエ+線形回帰の周期フィルタが 93% を除去、後処理でトラブルチケット 74% 対応のエッジを 5.3 エッジ/日に絞る(source / paper / network / log-analysis / causal-inference) - [[@2022__KDD__Causal Inference-Based Root Cause Analysis for Online Service Systems with Intervention Recognition]] — [[Mingjie Li]]・[[Dan Pei]] ほか([[Tsinghua University]] / BizSeer)、KDD 2022(DOI:10.1145/3534678.3539041)。Pearl の Causal Hierarchy 第 2 層「介入認識(IR)」タスクとして RCA を初めて定式化(Theorem 3.4)し、構造グラフ + 回帰仮説検定(RHT) + 子孫調整からなる [[CIRCA]] を提案。Oracle DB 99 件で AC@1=0.404(ベースライン +25%)・分析 0.578s(source / paper / aiops / rca / causal-inference) - [[@2022__NeurIPS__Root Cause Analysis of Failures in Microservices through Causal Discovery]] — [[Azam Ikram]]・[[Saurabh Bagchi]]・[[Murat Kocaoglu]]([[Purdue University]])・[[Sarthak Chakraborty]] ほか([[Adobe Research]])、NeurIPS 2022。マイクロサービス障害を soft intervention としてモデル化し、F-NODE 近傍局所学習 + 階層分割統治 Ψ-PC からなる [[RCD]] を提案。コールグラフ不要、合成 100 ノード top-1 98% / 500 ノード 22 秒、Sock Shop・AWS 本番 3 障害で実証(source / paper / aiops / rca / causal-inference / microservices) - [[@2024__EuroSys__Automatic Root Cause Analysis via Large Language Models for Cloud Incidents]] — [[Yinfang Chen]] ほか([[Microsoft]] / UIUC / PKU / HUST / NUS)、EuroSys 2024(DOI:10.1145/3627703.3629553、arXiv:2305.15778)。LLM 強化オンコールシステム [[RCACopilot]]。アラート種別ハンドラ(DAG)で多種ソース診断情報を収集 → GPT-4 で要約 → FastText + 時間重み付き k-NN + few-shot CoT で根本原因カテゴリ予測。Microsoft Transport 1 年で Micro-F1=0.766。30 超チーム・4 年以上の本番稼働。情報スペクトラム問題(過多/不足の両端で性能低下)を実証(source / paper / aiops / rca / llm / incident-management / production) - [[@2022__ISSRE__Going through the Life Cycle of Faults in Clouds - Guidelines on Fault Handling]] — [[Xiaoyun Li]]・[[Guangba Yu]](共同第一著者)・[[Hongyang Chen]]・[[Zhekang Chen]]・[[Pengfei Chen]](責任著者)([[Sun Yat-sen University]] / [[Bizseer]])、ISSRE 2022、IEEEXplore 9978764。三大クラウド 354 件ポストモーテム分析によるクラウド障害ライフサイクル(TTD/TTI/TTM/TTR)の初の一貫実測。TTM=54.1 分(中央値)・MTTM=304.2 分が TTR の 53% を支配。設定ミスが最多根本原因(31.6%)、9 種緩和手段分布を定量化(source / paper / cloud-reliability / empirical-study) - [[@2011__SRDS__Identifying Faults in Large-Scale Distributed Systems by Filtering Noisy Error Logs]] — [[Xiang Rao]]・[[Huaimin Wang]] ほか（[[National University of Defense Technology]] / [[Alibaba Cloud]]）による IEEE 2011 論文。障害注入テスト中のノイズ障害 4 種類が障害特徴抽出を誤導することを定量化し、Haar ウェーブレット + DTW 類似度ベースのフィルタリング手法 SBF を提案。100 ノードクラスタ・280 万ログで適合率 96%・再現率 94% 達成(source / paper / log-analysis / distributed) - [[@2020__SoCC__ByteSeries - An In-Memory Time Series Database for Large-Scale Monitoring Systems]] — [[Xuanhua Shi]] ほか（HUST / [[ByteDance]] / [[National University of Singapore]] / [[University of Copenhagen]]）による SoCC 2020 論文。ByteDance 本番監視 100 億次元超でメタデータがメモリ 80% 超を占める問題を解析し、Compressed Inverted Index(trie + p4nzenc64)と 3 段メモリ構造を持つ[[ByteSeries]]を提案。元本番 TSDB [[tsdc]] 比でメタデータ −60%・全体メモリ −50%・多次元クエリ 1.8〜10.7 倍高速化(source / paper / time-series) - [[@2020__SAC__Black-box inter-application traffic monitoring for adaptive container placement]] — [[Francisco Neves]]・[[Ricardo Vilaça]]・[[José Pereira]]（[[HASLab]]-INESC TEC / [[University of Minho]]）による SAC 2020 論文。eBPF KernelAgg で 9% 未満のオーバーヘッドで重み付き通信グラフを構築し、Cassandra+Spark の[[コンテナ配置最適化]]に適用。Q1 手動配置で −99.3% 転送量削減・−12% 実行時間短縮(source / paper / distributed / ebpf) - [[@2025__SIGMOD__B-Trees Are Back - Engineering Fast and Pageable Node Layouts]] — [[Marcus Müller]]・[[Lawrence Benson]]・[[Viktor Leis]]（[[TU Munich]]）による SIGMOD/PACMMOD 2025 論文。可変長レコードを支援する可ページング [[B-Tree]] で、6 種のノードレイアウト最適化と適応 leaf layout を評価。FDL は dense integer で lookup +71%・insert +213%・scan +105%、[[vmcache]] 統合で out-of-memory でも baseline を上回る場合がある。(source / paper / database) - [[@2025__SIGMOD__Rethinking The Compaction Policies in LSM-trees]] — [[Hengrui Wang]] ほか [[Tsinghua University]] による SIGMOD/PACMMOD 2025 論文。LSM ツリーのコンパクションを将来の平均クエリスループットへの CPU/I/O 投資として捉え直し、三レベルモデルと動的計画法ベースの [[EcoTune]] を提案。[[RocksDB]] 評価で Leveling 比 1.5〜3 倍、Lazy Leveling 比最大 1.8 倍の平均クエリスループットを達成(source / paper) - [[@2025__arXiv__Humanity's Last Exam]] — [[Long Phan]]・[[Dan Hendrycks]] ほか [[Center for AI Safety]] / [[Scale AI]] による arXiv 2025 論文（arXiv:2501.14249）。飽和した既存ベンチマーク（MMLU 等）を超える最前線学術ベンチマーク HLE を提案。50 か国・500+ 機関・約 1,000 名の専門家が 100+ 科目・2,500 問を設計。最先端モデルでも正解率 13.4% 以下・RMS キャリブレーション誤差 73〜89%(source / paper) - [[@2023__CNCF TAG Observability__Observability Whitepaper]] — [[CNCF]] [[TAG Observability]] が策定したクラウドネイティブオブザーバビリティのホワイトペーパー（v1.0、2023）。5 シグナル・シグナル間相関・SLO ベースバーンレートアラート・エコシステムギャップ 4 点を体系化。[[OpenTelemetry]] を業界標準として位置づける(source / whitepaper) - [[@2026__OTelBlog__OTel-Arrow-Phase-2]] — [[OTel-Arrow]] SIG、2026。[[OTAP]] が単一コアで [[OpenTelemetry|OTLP]] 比 20× スループット。[[OTel-Arrow Dataflow Engine]](Rust、incubation-stage)で Arrow をパイプライン内部表現として採用(source / article / observability / opentelemetry) - [[@2026__OTelDocs__OBI - OpenTelemetry eBPF Instrumentation]] — [[OpenTelemetry]] サブプロジェクト。[[eBPF]] プローブで 9 言語 × 8 プロトコル × 6 DB をアプリケーション変更なしにトレース・メトリクス収集。GenAI プロバイダ（OpenAI・Anthropic・Gemini・Bedrock・Qwen）の[[ゼロコード計装]]も提供(source / article / observability / ebpf / opentelemetry) - [[@2026__OTelBlog__OBI HTTP Header Enrichment]] — [[OBI]] v0.7.0。HTTP ヘッダエンリッチメントでスパンにテナント ID 等のリクエストコンテキストを設定変更のみで付与。インシデント対応時の影響範囲特定を高速化(source / article / observability / ebpf / opentelemetry) - [[@2026__OTelBlog__GenAI Observability with OpenTelemetry]] — [[OpenTelemetry]] セマンティック規約で GenAI 操作（`invoke_agent` → `chat` / `execute_tool`）を標準化。VS Code Copilot・OpenAI Codex・Claude Code が OTel テレメトリを送出。`gen_ai.client.operation.duration` と `gen_ai.client.token.usage` でコスト推定・レイテンシ監視(source / article / observability / genai / opentelemetry) - [[@2026__OTelBlog__OTel Collector Follow-up Survey]] — End User SIG 2025 年調査。65% が 10 台超の Collector を本番運用（+10%）、VM 51%（+18%）でハイブリッド化進行。46% がカスタムビルド、設定管理（63%）と安定性（52%）が最優先改善領域(source / article / observability / opentelemetry) - [[@2026__OTelBlog__Japanese Community Survey]] — 日本の OTel コミュニティ調査。61% が本番運用、NPS +49。トレースが 93% で最多シグナル（メトリクス首位の国際パターンと乖離）。Go のエバリュエーション→プロダクション移行率が最大(source / article / observability / opentelemetry) - [[@2026__OTelBlog__Log Deduplication Processor]] — [[OpenTelemetry]] Collector のログ重複排除プロセッサ。ハッシュベースで同一ログを集約し `log_count` と時間範囲を保持。サンプリングと異なりデータを破棄しない。OTTL 式で条件指定可能(source / article / observability / opentelemetry) - Entities: [[OBI]] - Concepts: [[ゼロコード計装]], [[GenAI オブザーバビリティ]], [[ログ重複排除]] - [[@2020__arXiv__Scaling Laws for Autoregressive Generative Modeling]] — [[Tom Henighan]]・[[Jared Kaplan]] ほか [[OpenAI]] による arXiv 2020 論文。スケーリング則 $L(x) = L_\infty + (x_0/x)^{\alpha_x}$ が画像・動画・マルチモーダル・数学的問題求解に成立し、最適モデルサイズの指数 $\beta \approx 0.7$ が全モダリティで普遍的に一定であることを実証(source / paper) - [[@2022__NeurIPS__Chain-of-Thought Prompting Elicits Reasoning in Large Language Models]] — [[Jason Wei]]・[[Denny Zhou]] ほか（[[Google Brain]]）による NeurIPS 2022 論文。プロンプト例示に連鎖思考ステップを加えるだけで PaLM 540B が GSM8K SOTA を達成。約 100B パラメータ以上の創発的能力として同定(source / paper) - [[@2020__arXiv__Scaling Laws for Neural Language Models]] — [[Jared Kaplan]]・Sam McCandlish ほか [[OpenAI]] による arXiv 2020 論文。Transformer 言語モデルの損失がモデルパラメータ数・データ量・計算量に対してべき乗則でスケールすることを 7 桁以上で実証。$N_{\text{opt}} \propto C^{0.73}$、$D_{\text{opt}} \propto C^{0.27}$（アーキテクチャ詳細への弱依存性も定量化）(source / paper) - [[@2024__arXiv__DeepSeekMath - Pushing the Limits of Mathematical Reasoning in Open Language Models]] — [[DeepSeek-AI]] / [[Tsinghua University]] / [[Peking University]] による arXiv 2024 論文。DeepSeekMath 7B を提案し、外部ツールなしで MATH 51.7%・Self-consistency 60.9% を達成。120B 数学トークンの fastText 反復収集コーパスと [[GRPO]](Group Relative Policy Optimization)を初提案。価値モデル廃止によるメモリ削減と 7B で Minerva 540B 超の効率を示す(source / paper) - [[@2026__arXiv__From Detection to Recovery - Operational Analysis on LLM Pre-training with 504 GPUs]] — [[Daemyung Kang]] ほか [[Lablup Inc]] による arXiv 2026 / Lablup Technical Report。63 ノード・504 NVIDIA B200 GPU の本番クラスタで、55 日の Prometheus 時系列、73 日の運用ログ、224 セッションを分析。単一支配メトリクスなし、NFS/RPC queue time、ノード除外集中、自動リトライ成功率 33.3% を報告(source / paper) - [[@2023__NSDI__Empowering Azure Storage with RDMA]] — [[Wei Bai]] ほか [[Microsoft]] による NSDI 2023 論文。[[Azure Storage]] のフロントエンド/バックエンド通信を [[RDMA]] 化し、RoCEv2、PFC/DCQCN、[[SONiC]]、[[RDMA Estats]] を組み合わせてリージョン内規模で展開した経験を報告(source / paper) - [[@2024__ASE__Root Cause Analysis for Microservices based on Causal Inference - How Far Are We]] — [[Luan Pham]]・[[Huong Ha]]（[[RMIT University]]）・[[Hongyu Zhang]]（[[Chongqing University]]）による ASE 2024 論文。PC/FCI/LiNGAM/Granger 等 9 種の因果探索アルゴリズムと 21 種の因果推論ベース RCA 手法を包括評価。Dummy ベースラインを初めて導入し、多くの手法が Dummy 同等と判明。BARO・CausalRCA・RCD・CIRCA・NSigma が最良。評価フレームワーク [[RCAEval]] をオープンソース公開(source / paper) - [[@2026__Cluster Computing__Anomaly detection and root-cause identification in microservices - a survey]] — 2012〜2025 年のマイクロサービス異常検知・根本原因特定研究を、データ収集・検知手法・RCA 手法・評価指標・テストベッド/データセット・Trusted Distributed AI の軸で整理する [[Cluster Computing]] 2026 サーベイ。117 研究を対象に、ログ/トレース/監視メトリクスと機械学習/グラフ/統計手法の地図を与える(source / paper) - [[@2024__CIKM__RCAgent - Cloud Root Cause Analysis by Autonomous Agents with Tool-Augmented Large Language Models]] — [[Zefan Wang]] ほかによる CIKM 2024 論文。[[Alibaba Cloud]] の Apache Flink RCA を対象に、社内配置 LLM とツール拡張自律エージェント [[RCAgent]] を提案。OBSK、専門エージェント、JsonRegen、TSC により ReAct を上回り、OoD ジョブ診断に統合(source / paper) - [[@2026__IEEE CAI__A System-Level Taxonomy of Failure Modes in Large Language Model Applications]] — [[Vaishali Vinay]]（[[Microsoft]] Security Research）による IEEE CAI 2026 論文。LLM アプリケーションの隠れた失敗を、推論・入力/コンテキスト・システム/運用の 3 層 15 種に分類し、静的ベンチマークが安定性・再現性・ドリフト・ワークフロー統合を測れない評価ギャップと、入力正規化・検証レイヤー・意味的オブザーバビリティ・コスト統制の必要性を整理(source / paper) - [[VictoriaMetrics-KubeCon-EU-2026-Sampling|@2026__VictoriaMetrics Blog__KubeCon EU 2026 Retroactive Sampling]] — [[Zhu Jiekun]]（[[VictoriaMetrics]]）が KubeCon EU 2026 で発表したレトロアクティブサンプリング。最小属性（33 バイト）のみ中央コレクタへ送りエッジでオンディスク FIFO バッファリング。テールサンプリング比 CPU/メモリ 60–70% 削減。[[VictoriaTraces]] vtagent に 2026 下半期統合予定(source / article) - [[@2026__Glenn K. Lockwood Blog__AI doesnt need giant supercomputers after all]] — [[Glenn K. Lockwood]]（元 Microsoft、現 [[VAST Data]]）の 2026-05-08 ブログ記事。超大規模 AI 訓練クラスタへの懐疑論。OpenAI の超大規模モデルが GPT-4o 比 15 倍のトークン単価で経済破綻・非推奨化された経緯を論じ、「賢さ vs 規模」パラダイム転換と[[Microsoft Fairwater]]・[[AWS Rainier]]の残存価値を整理(source / article) - [[@2023__CSUR__Optimization Techniques for GPU Programming]] — [[Pieter Hijma]] ほか [[Vrije Universiteit Amsterdam]]・[[Netherlands eScience Center]]、ACM Computing Surveys 2023。450 本の GPU 最適化論文を 4 テーマ・28 技術に体系化。コアレスドアクセス・専用メモリ・分岐発散削減・auto-tuning が採用頻度トップ 4(source) - [[@2025__Anthropic Engineering Blog__A Postmortem of Three Recent Issues]] — [[Anthropic]] による 2025 年 8〜9 月の 3 件の本番 LLM インフラ障害（ルーティングエラー・TPU 出力破壊・XLA:TPU コンパイラバグ）のポストモーテム。評価カバレッジ問題とプライバシー vs 可観測性のトレードオフを明示(source) - [[@2026__LinkedIn__Resilient AI Supercomputer Networking - How MRC and SRv6 Keep 100,000+ GPUs Training]] — [[Ravi Sharma]] による [[OpenAI]] 研究解説(2026-05-28)。[[MRC]]・[[マルチプレーンClosトポロジ]]・[[SRv6]] で 10 万 GPU 超の訓練継続性を実現する「検知・回避・回復」アーキテクチャを解説(source) - [[@2026__arXiv__Bian Que - An Agentic Framework with Flexible Skill Arrangement for Online System Operations]] — [[Bochao Liu]] ほか [[Kuaishou Technology]] による arXiv 2026。統一運用パラダイム・[[Flexible Skill Arrangement]]・統一自己進化メカニズム。KuaiShou 6 ヶ月本番でアラート量 75% 削減・RCA 精度 80%・pass@5 = 99.0% - [[@2008__SIGMOD__OLTP through the looking glass, and what we found there]] — [[Stavros Harizopoulos]]（HP Labs）・[[Daniel J. Abadi]]（Yale）・[[Samuel Madden]]（MIT）・[[Michael Stonebraker]]（MIT）、SIGMOD 2008。Shore RDBMS を TPC-C で段階的改変し 4 コンポーネントの命令数内訳を精密計測。全除去で 640→12,700 TPS（約 20 倍）、「高い杭なし」を定量化 - [[@2024__yuuk.io__SRE-NEXT-2024]] — [[Yuuki Tsubouchi]] の SRE NEXT 2024 登壇報告。「工学としてのSRE再訪」で技芸から工学への転換フレームワークと6つのSREオープンチャレンジを提示。ベストスピーカー賞受賞 - [[@2025__HPCA__Revisiting Reliability in Large-Scale Machine Learning Research Clusters]] — [[Meta]] の RSC-1/RSC-2 の大規模 ML 研究クラスタ信頼性分析。11 か月・4 百万ジョブ・1.5 億超 A100 GPU 時間、MTTF の GPU 数反比例、ETTR 推定式、レモンノード検知、InfiniBand 適応ルーティングを提示(HPCA 2025, DOI:10.1109/HPCA61900.2025.00096) - [[@2019__USENIX ATC__Analysis of Large-Scale Multi-Tenant GPU Clusters for DNN Training Workloads]] — Microsoft のマルチテナント GPU 訓練クラスタ [[Philly]] の 75 日・96,260 ジョブの本番トレース分析。ギャングスケジューリング、局所性制約、fragmentation delay、GPU 利用率平均 52.32%、失敗ジョブの GPU 時間浪費を定量化(USENIX ATC 2019) - [[@2025__さくらのナレッジ__分散推論基盤やその前提の考え方]] — [[道下幹也]]（[[SAKURA Internet]]）による LLM 分散推論基盤連載 vol.1。性能指標体系（TTFT/ITL/TPOT/E2EL/TPS/RPS/Goodput）、KV Cache 中心設計、バッチ戦略 4 種、PD 分離の利点・欠点・KV Cache 転送ボトルネック（さくらのナレッジ 2025-11-11） - [[@2025__さくらのナレッジ__分散推論基盤の基礎技術]] — 連載 vol.2。Scale Up/Out Network、GPUDirect RDMA（PeerDirect vs dma-buf）、UCX/NIXL のアーキテクチャ、H100 HGX × 2 台で NIXL ベンチマーク（NVLink 400GB/s 達成、リモート 50GB/s＝物理帯域上限に収束）（さくらのナレッジ 2025-12-23） - [[@2026__さくらのナレッジ__高火力PHYを利用した分散推論基盤の性能検証]] — 連載 vol.3。PD 分離の実測（vLLM+LMCache+NIXL、H100 HGX、gpt-oss-120b）。入力 8k で 32 並列 ITL P99<30ms（Aggregated >100ms）、入力 1k では Aggregated が同等以上。メリットはワークロード依存（さくらのナレッジ 2026-03-25） - [[@2026__Zenn__MLエンジニアのための本質から理解するLLM推論]] — [[Kazuki Fujii]]（[[東京科学大学]]）による LLM 推論ベンチマーク入門。ISL/OSL/TTFT/ITL/TPS 定義体系、ツール間の ITL 定義差異、「計算内容の本質的理解が不可欠」（Zenn 2026-05-30） - [[@2025__NVIDIA__LLM-Inference-Benchmarking-Fundamental-Concepts]] — [[NVIDIA]] によるLLM 推論ベンチマーク基礎解説。ユースケース別 ISL/OSL プロファイル（翻訳/生成/要約/推論）、[[GenAI-Perf]] vs LLMPerf のメトリクス計算差異、ロードテストとパフォーマンスベンチマークの区別（NVIDIA Developer Blog 2025-04-02） - [[@2026__arXiv__A Microservice-Based Platform for Sustainable and Intelligent SLO Fulfilment and Service Management]] — TU Wien の [[Juan Luis Herrera]] らによるカーボン認識 SLO 充足プラットフォーム [[CASCA]]。MSA 原則 + EMMa マイクロサービスでカーボンフットプリントを報酬に組み込み、宣言的設定管理で命令的手法比 -53.7 秒(arXiv:2602.12875, 2026) - [[@2024__SOSE__Diffusing High-level SLO in Microservice Pipelines]] — TU Wien の [[Boris Sedlak]] らによるベイズネットワーク SLO 拡散方法論。高レベル SLO を自動的に低レベルへ分解、充足率 83〜100%(IEEE SOSE 2024) - [[@2020__NSDI__Meaningful Availability]] — Google の [[Tamás Hauer]] らによるウィンドウ付きユーザーアップタイム。有意義性・比例性・実用性の三要件を同時に満たす初の可用性指標、G Suite 本番で評価・展開(NSDI 2020) - [[@2019__HotOS__Nines are Not Enough - Meaningful Metrics for Clouds]] — Google の [[Jeffrey C. Mogul]]・[[John Wilkes]] による SLE/CBE 枠組み。ナイン表現の限界を指摘し法律家的思考から統計家的思考への転換を提唱(HotOS 2019) - [[@2017__HotOS__Thinking about Availability in Large Service Infrastructures]] — Google の [[Jeffrey C. Mogul]] らによる可用性のセキュリティ的思考。スレットモデリング・深層防御・フェイルスタティック設計を提唱(HotOS 2017) - [[@2024__MSR__FLASH - A Workflow Automation Agent for Diagnosing Recurring Incidents]] — ステータス監視と hindsight 統合で反復インシデント診断を自動化する Microsoft の LLM ワークフローエージェント [[FLASH]]。本番 250 件・5 シナリオで [[TaskWeaver]] 比 +13.2%、TSG 品質(Ambiguous Action 約 40%・Pass 約 8.5%)が律速と定量化([[TSG自動化]] の中心、Microsoft Research 2024) - [[@2025__arXiv__StepFly - Agentic Troubleshooting Guide Automation for Incident Diagnosis]] — TSG 自動化の 3 段エージェント型フレームワーク [[StepFly]]([[TSG Mentor]] で品質改善 / オフライン DAG+QPP 抽出 / オンライン並列 scheduler-executor)。92 TSG 実証、GPT-4.1 約 94%・実行時間 32.9〜70.4% 削減(Tsinghua×Microsoft、arXiv:2510.10074) - [[@2024__OSR__LLexus - an AI agent system for incident management]] — LLM を計画フェーズに前置し TSG を BPMN 風フローチャートへコンパイル、実行時は [[Azure Durable Functions]] で決定論的に実行する Microsoft のインシデント管理エージェント [[LLexus]]。計画は 1 TSG あたり $0.60〜$1.71 の一回払い(ACM SIGOPS OSR 2024, DOI:10.1145/3689051.3689056) - [[@2026__arXiv__Large Language Models for Agentic NetOps and AIOps - Architectures, Evaluation, and Safety]] — agentic [[NetOps]]/AIOps の信頼性はモデルでなくモデル周辺機構(typed tool interface・provenance retrieval・budget/stopping rule・least-privilege・書き込み境界の verification gate)から来ると、autonomy hierarchy/tool scope/evidence trace/[[エージェント運用安全性|assurance contract]] の 4 軸で文献統合するサーベイ(Bilal+, arXiv:2605.12729, 2026) - [[@2026__arXiv__LLM4Log - A Systematic Review of Large Language Model-based Log Analysis]] — LLM ベースログ解析の初のエンドツーエンド systematic review。ログ生成→パース→表現→下流(異常検知/障害予測/RCA/要約)で 145 論文(2020–2025)をタクソノミー化、5 設計パターンと評価ギャップを横断分析(Concordia SPEAR lab、arXiv:2604.16359, 2026) - [[@2025__arXiv__Automated Cloud Infrastructure-as-Code Reconciliation with AI Agents]] — IaC drift 修復のエージェントシステム NSync(UMich/AWS、arXiv:2510.20211, 2025) - [[@2025__AIOps__Automated Lifting for Cloud Infrastructure-as-Code Programs]] — IaC lifting のニューロシンボリック手法 Lilac のビジョン論文(UMich/UCSD、AIOps 2025 / ICSE workshop) - [[@2025__MLSys2025__AIOpsLab - A Holistic Framework to Evaluate AI Agents for Enabling Autonomous Clouds]] — MLSys 2025(arXiv:2501.06706) - [[@2026__arXiv__SREGym - A Live Benchmark for AI SRE Agents with High-Fidelity Failure Scenarios]] — arXiv:2605.07161(2026) - [[@2025__NeurIPS2025__STRATUS - A Multi-agent System for Autonomous Reliability Engineering of Modern Clouds]] — 自律 SRE マルチエージェント + 安全仕様 TNR を形式化(PDF 本文取り込み済み、NeurIPS 2025, arXiv:2506.02009) - [[@2025__ICML2025__ITBench - Evaluating AI Agents across Diverse Real-World IT Automation Tasks]] — SRE/CISO/FinOps 3 ペルソナ 102 シナリオの IT 自動化ベンチマーク。SOTA でも SRE 11.4%・Hard 緩和 0%・トレース除去で診断急落(IBM/UIUC、ICML 2025, PMLR v267) - [[@2026__AAAI__PAGER - Proactive Monitoring Agent for Enterprise AI Assistant]] — AAAI-26 デモ(DOI:10.1609/aaai.v40i48.42344) - [[@2025__arXiv__MicroRemed - Benchmarking LLMs in Microservices Remediation]] — arXiv:2511.01166(2025、PKU/Alibaba) - [[@2026__GoogleSRE__AI in SRE - Engineering the Future of Reliable Operations]] — Google SRE の AI-Ops ホワイトペーパー(L0–L4 自律レベル・Safety Trifecta、sre.google) - [[@2026__Google Cloud Blog__AI in SRE - Where Google is Deploying Agentic AI to Improve Operations]] — Google SRE AI の SDLC 全体スコープと本番スタック公開製品名(Gemini + Gemini Enterprise Agent Platform[旧 Vertex AI] + ADK + MCP + BigQuery + vector DB)・AI Insights・TimesFM 連携・IMAG agentic orchestration layer・9 つの設計原則(cloud.google.com、Malesevic/Heiser、2026-05-29) - [[@2026__Datadog__Building Bits AI SRE - Autonomous Incident Investigation Agent]] — Datadog の自律 RCA エージェント Bits AI SRE の設計・評価ブログ(産業界 2 例目、datadoghq.com) - [[@2026__Datadog__Production-Grounded Benchmarks for AI Code Optimization]] — [[DODO]] 紹介ブログ。CPU プロファイル+Live Debugger で本番接地型ベンチマーク生成、成熟 Go サービス CPU コスト 8%+ 削減(Datadog、2026-06-08) - [[@2026__arXiv__Toto 2.0 - Time Series Forecasting Enters the Scaling Era]] — Datadog AI Research / CMU の Toto 2.0 arXiv 技術レポート。TSFM 初のスケーリング則確立。NorMuon・CPM・u-μP・定量的出力ヘッドの詳細設計と全ベンチ SOTA(arXiv:2605.20119, 19p, 2026-06-05) - [[@2026__Datadog__Toto-2.0-Time-Series-Forecasting-Enters-the-Scaling-Era]] — Datadog の Toto 2.0 ブログ。4M〜2.5B の 5 サイズ family でスケーリング則を実証。CPM・u-μP の 2 革新。BOOM/GIFT-Eval/TIME 全ベンチで上位独占(Datadog blog, 2026-05-14, arXiv:2605.20119) - [[@2025__NeurIPS2025__This Time is Different - An Observability Perspective on Time Series Foundation Models]] — Datadog の観測データ特化 TSFM Toto とベンチマーク BOOM(NeurIPS 2025, arXiv:2505.14766) - [[@2026__arXiv__Falcon-X - A Time Series Foundation Model for Heterogeneous Multivariate Modeling]] — Ant International の異種多変量向け TSFM Falcon-X(591M、潜在プロトタイプルーティング)。GIFT-Eval で全体最高(arXiv:2605.27286, 2026) - [[@2024__IEEE Access__MetricSifter - Feature Reduction of Multivariate Time Series Data for Efficient Fault Localization in Cloud Applications]] — 障害箇所特定の前処理の特徴量削減フレームワーク MetricSifter(本 vault 所有者自身の論文・LLM 以前の統計手法、IEEE Access 2024, DOI:10.1109/ACCESS.2024.3374334) - [[@2025__Kyoto University__Scaling Telemetry Workloads in Cloud Applications - Techniques for Instrumentation, Storage, and Mining]] — Yuuki Tsubouchi の京大博士論文。テレメトリの 3 層(計装/ストレージ/マイニング)で既発表 3 編を統合(Kyoto University, 2025-03, 112p) - [[@2019__yuuk.io__2019-SRE-Thinking]] — [[Yuuki Tsubouchi]] による 2019 年の SRE 考察。「信頼性を制御する」目的論的 SRE 定義と技芸→工学への転換テーゼを提示。著者の SRE 思想の起点(blog.yuuk.io, 2019-01-16) - [[@2024__yuuk.io__The-World-of-LLM4SRE]] — [[Yuuki Tsubouchi]] (y_uuki) 著の LLM4SRE フィールドサーベイ記事。ファインチューニング/RAG/エージェント型の 3 分類と将来課題(スナップショット戦略・Runbook 統合・説明可能性・人間-AI 協調)を整理した 2024 年時点の地図(blog.yuuk.io, 2024-03-21) - [[@2021__yuuk.io__Linux eBPF Tracing Technology]] — [[Yuuki Tsubouchi]] による eBPF トレーシング技術の体系的解説。BPF アーキテクチャ(VM/Verifier/JIT/Maps)・イベントソース(Kprobe/Uprobe/tracepoint/USDT)・開発ツールチェーン([[BCC]]→[[bpftrace]]→[[libbpf]]+CO-RE)・推奨開発ワークフローを網羅(ゆううきブログ, 2021-12-28) - [[@2026__Vicinagearth__Efficient Training of Large Language Models on Distributed Infrastructures - A Survey]] — LLM 分散訓練システム/インフラの包括サーベイ。SER の 3 軸でインフラ・並列化・最適化・耐障害性を分類(本 wiki 初の LLM 訓練インフラ・別ドメイン、arXiv:2407.20018 / Vicinagearth 2026) - [[@2024__NSDI__MegaScale - Scaling Large Language Model Training to More Than 10,000 GPUs]] — ByteDance/PKU の 10,000 GPU 超 LLM 訓練本番システム。175B を 12,288 GPU・55.2% MFU(Megatron-LM 比 1.34×)。上記サーベイの SER 3 軸を本番システムで具体化(NSDI '24) - [[@2026__MLSys2026__SAKURAONE - An Open Ethernet-Based AI HPC System]] — SAKURA Internet の 800 GPU オープン Ethernet AI–HPC クラスタ SAKURAONE の経験報告。SONiC+RoCEv2 で TOP500 HPL 49 位・トップ 100 唯一のフルオープンなネットワーキングスタック。単一テナント LLM 開発のワークロード動態を観測(vault 所有者 Yuuki Tsubouchi 共著、MLSys 2026, arXiv:2604.13600) - [[@2025__NSDI__Minder - Faulty Machine Detection for Large-scale Distributed Model Training]] — ByteDance/Tsinghua/Harvard の分散訓練向け自動 faulty machine detector Minder。3D parallelism のメトリクス均質化を逆手に類似度 + 連続性 + per-metric LSTM-VAE で machine-level に教師なし特定。本番 1 年超、precision 0.904・F1 0.893・3.6 秒。MegaScale のハートビート系復旧を補完(NSDI '25) - [[@2026__ASPLOS__Pulse - Fine-grained and Non-intrusive LLM Training Monitoring via Microsecond-level Traffic Measurement]] — Nanjing University の LLM 訓練のトラフィック中心監視システム Pulse。BlueField-3 上でマイクロ秒 RDMA 計測 → オペレータセグメンテーション → 実通信時間/通信量で machine-level の箇所特定。非侵入的(コード/CCL 改変不要)、64 H200 で 12 中 10(SOTA は 4・2 誤診)、precision >90%・recall 100%・約 6 秒・オーバーヘッド無視可能。Minder の「マイクロ秒監視はオーバーヘッドで未展開」を on-NIC off-path 計測で解消(ASPLOS '26) - [[@2026__ICSE__An Empirical Study of Production Incidents in Generative AI Cloud Services]] — Microsoft の GenAI クラウドサービス(Azure OpenAI 等)の本番インシデント 4 年分の初の大規模実証研究。TTM が非 GenAI 比 1.83 倍、人手検知 38.3%、症状と根本原因の多対多マッピング(ICSE 2026, arXiv:2504.08865) - [[@2026__ICML__TelecomTS - A Multi-Modal Observability Dataset for Time Series and Language Analysis]] — Yale University の 5G 通信ネットワーク由来の大規模マルチモーダルオブザーバビリティデータセット TelecomTS。非匿名化・絶対スケール保持の 18 KPI、32K サンプル・11 異常タイプ・221 万 Q&A。スケール情報の除去が RCA で最大 +30.4 ポイントの劣化を招くことを定量化。Toto が観測データ事前学習により RCA 精度 0.848 で突出(ICML 2026, arXiv:2510.06063) - [[@2025__CSUR__A Survey of AIOps in the Era of Large Language Models]] — PKU の [[Lingzhe Zhang]]・[[Tong Jia]]・[[Ying Li]] らによる LLM4AIOps の初の包括的サーベイ。AIOps 全工程をデータ(RQ1)・タスク(RQ2)・手法(RQ3)・評価(RQ4)で俯瞰し、2020-01〜2024-12 の論文を分析。タスクを Failure Perception → RCA → Assisted Remediation の 3 段に整理、LLM 時代の新タスクと緩和の自動化 5 段、手法 5 系統を体系化。本 wiki が一次ソースで持つ [[AIOpsLab]] を全ライフサイクルベンチの代表として参照する「フィールドの地図」(ACM Computing Surveys 採録, arXiv:2507.12472, DOI:10.1145/3746635) - [[@2025__arXiv__Rethinking the Evaluation of Microservice RCA with a Fault Propagation-Aware Benchmark]] — CUHK-Shenzhen の [[Aoyang Fang]]・[[Pinjia He]] らによるマイクロサービス RCA 評価ベンチマークの妥当性研究。単純ヒューリスティック SimpleRCA が 4 公開ベンチで SOTA に匹敵し、既存ベンチの過度な単純さ(障害ケースの 86% が Type I/II、99% が観測データ不完全)を暴く。Train-Ticket + 動的ワークロード + ChaosMesh で 9,152 注入から impact-driven validation した 1,430 ケース・25 障害種別の障害伝播ベンチを生成、11 SOTA を再評価し平均 Top@1 0.21・最高 0.37、3 失敗モード(scalability/observability blind spots/modeling bottlenecks)を特定(本 wiki 初のデータ駆動 RCA モデル評価ベンチの一次論文、arXiv:2510.04711, 2025) - [[@2024__ESEC-FSE__MonitorAssistant - Simplifying Cloud Service Monitoring via Large Language Models]] — Tsinghua/Microsoft の LLM ベースの実用的異常検知システム MonitorAssistant。「実用的異常」(統計的逸脱+インシデント裏付け)を定義し、LLM を検知器でなくメタ層(設定推奨・解釈・フィードバック仲介)として配置。Microsoft のクラウドサービスに投入(ESEC/FSE 2024 Industry Track, DOI:10.1145/3663529.3663826) - [[@2025__ASE__LogPilot - Intent-aware and Scalable Alert Diagnosis for Large-scale Online Service Systems]] — CUHK の [[Michael R. Lyu]] グループと [[ByteDance]] による、ログベースのアラート診断を自動化する intent-aware かつスケーラブルな LLM フレームワーク [[LogPilot]]。PromQL アラート定義の意味的意図でログを絞り(intent-aware scoping)、request を spatiotemporal log chain に再構成・クラスタリングして代表だけ LLM に渡す(呼び出し 98.71% 削減)。Volcano Engine の 202 アラートで要約有用性 +50.34%・exact localization +54.79%、$0.074/アラートで 12 本番サービスに展開(本 wiki 初のログ専門 RCA 一次論文、ASE 2025, arXiv:2509.25874) - [[@2026__arXiv__Position Beyond Model-Centric Prediction - Agentic Time Series Forecasting]] — USTC の [[Mingyue Cheng]] らによるポジションペーパー。時系列予測をモデル中心・シングルパスの関数近似から、知覚・計画・行動・省察・記憶の反復的意思決定プロセス(ATSF)へ再定式化。Workflow/AgenticRL/AgenticFlow の 3 実装を整理し、進歩の主軸をモデル反復からシステム・ツール進化へ移す(本 wiki 初のエージェント型時系列予測の一次論文、arXiv:2602.01776) - [[@2026__eunomia.dev__eBPF × AI-LLMs - The Convergence of System Observability and AI]] — [[eunomia-bpf]] の [[Yusheng Zheng]] による eBPF×AI 総説 + 厳選リスト。eBPF for AI(カーネル層のゼロ計装可観測性、[[AgentSight]] <3%)と AI for eBPF(LLM による eBPF 合成、[[Kgent]]/[[GPTtrace]])の双方向共生ループで 2024–2025 の研究・製品を俯瞰(本 wiki 初のカーネル層 eBPF×AI ソース、eunomia.dev/GPTtrace/) - [[@2024__SOSP__Unearthing Semantic Checks for Cloud Infrastructure-as-Code Programs]] — UMich×Microsoft([[Ang Chen]] グループ)の [[Zodiac]]。IaC がコンパイルを通過してもデプロイ時に失敗する semantic gap を、公開 Terraform リポジトリからのセマンティックチェック[[設定マイニング|マイニング]]と SMT/デプロイベース検証で埋める。Azure 52 リソース種別・26,000 リポジトリから 510 チェックを発掘し、既存ツールが捕えない inter-resource 制約を含む。200+ バグ repo と公式ドキュメント 4 件の誤りを修正(**本 wiki 初の Cloud IaC リライアビリティ一次論文**、[[Lilac]]/[[NSync]] と同一グループ、SOSP '24, DOI:10.1145/3694715.3695974) - [[@2025__arXiv__Cisco Time Series Model Technical Report]] — [[Cisco]]([[Splunk]])の観測ドメイン特化の時系列基盤モデル(Cisco TSM)。[[TimesFM]] に特殊トークンと解像度埋め込みを足して継続事前学習し、粗い 1 時間と細かい 1 分のコンテキストを連結した「多解像度の長コンテキスト」を 1/30 の系列長で扱う。約 400M 系列・13 か月・300B 点超で学習し、観測データで競合 TSFM([[Toto]]/[[Chronos-2]])を上回りつつ [[GIFT-Eval]] の汎用能力も保つ(**本 wiki 初の観測特化・多解像度 TSFM の一次論文**、arXiv:2511.19841, 2025) - [[@2026__arXiv__ARFBench - Benchmarking Time Series Question Answering Ability for Software Incident Response]] — [[Carnegie Mellon University]]・[[Datadog]] AI Research・[[Amazon Web Services]] による、ソフトウェアインシデント対応の時系列質問応答(TSQA)を測る初のベンチマーク [[ARFBench]]。[[Datadog]] の本番インシデント Slack タイムライン由来、750 問・142 系列・538 万点を Tier I/II/III(111/306/333)で構成。TSFM([[Toto]])を VLM([[Qwen3-VL]])と結合した [[Toto-1.0-QA-Experimental]] が精度 63.9% でフロンティアモデル(GPT-5 62.7%)に並び、人間専門家との best-of-2 オラクルが精度 87.2%・F1 82.8% の超人的フロンティアを示す(**本 wiki 初の時系列質問応答ベンチの一次論文**、arXiv:2604.21199, 2026) - [[@2026__arXiv__Cast-R1 - Learning Tool-Augmented Sequential Decision Policies for Time Series Forecasting]] — USTC の [[Xiaoyu Tao]]・[[Mingyue Cheng]] らによる [[エージェント型時系列予測]] の **AgenticRL 代表実装**(上記 ATSF が参照していた一次論文)。時系列予測を逐次的意思決定へ再定式化し、記憶ベース状態管理 + ツール拡張エージェントワークフロー(統計特徴抽出・診断・予測モデル呼び出し)+ SFT + マルチターン RL([[強化ファインチューニング|GRPO]]) + カリキュラム学習で学習。予測モデル([[Chronos-2]]・[[TimesFM]]・PatchTST 等)を状態認識的に選ぶツールとして扱い、実世界 10 データセットで全データセット最低 MSE。ATSF の主張(ツール利用・省察・記憶)をアブレーションが裏づける一方、本文と Appendix で backbone 設定(8B vs 1.7B)が矛盾する未完成プレプリント(arXiv:2602.13802, 2026) - [[@2026__arXiv__Towards Robust LLM Post-Training - Automatic Failure Management for Reinforcement Fine-Tuning]] — [[Peking University]]/[[Alibaba Group]]/[[University of Illinois Chicago]] の同一グループ([[Lingzhe Zhang]] ら)による、[[強化ファインチューニング]](RFT)の訓練プロセスに AIOps の検知→診断→修復の障害管理ライフサイクルを移植した研究。初の細粒度障害ベンチマーク [[RFT-FaultBench]](5 families/16 types/779 runs/145 万 trajectory)と閉ループフレームワーク [[RFT-FM]] を提示。検知 F1 87.96%/73.88%・type-level Macro-F1 85.51%/42.16%・Mitigation Rate 46.25% で、自動修復の不安定性(MSC -5.84%)も定量化(**本 wiki 初の RFT 障害管理の一次論文**、arXiv:2605.04431, 2026) - [[@2025__arXiv__Foundation Models for Time Series - A Survey]] — [[Dell Technologies]] ほか([[Siva Rama Krishna Kottapalli]] 筆頭)による Transformer ベースの[[時系列基盤モデル]]サーベイ。15 の代表 TSFM を 6 次元(アーキテクチャ・パッチ有無・目的関数・単変量/多変量・確率的/決定論的・規模)で分類し、**目的関数による分類**を独自軸とする(Figure 8・Table 2)。vault が個別に持つ [[Toto]]/[[TimesFM]]/[[Chronos-2]](初代 Chronos)/[[Falcon-X]]/Cisco TSM に俯瞰の座標系を与える二次サーベイ。observability ドメインは未対象。[[Toto]] のスペック(103M)は vault の 151M と食い違いバージョン差の contradiction(**本 wiki 初の TSFM 横断サーベイ**、arXiv:2504.04011, 2025-04) - [[@2025__WWW__Flow-of-Action - SOP Enhanced LLM-Based Multi-Agent System for Root Cause Analysis]] — CNIC/CAS の [[Changhua Pei]] + [[ByteDance]] の [[Tieying Zhang]] + [[Dan Pei]](清華大)らによる SOP 強化型マルチエージェント RCA システム。SOP フロー(5 ツール)+ thought-actionset-action-observation で幻覚を抑制し、GPT-4-Turbo で LA=70.89%・TA=57.12%(vs ReAct 35.50%)。(**本 wiki 初の SOP コード変換型マルチエージェント RCA 一次論文**、WWW Companion '25) - [[@2025__ICLR__OpenRCA - Can Large Language Models Locate the Root Cause of Software Failures]] — [[Junjielong Xu]]・[[Shilin He]]・[[Dan Pei]]・[[Pinjia He]] らによる、LLM の RCA 能力を測る初の大規模ベンチ [[OpenRCA]]。実世界 3 システム由来の 335 障害 + 68.5GB テレメトリ(logs/metrics/traces)を静的に与え、根本原因 3 要素(component/start time/reason)の部分集合=7 goal を問う。コード実行型 RCA-agent(Controller + stateful Python Executor)を設計しても最良 Claude 3.5 Sonnet で 11.34%、Hard(3 要素)は全モデル 0.00%。性能はモデルのエラー耐性に律速(Gemini 実行失敗 −68.4%)。クエリは GPT-4 合成・候補事前提示で汚染対策に updatable(**本 wiki 初の LLM-RCA 静的ベンチ一次論文**、ICLR 2025, OpenReview M4qNIzQYpd) - [[@2026__arXiv__Cloud-OpsBench - A Reproducible Benchmark for Agentic Root Cause Analysis in Cloud Systems]] — [[Guangba Yu]]・[[Pengfei Chen]]・[[Michael R. Lyu]] らによるエージェント型 RCA の再現可能ベンチ [[Cloud-OpsBench]]。452 障害・40 根本原因種別・7 カテゴリ・[[Kubernetes]] 全スタック。**State Snapshot Paradigm**(メトリクス・ログ・制御/データプレーンを凍結した決定論的デジタルツイン)でライブの非決定性と静的人工物の中間を取り、結果 A@k だけでなく**推論過程を採点する初の white-box 評価**(IAC/RAR/ZTDR)を導入。A@1=0.73 でも IAC=0.40・ZTDR=0.32 と過程指標は低く、SLM の律速は構文脆弱性(Syntactic Fragility)、frontier はパラメトリック幻覚(Parametric Hallucination)と認知欠陥を分離。障害注入は 3 エージェント MAS(Generator/Executor/Verifier)閉ループ。ICL が RAG/CoT を一貫して上回る(**本 wiki 初のエージェント RCA 過程評価ベンチ**、arXiv:2603.00468, 2026) - [[@2025__ASE__AlertGuardian - Intelligent Alert Life-Cycle Management for Large-scale Cloud Systems]] — [[Guangba Yu]]・[[Pengfei Chen]]([[Sun Yat-sen University]])と [[Tencent]] による、アラートライフサイクルを一気通貫で管理する experience paper [[AlertGuardian]]。denoise(LLM 不使用の軽量グラフ GraphGuardian + 仮想ノイズノード + 高基数属性匿名化、<200ms・削減 93.82〜95.50%)→ summary(RAG+DeepSeek V3 で RCA 90.5%・Action 98.5%)→ rule refinement(オーケストレータなし 4 エージェント + 反復フィードバック、1,174 提案→375 受容/32%)。本番(Tencent)で MTTR 156→21 分(7.4倍)・日次 30万→1.5万。既存 papers/ ノートを温存し一方向参照(**本 wiki 初のアラートライフサイクル全体最適化の一次論文**、ASE 2025, yuxiaoba.github.io/files/ASE25) - [[@2025__arXiv__TimeSeriesScientist - A General-Purpose AI Agent for Time Series Analysis]] — [[Haokun Zhao]]・[[Xiang Zhang]]・[[Jiaqi Wei]]([[Stony Brook University]] ほか、corresponding [[Chenyu You]])による、汎用単変量時系列予測を自動化する初の LLM 駆動エージェント型フレームワーク [[TimeSeriesScientist]](TSci)。Curator → Planner → Forecaster → Reporter の固定 SOP を直列協調し、各決定に自然言語根拠を残すホワイトボックス設計。21 モデル(統計/ML/木/NN/専用)のライブラリを内蔵し[[時系列基盤モデル]]は不使用。8 ベンチで統計比 MAE -10.4%・LLM 直接予測比 -38.2%(8/8 最良)、レポートも 5 ルーブリックで全 LLM 超。前処理除去のアブレーションが MAE +41.8%(最大)。[[エージェント型時系列予測]] の Workflow パラダイム代表で [[Cast-R1]] と対をなす(**本 wiki 初の LLM エージェント型汎用時系列予測の一次論文**、arXiv:2510.01538, 2025-10) - [[@2025__arXiv__TimeCopilot]] — [[Azul Garza]]・[[Renée Rosillo]] による、複数の[[時系列基盤モデル]](TSFM)と LLM を単一の統一 API 下に集約する初のオープンソースなエージェント型予測フレームワーク [[TimeCopilot]]。LLM を (i) パイプライン各ステップの行動決定(オーケストレーション)と (ii) モデル選択・予測の自然言語説明の二役で使い、特徴分析 → モデル選択・評価 → 最終選択・予測の 3 段ワークフロー(Agent)と TSFM 最大級ハブを直接制御する Forecaster の 2 エントリポイントを提供。[[GIFT-Eval]] で MedianEnsemble([[Chronos-2]]+[[TimesFM]]+[[TiRex]] を isotonic regression で結合)が確率予測 CRPS の全体最良を約 $24 の低コストで達成(点予測 MASE は Chronos-2 に次ぐ 2 位)。[[エージェント型時系列予測]] の Workflow パラダイム代表で、基盤モデル不使用の [[TimeSeriesScientist]] と対照(**本 wiki 初の TSFM アンサンブル型エージェント予測フレームワークの一次論文**、NeurIPS 2025 Workshop BERT2S / arXiv:2509.00616, 2025) - [[@2025__OSR__Cloud Infrastructure Management in the Age of AI Agents]] — [[Ang Chen]] グループ([[University of Michigan]]/UC Berkeley/a16z)の LLM クラウド管理エージェントのビジョン論文。4 [[クラウド管理モダリティ]](SDK/CLI/IaC/ClickOps)を Azure VM 管理で実証比較(段階×モダリティのトレードオフ)し、agent-cloud interface・guardrail・exploration/exploitation を提示。IaC 群([[Zodiac]]/[[NSync]]/[[Lilac]])を 4 モダリティの IaC として束ね、agentic SRE/AIOps クラスタと接続(ACM SIGOPS OSR 2025, DOI:10.1145/3759441.3759443) - [[@2024__SIGCOMM__R-Pingmesh - A Service-Aware RoCE Network Monitoring and Diagnostic System]] — BUPT/Douyin Vision の能動プロービングに基づく初のサービス認識型 RoCE 監視・診断システム [[R-Pingmesh]]。市販 RNIC の UD QP+CQE で RTT/処理遅延/ドロップを測り RNIC 起因とネットワーク内ドロップを区別、トモグラフィ的投票で箇所特定。数万 RNIC・6 か月、157 件のスイッチ問題全件正確・全体 85%(本 wiki 初の RoCE/RDMA ネットワーク監視一次論文、SIGCOMM 2024) - [[@2025__SC__Characterizing GPU Resilience and Impact on AI - HPC Systems]] — UIUC/NCSA/IBM/Nokia による NCSA [[Delta]](A100/H100)の 2.5 年・1,170 万 GPU 時間の GPU レジリエンス世代比較。H100 はメモリ MTBE が A100 の 1/3.2(回復機構が容量増に非対応)だがハードウェアは強化、99.9% 可用性に 5% オーバープロビジョニング(本 wiki 初の GPU レジリエンス特徴づけ一次論文、SC 2025, arXiv:2503.11901) - [[@2025__OSDI__Understanding Stragglers in Large Model Training Using What-if Analysis]] — NYU/[[ByteDance]] Seed の LLM 訓練ストラグラー分析。What-if 分析で 42.5% のジョブが ≥10% スローダウン・全 GPU 時間の 10.4% 浪費を帰属、主因は計算側の不均衡(PP 分割 39.3%・シーケンス長 21.4%・Python GC)で問題ワーカー主因は 1.7%。監視システム [[SMon]] を本番展開(本 wiki 初の LLM 訓練ストラグラー分析一次論文、OSDI 2025) - [[@2025__SOSP__Robust LLM Training Infrastructure at ByteDance]] — [[ByteDance]] の LLM 訓練特化 GPU インフラ管理・障害許容システム [[ByteRobust]]。制御/データプレーンで ETTR を最大化(9,600 GPU・3 か月で 97%)、「正確な箇所特定より迅速な隔離」(過剰排除)。インフラ障害は件数 11% でも GPU 時間の 82%、warm standby/hot-update が復旧を最大 10.87×/11.04×(本 wiki 初の耐障害 LLM 訓練インフラ一次論文、SOSP 2025, arXiv:2509.16293) - [[@2025__SIGCOMM__Astral - A Datacenter Infrastructure for Large Language Model Training at Scale]] — [[Nanjing University]]/[[Tencent]]/Harvard の 50 万 GPU 級 LLM 訓練データセンターインフラ [[Astral]]。tier-2 同一レール相互接続(8K GPU で効率損失 0.6%・512K 規模、HVDC+空気液体冷却で PUE 最大 16.34% 改善)+4 層フルスタック監視・階層相関(MTTLF 日→分・最大 25 倍)+オペレータ粒度予測 [[Seer]](密モデル 0.3% 偏差)。同 Nanjing グループの [[Pulse]] の系譜(本 wiki 初の超大規模 LLM 訓練データセンターインフラ一次論文、SIGCOMM 2025) - [[@2025__VLDB__Approximation-First Timeseries Monitoring Query At Scale]] — [[University of Maryland]]/[[Boston University]] の時系列モニタリング近似クエリキャッシュ [[PromSketch]]。[[Prometheus]]/[[VictoriaMetrics]] のルールクエリのボトルネック(繰り返しデータスキャン CPU 41%/80.2%・重複ウィンドウ再計算)を、中間結果(Exponential Histogram バケット)の in-memory キャッシュ + EH×スケッチ(KLL/Universal Sketching、可証明な誤差境界)で解消。5% 誤差以下でレイテンシ最大 2 桁・クエリ処理コストを Prometheus 比約 400×/VictoriaMetrics 比 4× 以上削減(本 wiki 初の[[近似クエリ処理]]一次論文、VLDB 2025, arXiv:2505.10560) - [[@2025__eBPF__eInfer - Unlocking Fine-Grained Tracing for Distributed LLM Inference with eBPF]] — [[University of Connecticut]] ほかの分散 LLM 推論を要求単位でエンドツーエンドにトレースする初の [[eBPF]] ベースシステム [[eInfer]]。ソース改変なしに CPU・アクセラレータ・プロセス・ノードをまたぐイベントを関連付け、ベンダー非依存([[CUPTI]] 相当の精度)で本番オーバーヘッド 4% 未満(本 wiki 初の eBPF 分散 LLM 推論トレーシング一次論文、eBPF Workshop 2025) - [[@2026__arXiv__ProfInfer - An eBPF-based Fine-Grained LLM Inference Profiler]] — [[Huawei Hilbert Research Center Dresden]]/[[TU Munich]] の [[eBPF]] uprobe を [[llama.cpp]] へ動的アタッチする非侵入オンデバイス推論プロファイラ [[ProfInfer]]。演算子レベル PMC で `ggml_tensor` を辿りハードウェア挙動とモデル構造を対応づけ、ProfDAG/ProfTime/ProfStat の 3 ビューを生成。オーバーヘッド最小 1.7%、MoE のボトルネックがディスク I/O だと特定(本 wiki 初のオンデバイス LLM 推論プロファイラ一次論文、arXiv:2601.20755) - [[@2025__SOSP__Mycroft - Tracing Dependencies in Collective Communication Towards Reliable LLM Training]] — [[ByteDance Seed]] の[[集合通信]]ライブラリ([[NCCL]])のブラックボックス性を打破する Coll-level 観測システム [[Mycroft]]。フロー/チャンク単位の依存性を露出させ、NCCL への軽量計装(C++ 1,100 行)で数万 GPU の 90% を 15 秒以内に検知・60% を 20 秒以内に箇所特定。ByteDance で 6 か月超デプロイ(本 wiki 初の集合通信依存トレーシング一次論文、SOSP 2025, arXiv:2509.03018) - [[@2025__HCDS__eGPU - Extending eBPF Programmability and Observability to GPUs]] — [[UC Santa Cruz]] の [[eBPF]] バイトコードを実行時に [[PTX]] へコンパイルし稼働中 GPU カーネルへ動的注入する初の eBPF ランタイム [[eGPU]]。カーネル中断なしに計装でき [[NVBit]] より低オーバーヘッド、共有メモリ eBPF マップで CPU-GPU 間をコピーなし交換。評価は単一 GPU・マイクロベンチに限定(本 wiki 初の GPU への eBPF 拡張一次論文、HCDS Workshop 2025) - [[@2025__arXiv__Collective Communication for 100k+ GPUs]] — [[Meta]] の 10 万 GPU 超クラスタの LLM ライフサイクル全体を [[NCCL]] 拡張で一元支援する[[集合通信]]フレームワーク [[NCCLX]]。ゼロコピー・SM フリー・ホスト駆動の [[CTran]] と三実行モード。[[Llama4]] で定常ステップ最大 12% 削減・起動最大 11 倍高速化・デコードレイテンシ 15〜80% 改善、[[DQPLB]] でスイッチバッファを一桁削減(本 wiki 初の 10 万 GPU 級集合通信フレームワーク一次論文、arXiv:2510.20171) - [[@2024__TOPC__Low-Overhead Trace Collection and Profiling on GPU Compute Kernels]] — [[Polytechnique Montréal]]([[DORSAL lab]])のトレースフェーズ区分化でデバイス上トレース収集を類似研究比 1 桁削減する手法。LLVM パスで制御フローを静的に解きバッファ事前確保・決定的実行、[[Rodinia]] で全体 1.60×(中央値 1.26×)。参照実装 [[hip-analyzer]] は CUDA/[[HIP]] 対応(本 wiki 初のコンパイル時 GPU トレース計装一次論文、ACM TOPC 2024) - [[@2024__arXiv__Microsecond-scale Dynamic Validation of Idempotency for GPU Kernels]] — [[Shanghai Jiao Tong University]](IPADS)の GPU カーネル[[べき等性]]をインスタンス単位で実行前検証する初のシステム [[PICKER]]。「条件付きべき等」を発見(547 中 490)し起動引数だけで全インスタンスを 5µs 以内に検証。[[Asymmetric Resilience]] の[[チェックポイント]]コストを 4% 未満へ・[[Chimera]] のプリエンプション待ちを平均 84.2% 削減(本 wiki 初の GPU カーネルべき等性動的検証一次論文、arXiv:2410.23661) - [[@2025__SC__Fine-grained Automated Failure Management for Extreme-Scale GPU Accelerated Systems]] — [[Intel Corporation]]/[[RIKEN Center for Computational Science]] のエクサスケール GPU 自動故障管理 [[StabilityDB]]。集中型メタ DB + マルチストライク修復ポリシーで GPU 単位の細粒度修復、[[Argonne National Laboratory]] の [[Aurora]](63,744 GPU)で MTTR を手動比最大 84 倍短縮(本 wiki 初のエクサスケール HPC 自動故障管理一次論文、SC 2025, DOI:10.1145/3712285.3759883) - [[@2026__MLSys2026__Guard - Scalable Straggler Detection and Node Health Management for Large-Scale Training]] — [[Store Foundational AI]]([[Amazon Web Services]])のストラグラー検知 + ノード健全性管理 [[Guard]]。NCCL テスト/バーンインを通過しつつ性能を劣化させるグレーノードを、オンラインモニタリング + オフラインノードスイープの閉ループで検知。MFU 最大 1.7 倍・ステップ時間分散 20%→1%、検知ツールを [[fkat]] として OSS 化(本 wiki 初のグレーノード/ノード健全性管理一次論文、MLSys 2026 Industry Track) - [[@2025__arXiv__FlashRecovery - Fast and Low-Cost Recovery from Failures for Large-Scale Training of LLMs]] — [[iFLYTEK AI Engineering Institute]]/[[University of Science and Technology of China]]/[[Huawei Technologies]] の LLM 訓練障害復旧 [[FlashRecovery]]。アクティブ検知(数秒)+ スケール非依存タスク再起動 + データ並列複製による[[チェックポイント]]フリー 1 ステップ復旧で、[[Ascend NPU]] 4,800 デバイス 150 秒・従来比約 93〜95% 削減(本 wiki 初のチェックポイントフリー障害復旧一次論文、arXiv:2509.03047) - [[@2025__SIGCOMM__Hawkeye - Diagnosing RDMA Network Performance Anomalies with PFC Provenance]] — [[Tsinghua University]]/[[Beihang University]]/[[Infrawaves]] の RDMA 性能異常診断 [[Hawkeye]]。PFC プロベナンスで backpressure/storm/deadlock を 90% 以上の精度・再現率 100% で診断、収集スイッチ数を約 1/10・オーバーヘッドを 1〜4 桁削減([[Intel Tofino]] テストベッド、本 wiki 初の RDMA 性能異常診断/PFC プロベナンス一次論文、SIGCOMM 2025, DOI:10.1145/3718958.3750490) - [[@2025__HPCA__Enhancing Large-Scale AI Training Efficiency - The C4 Solution for Real-Time Anomaly Detection and Communication Optimization]] — [[Alibaba Group]]/[[Hong Kong University of Science and Technology]] の通信駆動型 AI 訓練効率化 [[C4]]。診断 [[C4D]]([[ACCL]] 拡張)が[[集合通信]]の症候から故障を数十秒で隔離・再開し、性能 [[C4P]] がトラフィック工学で帯域競合を削減。ダウンタイム 31.19%→1.16%・システム効率 30%→45%、本番 30 か月超([[H800]] 評価、本 wiki 初の通信駆動 AI 訓練異常検知/通信最適化一次論文、HPCA 2025) - [[@2025__APNET__Forewarned is Forearmed - Joint Prediction and Classification of Optical Transceiver Failures in Large-Scale LLM Training Clusters]] — [[Nankai University]] の光トランシーバー故障の予測 + 分類フレームワーク [[OptProphet]]。特徴量集約で時間的依存と物理的結合をモデル化し不均衡データを自動処理、予測 F1 0.884(平均 1.11 日前にアラーム)・分類 F1 0.855 で SOTA を凌駕(本 wiki 初の光トランシーバー故障予測/分類一次論文、APNet 2025) - [[@2025__ISAV__From Exploration to Explanation - ML-Driven Causal Discovery for Datacenter Reliability at Scale]] — [[Hewlett Packard Labs]]/[[Oak Ridge National Laboratory]] のデータセンター信頼性の因果探索 [[PACE]]。相関クラスタリング + ラグ考慮 Granger 因果性で多変量テレメトリから有向因果パスを抽出し物理プロセスで妥当性検証([[Summit]] 冷却 7 年、定量指標なしの定性評価、PDF 取得済み、ISAV 2025) - [[@2025__arXiv__Efficient Fine-Grained GPU Performance Modeling for Distributed Deep Learning of LLM]] — [[Case Western Reserve University]]/[[Rutgers University]] の LLM 分散訓練時間予測。オペレータ分解 + 木ベース回帰、計算演算(70〜95%)に予測能力を集中。CPU 上で [[Perlmutter]] 4.98%・[[Vista]] 9.38%(arXiv:2509.22832) - [[@2025__SIGCOMM__SkeletonHunter - Diagnosing and Localizing Network Failures in Containerized Large Model Training]] — Alibaba Cloud/[[Tsinghua University]] のコンテナ訓練ネットワーク障害診断 [[SkeletonHunter]]。RNIC バーストの STFT で集合通信スパース性を推論し probing 2 桁削減、19 種別へ箇所特定、precision 98.2%(SIGCOMM 2025) - [[@2025__IWQoS__eACGM - Non-instrumented Performance Tracing and Anomaly Detection towards Machine Learning Systems]] — [[Sun Yat-sen University]] の全スタック非侵入 ML 監視 [[eACGM]]。eBPF をフレームワーク層関数トレースへ適用 + libnvml + 教師なし GMM、6 ベースライン超(IWQoS 2025, arXiv:2506.02007) - [[@2025__arXiv__XPUTimer - Anomaly Diagnostics for Divergent LLM Training in GPU Clusters of Thousand-Plus Scale]] — [[Shanghai Jiao Tong University]]/[[Ant Group]] の発散 LLM 訓練異常診断 [[XPUTimer]]([[Flare]])。非侵入 CPython 計装 + CUDA-GDB intra-kernel inspecting で持続的性能回帰まで診断、6,000 GPU 8 ヶ月(v2 で Flare に改名、arXiv:2502.05413) - [[@2025__NSDI__Evolution of Aegis - Fault Diagnosis for AI Model Training Service in Production]] — Alibaba Cloud のパブリッククラウド AI 訓練障害診断 [[Aegis]]。CCL の launch/work-request/completion カウンタで計算/通信障害を非侵入弁別、idle time 97%+ 削減(NSDI 2025) - [[@2025__DSN__LLMPrism - Black-box Performance Diagnosis for Production LLM Training Platforms]] — [[The Chinese University of Hong Kong]]/[[Huawei Cloud]] のブラックボックス性能診断 [[LLMPrism]]。スイッチ層 RoCE フローのみから並列化を逆推定 + BOCD + k-σ、19 ジョブ 2880 GPU で 0.3% 誤差([[Platform-X]] 稼働、DSN 2025, arXiv:2505.00342) - [[@2025__ESEC-FSE__L4 - Diagnosing Large-scale LLM Training Failures via Automated Log Analysis]] — [[The Chinese University of Hong Kong]]/[[Huawei Cloud]] の LLM 訓練障害自動ログ解析 [[L4]]。cross-job/spatial(iForest)/temporal(DTW)の 3 パターンで F1 0.873・top-5 80.5%、428 件研究([[Platform-X]]、ESEC/FSE 2025, arXiv:2503.20263) - [[@2026__TOSEM__TVDiag - A Task-oriented and View-invariant Failure Diagnosis Framework for Microservice-based Systems with Multimodal Data]] — 武漢大学の [[Shuaiyu Xie]] らによるマルチモーダル障害診断フレームワーク [[TVDiag]]。タスク指向対照学習(TO)でモダリティ-タスク嗜好(トレース/メトリクス→RCL、ログ→FTI)を増幅し、グラフ拡張(AUG)でデータ不足を緩和。4 データセットで HR@1 最大 +13.15%(本 wiki 初のマルチモーダル RCL+FTI 統合診断一次論文、TOSEM Vol.35 No.2 Article 40, 2026, DOI:10.1145/3734868) - [[@2025__TSC__TAMO - Fine-Grained Root Cause Analysis via Tool-Assisted LLM Agent with Multi-Modality Observation Data in Cloud-Native Systems]] — [[Shandong University]] の [[Xiao Zhang]]・[[Dongxiao Yu]] らによるツール支援型 LLM マルチモーダル RCA フレームワーク [[TAMO]]。双分岐拡散 T1 + FFT+GAT T2 + Transformer T3 + GPT-4 エキスパートエージェントで LLM-RCA の 3 課題を統一フレームワークで解決。HolisticRCA 比 Acc@1 +4.8%・MiPr +10.8%、アブレーションで T1(拡散アライメント)が RCA の律速(IEEE TSC 2025, arXiv:2504.20462) - [[@2024__PVLDB__D-Bot - Database Diagnosis System using Large Language Models]] — [[Tsinghua University]] の [[Xuanhe Zhou]]・[[Guoliang Li]] らによる LLM ベースデータベース異常診断システム D-Bot([[DB-GPT]])。サマリツリー知識抽出・UCT 木探索診断・7 エキスパート非同期協調で DBA の 1〜2 時間→10 分/$1.8。539 件ベンチで DNN/DecisionTree 比 8〜54% 向上(PVLDB Vol.17 / VLDB 2024, DOI:10.14778/3675034.3675043) - [[DB-GPT]] — [[Tsinghua University]] の Database Group が公開する LLM 駆動データベース診断・最適化フレームワーク(D-Bot の OSS 実装) - [[データベース自律診断]] — DB 異常の LLM 自動診断。「ドメイン知識外在化が精度の律速」「UCT 木探索が早期停止を構造的抑制」を横断知見として集約 - [[@2025__PVLDB__DBAIOps - A Reasoning LLM-Enhanced Database Operation and Maintenance System using Knowledge Graphs]] — [[Wei Zhou]]・[[Xuanhe Zhou]]・[[Guoliang Li]] ら（SJTU/Tsinghua/百盛科技）による初のハイブリッド DB O&M システム DBAIOps。ExperienceGraph(6 頂点型・4 辺型異種グラフ)+800 以上の異常モデル+二段階グラフ進化で未知異常の診断パスを動的構築し、DeepSeek-R1 32B でベースライン比 RCA 精度 +34.85%・人手評価 +47.22%。25 DB・20 実環境稼働。(PVLDB 2025) - [[Wei Zhou]] — DBAIOps 筆頭著者（SJTU、データベース O&M 自動化・LLM×DB） - [[DBAIOps]] — 知識グラフ+推論 LLM による DB O&M システム（25 DB・20 実環境） - [[Baisheng Technology]] — DBAIOps 開発元（深圳） - [[@2025__FSE Companion__A Multimodal Intelligent Change Assessment Framework for Microservice Systems Based on Large Language Models]] — Nankai University の [[Yongqian Sun]]・[[Shenglin Zhang]] らによる ECD・FT・RCCA 統合フレームワーク [[SCELM]]。RAG + 7B LLM で変更管理を自動化し本番 90% 時間短縮。(FSE Companion '25, DOI:10.1145/3696630.3728561) - [[SCELM]] — ECD・FT・RCCA 統合ソフトウェア変更評価フレームワーク(product / Nankai University AIOps) - [[Tinghua Zheng]] — Nankai University 所属。SCELM 共著者(person) - [[Xidao Wen]] — BizSeer 所属。SCELM 共著者(person) - [[Weihua Kuang]] — Nankai University 所属。SCELM 共著者(person) - [[Heng Liu]] — CHINA TIANCHEN ENGINEERING CORPORATION LTD. 所属。SCELM 共著者(person) - [[Chao Shen]] — Nankai University 所属。SCELM 共著者(person) - [[Bo Wu]] — Tencent Technologies 所属。SCELM 共著者(person) - [[BizSeer]] — 北京の企業。AIOps 研究開発(organization) - [[データベース O&M]] — DB 運用保守の自動化概念。知識グラフ・グラフ進化・推論 LLM の統合が 2025 年の設計転換点 - [[ソフトウェア変更管理]] — ECD・FT・RCCA の 3 タスクからなる変更ライフサイクル自動化。SCELM が初の統合フレームワークで、変更票×ログ×メトリクスのマルチモーダル統合と RAG が鍵 - [[@2017__NeurIPS__Attention Is All You Need]] — [[Ashish Vaswani]]・[[Noam Shazeer]] ほか([[Google Brain]])。再帰・畳み込みを排し自己アテンションのみで系列変換を実現する [[Transformer]] を提案。WMT 2014 英独 BLEU 28.4、英仏 BLEU 41.8。LLM 時代の基盤アーキテクチャ(NeurIPS 2017) - [[@2018__OpenAI__Improving Language Understanding by Generative Pre-Training]] — [[Alec Radford]]・[[Ilya Sutskever]] ほか([[OpenAI]])。Transformer デコーダによる教師なし事前学習＋教師あり微調整の二段階パラダイム(GPT-1)を確立。12 タスク中 9 で SOTA(OpenAI 2018) - [[@2019__OpenAI__Language Models are Unsupervised Multitask Learners]] — [[Alec Radford]]・[[Jeffrey Wu]] ほか([[OpenAI]])。1.5B パラメータの [[GPT-2]] がゼロショットで 8 言語モデリングデータセット中 7 で SOTA。規模と性能の対数線形関係を実証(OpenAI 2019) - [[@2020__NeurIPS__Language Models are Few-Shot Learners]] — [[Tom Brown]]・[[Jared Kaplan]] ほか([[OpenAI]])。175B パラメータの [[GPT-3]] が[[文脈内学習]]により微調整なしで多数の NLP タスクで競争力ある性能を達成(NeurIPS 2020) - [[@2022__DSN__Characterizing and Mitigating Anti-patterns of Alerts in Industrial Cloud Systems]] — [[Tianyi Yang]]・[[Jiacheng Shen]]・[[Yuxin Su]]・[[Xiaoxue Ren]]・[[Yongqiang Yang]]・[[Michael R. Lyu]]([[The Chinese University of Hong Kong]] + [[Sun Yat-sen University]] + [[Huawei Cloud]])、DSN 2022、arXiv 2204.09670。Huawei Cloud の 2 年・400 万件超アラート + 18 OCE 調査から 4 個別 + 2 集合のアラートアンチパターンを実証同定、QoA(indicativeness・precision・handleability)の自動評価を将来方向に。Repeating Alerts を初めて文書化(source / paper / aiops / alert-management / cloud-reliability) - [[@2024__ICSE-SEIP__Knowledge-aware Alert Aggregation in Large-scale Cloud Systems - a Hybrid Approach]] — [[Jinxi Kuang]]・[[Jinyang Liu]]・[[Junjie Huang]]・[[Renyi Zhong]]・[[Jiazhen Gu]]・[[Lan Yu]]・[[Rui Tan]]・[[Zengyin Yang]]・[[Michael R. Lyu]]([[The Chinese University of Hong Kong]] + [[Huawei Cloud]])、ICSE-SEIP 2024、DOI:10.1145/3639477.3639745。SOP を LLM 推論材料に持ち込んだハイブリッド [[COLA]](相関マイニング + CoT 2 ラウンド + ICL + P-tuning v2 SFT)。Cloud X の 500K アラート + 3K SOP で F1 0.901-0.930、本番 4 ヶ月運用(source / paper / aiops / alert-management / llm-rca) - [[@2025__arXiv__Metric Criticality Identification for Cloud Microservices]] — [[Akanksha Singal]]・[[Divya Pathak]]・[[Kaustabha Ray]]・[[Felix George]]・[[Mudit Verma]]・[[Pratibha Moogi]]([[IBM Research]] India + [[IIIT Delhi]])、arXiv:2501.03547。Informative Metric Subset Problem(NP 完全)を初定式化し、エントロピー + 相互情報量 + トポロジ確率調整 + AIMD で SelectKBest/mRMR/Boruta/Max Weighted Clique を上回る coverage を達成する [[KIMetrix]]。DeathStarBench CPU で C=99.44%(source / paper / aiops / observability / microservices) - [[@2014__KDD__Unveiling Clusters of Events for Alert and Incident Management in Large-Scale Enterprise IT]] — [[Derek Lin]]・[[Rashmi Raghu]]・[[Vivek Ramamurthy]]・[[Jin Yu]]・[[Regunathan Radhakrishnan]]([[Pivotal Software]]) + [[Joseph Fernandez]]([[Visa Inc]])、KDD 2014、DOI:10.1145/2623330.2623360。半構造化アラート(Jaccard + connected components + graph-cut)と非構造化インシデント(NMF + KD-tree + complete-linkage + マージ精製)の 2 系統独立クラスタリング framework。5M アラート→22K ユニーク・67K インシデントを Greenplum + MADlib で処理、構造保存型可視化を提案(source / paper / aiops / alert-management / clustering) - [[@2019__WWW__Outage Prediction and Diagnosis for Cloud Service Systems]] — [[Yujun Chen]]([[Beihang University]] + [[Microsoft Research]] intern)・Xian Yang・[[Qingwei Lin]]・[[Hongyu Zhang]]([[University of Newcastle]])・[[Feng Gao]]・[[Zhangwei Xu]]・[[Yingnong Dang]]([[Microsoft Azure]])・[[Dongmei Zhang]]・[[Hang Dong]]・Yong Xu・Hao Li・[[Yu Kang]]([[Microsoft Research]] Beijing)、WWW 2019、DOI:10.1145/3308558.3313501。Bayesian network(FCI)+ XGBoost のハイブリッドアウテージ予測 [[AirAlert]]。Microsoft 1 年・6 サービスで Simple Spike が崩壊するサービスレベル outage に F1 53.92-88.78% を達成(source / paper / aiops / outage-prediction / bayesian-network) ### 2026-06-17 distributed training batch (14) - [[@2018__OSDI__Ray A Distributed Framework for Emerging AI Applications]] - [[@2019__arXiv__Megatron-LM Training Multi-Billion Parameter Language Models Using Model Parallelism]] - [[@2019__NeurIPS__GPipe Easy Scaling with Micro-Batch Pipeline Parallelism]] - [[@2019__SOSP__PipeDream Generalized Pipeline Parallelism for DNN Training]] - [[@2020__KDD__DeepSpeed System Optimizations Enable Training Deep Learning Models with Over 100 Billion Parameters]] - [[@2020__OSDI__HiveD Sharing a GPU Cluster for Deep Learning with Guarantees]] - [[@2020__SC__ZeRO Memory Optimizations Toward Training Trillion Parameter Models]] - [[@2021__SC__Efficient Large-Scale Language Model Training on GPU Clusters Using Megatron-LM]] - [[@2023__arXiv__FP8-LM Training FP8 Large Language Models]] - [[@2023__MLSys__Reducing Activation Recomputation in Large Transformer Models]] - [[@2023__VLDB__PyTorch FSDP Experiences on Scaling Fully Sharded Data Parallel]] - [[@2024__APNet__Understanding Communication Characteristics of Distributed Training]] - [[@2024__NSDI__Cassini Network-Aware Job Scheduling in Machine Learning Clusters]] - [[@2025__arXiv__FFTrainer Fast Failover in Large Language Model Training with Almost Free State Management]] ### 2026-06-18 distributed networking/scheduling/topology batch - [[@2015__SIGCOMM__Congestion Control for Large-Scale RDMA Deployments]] - [[@2016__SIGCOMM__RDMA over Commodity Ethernet at Scale]] - [[@2008__ISCA__Technology-Driven, Highly-Scalable Dragonfly Topology]] - [[@2009__IEEE-Micro__Cost-Efficient Dragonfly Topology for Large-Scale Systems]] - [[@2018__SC__Harnessing GPU Tensor Cores for Fast FP16 Arithmetic to Speed up Mixed-Precision Iterative Refinement Solvers]] - [[@2019__NSDI__Tiresias - A GPU Cluster Manager for Distributed Deep Learning]] - [[@2020__NSDI__Themis - Fair and Efficient GPU Cluster Scheduling]] - [[@2022__NSDI__Accelerating Collective Communication in Data Parallel Training across Deep Learning Frameworks]] - [[@2022__SC__HammingMesh - A Network Topology for Large-Scale Deep Learning]] - [[@2023__arXiv__Rail-only - A Low-Cost High-Performance Network for Training LLMs with Trillion Parameters]] - [[@2023__IEEE Computer__Datacenter Ethernet and RDMA - Issues at Hyperscale]] - [[@2024__ICSE__An Empirical Study on Low GPU Utilization of Deep Learning Jobs]] - [[@2024__SIGCOMM__RDMA over Ethernet for Distributed AI Training at Meta Scale]] - [[@2024__SC-W 2024__Benchmarking Ethernet Interconnect for HPC AI workloads]] - [[@2022__SREcon22 Americas__Dark Sky Camping - Reducing Alert Pollution with Modern Observability Practices]] - [[@2023__SREcon23Americas__Epic Incidents of History - The 1979 NORAD Nuclear Near Miss]] — [[Nick Travaglini]]（[[Honeycomb.io]] Technical Customer Success Manager）、USENIX SREcon23 Americas（2023 年 3 月）。1979 年 NORAD 核ミサイル誤警報事件を Walker・Woods・Rayo(2016) の Distant-Proximal / Blunt-Sharp モデルで分析し、Paul N. Edwards のクローズドワールド論を援用して単純な root cause analysis の限界を論じる。34 ページスライド + YouTube 自動字幕 transcript。(slides / sre / incident-management / human-factors / accident-model / history-of-computing) - [[@2023__SREcon23Americas__Incident Commanders]] — [[Vanessa Huerta Granda]]・[[Emily Ruppe]]（[[Jeli]]）、USENIX SREcon23 Americas（2023 年 3 月頃）。IC(Incident Commander) とインシデントアナリストを「似て非なる別々のスキルセット」と定義し、両ロール兼務時の注意点(燃え尽きリスク・社会技術的要因の見落とし)を論じる。「インシデントのサイクル」ライフサイクル図を提示。代表フレーム12枚 + YouTube 英語字幕。(video / sre / incident-management / incident-commander / srecon) - [[@2023__SREcon23EMEA__The Incident Is The Way - Using Your Incidents to Win Reliability Investment]] — [[Niall McCarthy]]（[[Afterpay]] エンジニアリングリーダー）、USENIX SREcon23 EMEA（2023-10-11、ダブリン）。ケイパビリティマッピング・組織の巻き込み・害の共有定義(correctness重視)・意図でなく結果を選ぶ重大度判断という4つの実践で、インシデントを信頼性投資獲得の機会に変える方法を提示。YouTube 自動字幕 transcript + 代表フレーム22枚。(video / sre / incident-management / reliability-investment / srecon) - [[@2024__SREcon24Americas__Hard Choices, Tight Timelines - A Closer Look at Tradeoff Decisions during Incidents]] — [[Laura Maguire]]（Trace Cognitive Engineering/OSU）・[[Courtney Nash]]（The VOID）、USENIX SREcon24 Americas（2024-03-19）。インシデント対応中のトレードオフ意思決定を組織階層をまたいで分析し、The Void データベースに欠けている推論過程を vignette 法で補完。skip-level tradeoff を Datadog 実例・役割別比較表・組織図・コスト便益分布表とともに提示。全61ページ。(slides / sre / incident-management / tradeoff / human-factors) - [[@2024__SREcon24Americas__Storytelling as an Incident Management Skill]] — [[Laura de Vesine]]（[[Datadog]]）、USENIX SREcon24 Americas（2024-03-20、サンフランシスコ）。「英雄の旅」的な人物中心の物語形式を退け、因果論理で出来事が連鎖する narrative を組み立てる技能がオンコール準備・対応中・ポストモーテムのすべてを支えると論じる。「舞台設定→ドラマの追加→出来事の連鎖→対応の説明→修正計画」の5段階「エンゲージングなポストモーテム」構成を提示。18ページ + Whisper 音声文字起こし。(slides / sre / incident-management / postmortem / srecon) --- ## Questions - [[wiki/questions/SLI-SLO教科書]]: SRE の SLI/SLO 関連文献を基礎から応用まで網羅した教科書。第 8 章「応用と拡張」は SLO 拡散(ベイジアンネットワーク)・SLX・Multi-tiered SLOs・クライアントサイド SLO(Luup 2024)・カーボン認識 SLO(CASCA)・Security Level Objectives・定常性モデルまでを統合(2026-07-01 拡充) - [[wiki/questions/インシデント対応の教科書]]: SRE インシデント対応を検知から緩和、指揮体系から AI 支援まで体系化した 9 部 19 章構成の教科書。ICS/IC 育成/フォロワーシップ/調査戦略/認識論/Common Grounding/障害緩和/人的要因/ストレス管理/MTTR 批判/成熟度モデル/ChatOps/アンインシデント/シミュレーション/IR AI レベルを包括(ポストモーテムは姉妹編に分離) - [[wiki/questions/ポストモーテムの教科書]]: wiki 全体の 25+ ソース・15+ コンセプトを横断した 25 章構成の教科書。基礎（定義・三つの柱・プロセス）、理論（事故モデル・Cook 18 命題・ヒューマンファクタ）、実践（ファシリテーション・IR 執筆・プロセス比較）、パラダイムシフト（Repeat Incident Fallacy・Incident Legalism・learning > fixing）、測定（MTTR 批判・TTX）、発展（ストーリーテリング・クロスインシデント分析・考古学・知見のコード化）、研究フロンティア（AI 自動化・未解決の問い） - [[ポストモーテムと事後分析の文献横断ナラティブ]]: ポストモーテムと事後分析に関する文献を横断し、障害の構造的持続性→ブレームレス文化の深化→修復から学習への転換→形骸化の病理→横断分析の系譜→日本の実践→RCA の進化→AI 支援の展望を一つのストーリーとして CS 論文 Introduction 風にまとめた統合ナラティブ - [[QoA-3軸-詳細解説]]: Yang+ DSN2022 が提案した QoA の 3 軸(indicativeness / precision / handleability)を詳解。アンチパターンとの対応関係、TraceArk・AlertRank との接続、Zadka コストモデルとの相補性を整理 - [[Zadka-コストモデル-詳細]]: Zadka SREcon22 のアラート品質コストモデルを詳解。アンチクオリティ定式化・アラーム 3 分類・真アラームのレイテンシ 4 区間分解・コスト構造全体・Goodhart の法則への警戒を網羅 - [[QoAアンチパターン-防ぎ方]]: QoA を下げるアンチパターンを防ぐ 3 層構造(設計時 Avoidance / 運用時 Reaction / 自動検知改善)を整理。AlertRank・TraceArk・AlertGuardian が各層を担う関係を図示 - [[Toto-2アーキテクチャ比較-他TSFMとの特徴]]: Toto 2.0 の CPM・u-μP・NorMuon・arcsinh 正規化を軸に TimesFM・Falcon-X・Cisco TSM と比較。観測特化 TSFM で初のスケーリング則実証の意義を整理 - [[LM-vs-TSFM-decoder-only-差異]]: 言語モデルと TSFM が共に decoder-only Transformer を用いながら、入力トークン化・出力種別・スケール正規化・注意の次元数・推論様式・位置情報・事前学習目的関数の 7 軸で根本的に設計が異なることを解説（初心者向け解説付き） - [[Toto-2.0-vs-1.0-差分]]: Toto 1.0(151M 単一サイズ・逐次自己回帰)から 2.0(4M〜2.5B の 5 サイズ・CPM シングルパス・ピンボール損失・NorMuon・u-μP)への変更点を整理 - [[分位点損失と区間予測]]: 分位点損失(ピンボール損失)の仕組み、「独立に学習」の意味、区間予測がアラート・キャパシティ・異常検知で有用な理由を連問形式でまとめ - [[アラーティングの進歩-年代別]]: 1980s 商用 NMS から 2026 agentic SRE まで、10 層超の介入点が層分化し技術的介入と人間的・組織的介入が独立軸として並走する過程を年代別レビューで整理(2026-06-24 更新: SREcon 実践者エコシステム 15 件追加) - [[アラーティング学術実務マップ]]: 年代別に [A]学術 / [P]実務 / [H]産業研究の3区分で地図化。問題命名→規範確立→手法設計→大規模実証→実用化という通時的役割分担パターンと、AIM 体系化に含まれない非技術的介入など学術/実務の断絶4点を整理 - [[現代の理想的なアラーティング]]: 40 年弱の進化史から抽出した 7 設計原則(症状起点・アクショナブル・発火前保証・適切な受け手・多層介入・測定可能品質・Agentic 対応)と 4 面の組織的条件(インセンティブ・社会的合意・能力育成・文化)を統合した理想定義 - [[現代の理想的なアラーティング-判断モデル]]: 理想的アラーティングを、顧客影響・緊急性・対応主体・自動処理可能性・欠落リスクからページ、チケット、自律処理、診断情報、削除へ振り分ける判断モデルとして再構成 - [[TSFM単体とVLM統合の本質的差異]]: Toto は次パッチ予測器だが、VLM 統合版([[Toto-1.0-QA-Experimental]])は Toto を時系列エンコーダとして再利用し中間埋め込みを言語モデルへ射影する——予測器から「時系列を読んで言語で説明する推論器」への質的変化 - [[TSFM-TSMLLM-TotoQwen3VL-比較と基礎]]: TSFM・TS-MLLM(ChatTS)・Toto-Qwen3-VL の 3 者を Transformer 基礎(自己注意/パッチ化/Encoder-Decoder/トークン化/事前学習/RLVR)から出発して信号フロー・TS エンコーダ出自・多変量次元の扱い・モダリティ数・訓練パイプラインの 5 軸で比較。「予測精度の担い手 vs 推論の担い手」という役割分業と 2 段スタック統合の構図を整理 - [[multimodal-observability-foundation-model]]: オブザーバビリティ MELT を同時にネイティブ事前学習する基盤モデル **MELT-FM** 構想。Toto/Falcon-X(予測のみ)、TVDiag/TAMO(診断のみ、事前学習なし)、UModel(意味付与のみ)の空席を埋める。PathAttn・UModel グラウンディングトークン・eBPF 4 モダ同期コーパスが新規性の核 - [[Projection-MLP-学習の仕組み]]: Toto-1.0-QA-Experimental の Projection MLP 学習とは何か。Toto と Qwen3-VL の座標系変換を逆伝播で自動発見する 3 段階訓練(合成 SFT → 実データ SFT → RLVR)と LoRA 凍結戦略を初心者向けに整理 - [[@2025__TKDE__OpDiag - Unveiling Database Performance Anomalies Through Query Operator Attribution]] — [[OpDiag]]([[Shiyue Huang]]・[[Bin Cui]]、PKU/ZTE)が演算子→クエリ→KPI→異常を三段階 ML + 三段階帰属で自動遡及。top-2 内 100%・産業事例 1/3〜1/2 削減(本 wiki 初の演算子レベル DB 診断一次論文、IEEE TKDE 2025, DOI:10.1109/TKDE.2025.3557049) - [[Shiyue Huang]] — PKU 博士課程学生、OpDiag 第一著者(person) - [[Bin Cui]] — PKU 教授 IEEE Fellow、OpDiag 責任著者(person) - [[Yinjun Wu]] — PKU 助教(Penn 博士 2021)(person) - [[Ziwei Wang]] — HKUST Guangzhou 博士課程学生(person) - [[ZTE Corporation]] — 中国・南京の通信 ICT 企業、OpDiag 産業パートナー(organization) - [[OpDiag]] — クエリ演算子帰属による DB 性能異常診断フレームワーク(product) - [[DBPA]] — PKU/ZTE による OLTP DB 性能異常ベンチマーク(dataset) - [[@2025__SIGMOD__AgentTune - An Agent-Based Large Language Model Framework for Database Knob Tuning]] — [[AgentTune]]([[Yiyan Li]]・[[Haoyang Li]] ほか、RUC/ByteDance)が 4 専門 LLM エージェント + ビームサーチ木探索でノブチューニングを自動化。6 ベンチマーク全実験 Invalid Times=0・PIE SOTA(本 wiki 初の LLM エージェントベース DB ノブチューニング一次論文、SIGMOD 2025, DOI:10.1145/3769758) - [[AgentTune]] — RUC/ByteDance による 4 専門 LLM エージェントベース DB ノブチューニングフレームワーク(product) - [[Yiyan Li]] — Renmin University of China 博士課程学生、AgentTune 共筆頭著者(person) - [[Haoyang Li]] — Renmin University of China 博士課程学生、AgentTune 共筆頭著者(person) - [[Jing Zhang]] — Renmin University of China 准教授、AgentTune 共著者(person) - [[Cuiping Li]] — Renmin University of China 教授(工学研究センター MOE)、AgentTune 責任著者(person) - [[Hong Chen]] — Renmin University of China 教授(知識工学国家重点実験室 MOE)、AgentTune 共著者(person) - [[Renata Borovica-Gajic]] — University of Melbourne 准教授、AgentTune 共著者(person) - [[University of Melbourne]] — オーストラリアの研究大学、Renata Borovica-Gajic 所属(organization) - [[データベースノブチューニング]] — DBMS チューナブルパラメータ最適化。AgentTune が LLM エージェント化・木探索・ルールベース融合で Invalid Times=0 を達成(concept) - [[個人的知識蓄積の意味-稲見3部作から]]: 稲見昌彦3部作（科学の終焉 / Out of the Blue / ループのボトルネック）を横断し、個人 wiki の存在意義を Feel-through 媒質・翻訳層・情報顕微鏡・調律の4軸で考察。知識の所有から知覚の調律への変質を論じる - [[@2025__KDD__FlowXpert - Expertizing Troubleshooting Workflow Orchestration with Knowledge Base and Multi-Agent Coevolution]] — FlowXpert: ワークフロー自動生成フレームワーク(KDD 2025, Nankai+Huawei Cloud)(source) - [[Binpeng Shi]] — Nankai University, FlowXpert 第一著者(person) - [[FlowXpert]] — トラブルシューティングワークフロー自動生成フレームワーク。10 週間本番承認率約 80%(product) - [[OpsFlowBench]] — Huawei Cloud DCN 由来の 252 件ワークフロー評価ベンチマーク(dataset) - [[@2020__SC20__Live Forensics for HPC Systems - A Case Study on Distributed Storage Systems]] — Kaleidoscope: HPC 分散ストレージ向け近リアルタイム障害フォレンジクスフレームワーク。Store Pings+PGM で箇所特定 99.3%・診断 95.8%(2 年本番 843 件)、オーバーヘッド < 0.01%(SC 2020)(source) - [[Kaleidoscope]] — UIUC/NCSA の Jha ら(SC 2020)が開発した HPC 分散ストレージ向け近リアルタイム障害フォレンジクスフレームワーク(product) - [[Blue Waters]] — NCSA/UIUC が運用するペタスケール HPC スーパーコンピュータ。Kaleidoscope の評価環境(product) - [[Subho S. Banerjee]] — UIUC の Kaleidoscope 共著者(person) - [[Zbigniew T. Kalbarczyk]] — UIUC のディペンダブルコンピューティング研究者。Kaleidoscope 共著(person) - [[@2026__arXiv__CUJBench - Benchmarking LLM-Agent on Cross-Modal Failure Diagnosis from Browser to Backend]] — CUJBench: ブラウザ可視証拠+バックエンド可観測性の初のクロスモーダル障害診断ベンチマーク。87 シナリオ・6 モデル評価・A@1=19.7%・天井=52%、ブラウザ限定 > フルツール(arXiv:2604.23455, 2026)(source) - [[Haoming Meng]] — CUJBench 単著著者(person) - [[CUJBench]] — ブラウザ可視証拠+バックエンド可観測性統合の初のクロスモーダル障害診断ベンチマーク(product / benchmark) - [[OpenTelemetry Demo]] — OpenTelemetry のポリグロットマイクロサービス型 EC デモ。CUJBench テスト環境(product) - [[Tractor Store]] — マイクロフロントエンド型 EC アプリ。CUJBench テスト環境(product) - [[@2026__NSDI__Matryoshka - Realizing Hyperscale Data Center Network Design for the AI Era]] — Meta の DCN 設計自動化システム Matryoshka(NSDI 2026)。インテント駆動・決定論的・ステートレスなスイッチ設定コンパイラ。6 年間・18 種類・約 900 DCN、100K-GPU スーパークラスタを支える。学術研究の空白だった「設定生成」フェーズを本番システムで公開した初論文(source) - [[@2026__NSDI__HeteCCL - Synthesizing Near-Optimal Collective Communication Schedules for Heterogeneous GPU Clusters]] — 東北大学(中国)・Alibaba Cloud によるヘテロジニアス GPU クラスタ向け集合通信スケジュール自動合成ツール HeteCCL(NSDI 2026)。チャンキングでプリミティブ所要時間を均質化、CEGIS で探索空間を枝刈りし、TE-CCL 比最大 322.8× 高速合成・NCCL 比最大 2.8× 帯域幅・訓練効率 23〜37% 改善(source) - [[Northeastern University]] — 中国・遼寧省瀋陽市の重点理工系大学。HeteCCL の主要所属機関(organization) - [[Shenzhen Institutes of Advanced Technology]] — 中国科学院傘下の深圳市研究機関(SIAT)。HeteCCL の Chengxi Gao が所属(organization) - [[@2025__TOS__Lustre Unveiled - Evolution, Design, Advancements, and Current Trends]] — Lustre の 25 年を網羅した包括的サーベイ。アーキテクチャ・設計進化・5 系統比較・Frontier/Orion エクサスケール実績・将来方向性(ACM TOS 2025, DOI:10.1145/3736583)(source) - [[@2019__arXiv__The Lustre Storage Architecture]] — Lustre の原初設計文書「Lustre Book」。539 ページ、2001–2005 年執筆・2019 年公開(arXiv:1903.01955)(source) - [[Lustre]] — オープンソース並列ファイルシステム。Top500 上位 10 中 6 台採用、25 年超・750K LOC(product) - [[Frontier]] — ORNL のエクサスケールスパコン(AMD EPYC + MI250X)(product) - [[Orion]] — Frontier の Lustre FS。700 PB・4.7 TiB/s read・40 MDT(product) - [[DDN]] — HPC ストレージベンダ。2018 年に Intel の Lustre 事業を買収(organization) - [[Whamcloud]] — Lustre 開発企業。CFS→Intel→DDN 傘下(organization) - [[OpenSFS]] — Lustre オープンソースコンソーシアム(organization) - [[Anjus George]] — ORNL NCCS、Lustre Unveiled 筆頭著者(person) - [[Andreas Dilger]] — Whamcloud/DDN、主要 Lustre コントリビュータ(person) - [[Sarp Oral]] — ORNL NCCS、Frontier/Orion ストレージリーダー(person) - [[Peter J. Braam]] — Lustre 創出者、CFS 設立者(person) - [[Cluster File Systems]] — Lustre 開発スタートアップ(CFS)。Sun(2007)→Oracle(2010)買収(organization) - [[並列ファイルシステム]] — 複数ストレージサーバにデータを分散配置し並列 I/O でスループットを最大化する分散ファイルシステム。Lustre/GPFS/Ceph/BeeGFS/DAOS 比較(concept) - [[@2026__NSDI__EROICA - Online Performance Troubleshooting for Large-scale Model Training]] — Alibaba Cloud の ~100,000 GPU 本番クラスタで 1.5 年運用した性能トラブルシューティングシステム EROICA。全ワーカー同時オンラインプロファイリング + 関数挙動パターン差分で 97.5% 診断成功率(NSDI 2026)(source) - [[@2026__NSDI__Supercharging Packet-level Network Simulation of Large Model Training via Memoization and Fast-Forwarding]] — LLM 訓練の繰り返しパターンとステディステートをメモ化・早送りで活かす Wormhole が ns-3 比 744× 高速化を誤差 1% 未満で達成(NSDI 2026)(source) - [[@2026__NSDI__PrvTel - Lightweight Models for Private and Accurate Telemetry Data Retention]] — ε-差分プライバシー付きの軽量 VAE でネットワーク・クラウドテレメトリを保持し、50 倍のコスト削減と精度 60% 向上を両立(NSDI 2026)(source) - [[@2026__NSDI__FAST - An Efficient Scheduler for All-to-All GPU Communication]] — MoE AllToAllv の動的歪みを Birkhoff 分解で解く多項式時間スケジューラ。64 GPU で 221 µs、RCCL 比最大 4.48× 向上(NSDI 2026)(source) - [[Yu Guan]] — EROICA 筆頭著者(Alibaba Cloud / Zhejiang Lab)(person) - [[Dan Li]] — Wormhole(SimNet)共著者(Tsinghua University)(person) - [[Fuheng Zhao]] — PrvTel 共著者(University of Maryland)(person) - [[Zhejiang Lab]] — 中国・杭州の研究機関(之江実験室)。EROICA の共同研究機関(organization) - [[Zhongguancun Laboratory]] — 中国・北京の研究機関(中関村実験室)。Wormhole の共同研究機関(organization) - [[MangoBoost]] — 韓国のスタートアップ。FAST スケジューラの共同研究機関(organization) - [[University of Pennsylvania]] — 米国の研究大学(UPenn)。FAST 共著者の所属(organization) - [[ネットワークシミュレーション]] — ネットワーク挙動を模擬再現。LLM 訓練の規則性で ns-3 比 744× 高速化(concept) - [[差分プライバシー]] — ε-DP。テレメトリ保持で精度・コスト・プライバシーの三角トレードオフ(concept) - [[@2024__IEEE CLOUD__Enabling Programmable Metric Flows]] — [[IBM Research]] の [[PMF]]。LP 最適化で collect-first→use-first パラダイムを実現(IEEE CLOUD 2024)(source) - [[@2023__ICSE__LogReducer - Identify and Reduce Log Hotspots in Kernel on the Fly]] — [[LogReducer]]。eBPF + EMFP でカーネルログホットスポットを動的に 70〜95% 削減、[[WeChat]] 本番 1 年超(ICSE 2023)(source) - [[@2024__ESEM__Reducing Events to Augment Log-based Anomaly Detection Models - An Empirical Study]] — [[LogCleaner]]。ログイベント削減の異常検知モデルへの影響を 3 戦略×6 モデル×4 データセットで実証(ESEM 2024)(source) - [[@2023__NSDI__Hindsight - Tracing Edge-Cases in Distributed Systems]] — [[Hindsight]]。遡及的トレースサンプリングで全リクエスト軽量トレース + 障害後完全収集、100 万 req/s・30 秒以内(NSDI 2023)(source) - [[@2025__ISSTA__Tracezip - Efficient Distributed Tracing via Trace Compression]] — [[Tracezip]]。共通性・変動性分解で分散トレースを 80% 超圧縮しつつ異常検知精度を保持(ISSTA 2025)(source) - [[@2024__IEEE CLOUD__Astraea - Unleashing Performance Insights with Online Probabilistic Tracing]] — [[Astraea]]。スパンレベル [[VAIF]] 重要度スコアリングで 1% サンプリングでもヘッドベース同等の性能分析(IEEE CLOUD 2024)(source) - [[@2025__ASPLOS__Mint - Cost-Efficient Tracing with All Requests Collection via Commonality and Variability Analysis]] — [[Mint]]。共通性・変動性分析で全リクエスト収集かつストレージ 60% 削減(ASPLOS 2025)(source) - [[@2024__FSE__TraStrainer - Adaptive Sampling for Distributed Traces with System Runtime State]] — [[TraStrainer]]。システム実行時状態で tail-based sampling を強化、F1 +15%(ESEC/FSE 2024)(source) - [[PMF]] — IBM Research のプログラマブルメトリクスフローフレームワーク(product) - [[LogReducer]] — カーネルログホットスポット動的削減ツール(product) - [[WeChat]] — Tencent のメッセージングプラットフォーム(product) - [[LogCleaner]] — ログイベント削減による異常検知モデル強化手法(product) - [[Hindsight]] — 遡及的分散トレースサンプリングシステム(product) - [[OpenTelemetry]] — テレメトリの標準フレームワーク(product) - [[OTel-Arrow]] — Apache Arrow をテレメトリ転送・パイプライン処理に応用する OTel サブプロジェクト(SIG)。Phase 2 Dataflow Engine(Rust)で OTLP 比 20× スループット達成(concept / observability) - [[OTAP]] — OpenTelemetry Arrow Protocol。Arrow カラム型エンコーディングベースのテレメトリワイヤプロトコル(concept / observability / protocol) - [[Apache-Arrow|Apache Arrow]] — ベンダー非依存のカラム型インメモリデータフォーマット標準。OTel-Arrow に採用(product / data-format) - [[Tracezip]] — トレース圧縮システム(product) - [[Astraea]] — オンライン確率的トレーシング(product) - [[VAIF]] — Astraea のスパン重要度推定モジュール(product) - [[Mint]] — 全リクエスト収集トレーシング(product) - [[TraStrainer]] — 適応的トレースサンプリング(product) - [[Jonathan Mace]] — Hindsight 筆頭著者(person) - [[Kangjin Wang]] — PMF 筆頭著者(person) - [[Zibin Zheng]] — Tracezip 責任著者(person) - [[Mehmet Toslali]] — Astraea 筆頭著者(person) - [[Ayse K. Coskun]] — Astraea 責任著者(person) - [[Haiyu Huang]] — TraStrainer 筆頭著者(person) - [[Max Planck Institute for Software Systems]] — MPI-SWS。Hindsight の著者所属(organization) - [[トレースサンプリング]] — 分散トレーシングの 4 系統サンプリング戦略(concept) - [[@2025__DSN-W__Characterizing Modern GPU Resilience and Impact in HPC Systems - A Case Study of A100 GPUs]] — [[Delta]] の A100 106 ノード/448 GPU を対象にした 3 年・12.5M GPU 時間の GPU レジリエンスケーススタディ。GPU メモリは非メモリハードウェアより 160 倍高信頼で、弱点は GSP・PMU SPI・MMU・NVLink。A100 ではメモリ回復機構が効き、後続の A100/H100 比較の基準線になる(DSN-W 2025) - [[Archit Patke]] — Delta A100 GPU レジリエンス研究の共同筆頭著者(UIUC)(person) - [[Ziheng Chen]] — Delta A100 GPU レジリエンス研究の共同筆頭著者(UIUC)(person) - [[Aditya Ranjan]] — Delta A100 GPU レジリエンス研究の共同筆頭著者(UIUC)(person) - [[Hung Nguyen]] — Delta A100 GPU レジリエンス研究の共著者(UIUC)(person) - [[Phuong Cao]] — Delta A100 GPU レジリエンス研究の共著者(UIUC)(person) - [[Brett Bode]] — Delta A100 GPU レジリエンス研究の共著者(UIUC/NCSA)(person) - [[Gregory Bauer]] — Delta A100 GPU レジリエンス研究の共著者(UIUC/NCSA)(person) - [[Chandra Narayanaswami]] — Delta A100 GPU レジリエンス研究の共著者(IBM Research)(person) - [[Daby Sow]] — Delta A100 GPU レジリエンス研究の共著者(IBM Research)(person) - [[Catello Di Martino]] — Delta A100 GPU レジリエンス研究の共著者(Nokia Bell Labs)(person) - [[@2025__arXiv__Nemotron 3 - Efficient and Open Intelligence]] — NVIDIA のオープン LLM ファミリー Nemotron 3 の技術報告書。ハイブリッド Mamba-2–Transformer MoE + LatentMoE + NVFP4 事前学習 + マルチ環境同時 RL。Nano(30B/3B)で同規模 MoE 比 3.3 倍推論スループット(arXiv:2512.20856, 2025)(source) - [[Nemotron 3]] — NVIDIA のオープン LLM ファミリー。Nano/Super/Ultra の 3 モデル(product) - [[LatentMoE]] — NVIDIA のハードウェア認識型 MoE エキスパート設計。潜在次元で通信削減を精度に再投資(product) - [[NeMo-RL]] — NVIDIA のスケーラブル RL 訓練フレームワーク(Apache 2.0)(product) - [[@2025__Moonshot AI__Kimi-Researcher - End-to-End RL Training for Emerging Agentic Capabilities]] — [[Moonshot]] の自律型リサーチエージェント Kimi-Researcher のプロジェクトページ。エンドツーエンドの REINFORCE のみで HLE Pass@1 26.9%・xbench-DeepSearch 69%。ガンマ減衰報酬・コンテキスト管理・ターンレベル部分ロールアウト・Kubernetes+MCP 非同期インフラ(2025)(source) - [[Kimi-Researcher]] — [[Moonshot]] のエンドツーエンド RL 訓練による自律型リサーチエージェント(product / agent) - [[@2026__arXiv__Composer 2 Technical Report]] — [[Cursor Research]] のエージェント型コーディングモデル Composer 2 の技術報告書。Kimi K2.5 ベース 1.04T/32B MoE を継続事前学習 + 大規模非同期 RL で訓練。CursorBench 61.3・SWE-bench Multi 73.7(arXiv:2603.24477, 2026)(source) - [[Cursor Research]] — AI コーディングエディタ Cursor のリサーチ部門(organization) - [[Composer 2]] — Cursor Research のエージェント型コーディングモデル(1.04T/32B MoE)(product) - [[CursorBench]] — Cursor の内部コーディングエージェントベンチマーク(dataset) - [[Anyrun]] — Cursor の Firecracker VM 基盤コード実行プラットフォーム(product) - [[Fireworks AI]] — LLM 推論基盤企業。Composer 2 の RL 推論パートナー(organization) - [[ThunderKittens]] — Stanford Hazy Research の GPU カーネルフレームワーク(repository) - [[DeepEP]] — DeepSeek のエキスパート並列通信ライブラリ(repository) - [[@2025__arXiv__OLMo 3]] — AI2 の完全オープン LLM ファミリー OLMo 3 の技術報告書(118 ページ)。7B/32B、SWA、Base/Think/Instruct/RL-Zero の 4 変種。モデルフロー全公開。OLMo 3.1 Think 32B は完全オープンモデル最強(arXiv:2512.13961, 2025)(source) - [[Allen Institute for AI]] — 米国シアトルの非営利 AI 研究所(AI2)。OLMo 3 を開発(organization) - [[OLMo 3]] — AI2 の完全オープン LLM ファミリー(7B/32B)(product) - [[OlmoRL]] — AI2 の完全非同期 RL 訓練インフラ。GRPO 7 改善(product) - [[OlmoBaseEval]] — AI2 のベースモデル評価スイート。43 タスク・5 クラスタ(product) - [[olmOCR]] — AI2 の PDF テキスト変換パイプライン(product) - [[Duplodocus]] — AI2 の Rust 製大規模重複排除ツールキット(product) - [[Dolma 3]] — AI2 の OLMo 3 事前学習データスイート(dataset) - [[Dolci]] — AI2 の OLMo 3 後訓練データスイート(dataset) - [[オープンLLM開発]] — LLM の訓練パイプライン全体を公開する開発方式(concept) - [[@1983__Automatica__Ironies of Automation]] — Bainbridge (1983) による自動化のパラドクスの古典論文。技能劣化・監視の不可能性・残余タスク・訓練投資の逆説を体系化(source) - [[Lisanne Bainbridge]] — UCL 心理学部。"Ironies of Automation" (1983) の著者(person) - [[University College London]] — ロンドンの研究大学。Bainbridge の所属(organization) - [[自動化のアイロニー]] — 自動化がオペレータの問題を拡大する構造的パラドクスの総称(concept) - [[@1985__Tandem__Why Do Computers Stop and What Can Be Done About It]] — Gray (1985) の耐障害システム古典論文。2,000 台超の障害統計で管理(42%)とソフトウェア(25%)が主因を実証(source) - [[Jim Gray]] — Tandem Computers 研究者。耐障害システム・Heisenbug 概念の定義者。チューリング賞(1998)(person) - [[Tandem Computers]] — 耐障害コンピュータの先駆企業。NonStop システムを開発(organization) - [[NonStop]] — Tandem の耐障害コンピュータシステム(product) - [[ソフトウェア耐障害性]] — ソフトウェアバグが存在してもシステム可用性を維持する設計原則の総体(concept) - [[Heisenbug]] — 再現困難で観察により消失するソフトウェアバグの類型(concept) - [[プロセスペア]] — 主プロセスとバックアップの対による耐障害実行パターン(concept) - [[@2003__USITS__Why Do Internet Services Fail and What Can Be Done About It]] — Oppenheimer+ (2003) の 3 大規模インターネットサービス障害分析。オペレータエラー(特に設定ミス)が最大原因を実証(source) - [[David Oppenheimer]] — UC Berkeley ROC Project。インターネットサービス障害分析の筆頭著者(person) - [[Archana Ganapathi]] — UC Berkeley ROC Project 共著者(person) - [[David A. Patterson]] — UC Berkeley 教授。RISC・RAID の共同発明者(person) - [[UC Berkeley ROC Project]] — Recovery-Oriented Computing プロジェクト(organization) - [[運用障害分析]] — 障害事後報告の体系的収集・分類による実証的信頼性研究(concept) - [[@2007__LISA__On Designing and Deploying Internet-Scale Services]] — Hamilton (2007) のインターネットスケールサービス設計のベストプラクティス集(source) - [[James Hamilton]] — Microsoft → Amazon。インターネットスケールサービス設計の体系化者(person) - [[インターネットスケールサービス設計]] — 障害前提・自動化・単純さを柱とする大規模サービス設計原則群(concept) - [[@2016__OReilly__SRE Book - Chapter 5 Eliminating Toil]] — Vivek Rau によるトイルの定義と削減原則。トイル=手作業・反復的・自動化可能・戦術的・持続的価値なし・線形スケール。Google SRE の 50% ルール(実測平均 33%)(source) - [[@2016__OReilly__SRE Book - Chapter 6 Monitoring Distributed Systems]] — Rob Ewaschuk による分散システムモニタリング。ホワイトボックス/ブラックボックス、4 つのゴールデンシグナル(レイテンシ・トラフィック・エラー・サチュレーション)、パーセンタイル分布(source) - [[@2016__OReilly__SRE Book - Chapter 7 Automation at Google]] — Niall Murphy らによる Google の自動化進化。5 段階階層、MySQL の Borg 移行で 95% 削減、Diskerase 障害(自動化の増幅リスク)(source) - [[@2016__OReilly__SRE Book - Part III Practices]] — サービス信頼性ヒエラルキー(7 層)。モニタリング→インシデント対応→RCA→テスト→キャパシティプランニング→アーキテクチャ→プロダクトローンチ(source) - [[@2016__OReilly__SRE Book - Chapter 34 Conclusion]] — Benjamin Lutch による総括。SRE の二重の役割(パイロットとエンジニア)、航空産業のアナロジー、中核的関心事の不変性(source) - [[SRE Book]] — "Site Reliability Engineering: How Google Runs Production Systems"(O'Reilly, 2016)。SRE ディシプリンの定義書(product) - [[SRE Workbook]] — "The Site Reliability Workbook"(O'Reilly, 2018)。SRE Book の原則を SLO 文書・エラーバジェット方針・アラート・オンコール・ポストモーテムへ落とす実践編(product) - [[Ben Treynor Sloss]] — Google VP Engineering、SRE 創設者。「信頼性はあらゆるプロダクトの最も基本的な特性」(person) - [[Betsy Beyer]] — Google テクニカルライター。SRE Book(2016)および SRE Workbook(2018)の編者(person) - [[Niall Murphy]] — Google SRE。SRE Book 共同編者、第 7 章(自動化)の著者(person) - [[Margaret Hamilton]] — MIT Instrumentation Laboratory ソフトウェアエンジニアリング部門ディレクター。Apollo 計画、「ソフトウェアエンジニアリング」の造語者(person) - [[@2016__OReilly__SRE Book - Foreword]] — Mark Burgess による序文。Google の第一原理からの SRE 構築、「実装は一時的だが文書化された推論は無価値にならない」(source) - [[@2016__OReilly__SRE Book - Preface]] — 運用ライフサイクル(総コスト 40-90%)、SRE の 3 次元、Margaret Hamilton の Apollo 計画(source) - [[@2016__OReilly__SRE Book - Chapter 1 Introduction]] — Ben Treynor Sloss。SRE の定義、50% ルール、エラーバジェット、プレイブック MTTR 3 倍改善、変更起因障害 70%(source) - [[@2016__OReilly__SRE Book - Chapter 3 Embracing Risk]] — Marc Alvidrez。100% 信頼性への反論、非線形コスト曲線、エラーバジェットの共通インセンティブ(source) - [[@2016__OReilly__SRE Book - Chapter 4 Service Level Objectives]] — Chris Jones, John Wilkes, Niall Murphy。SLI/SLO/SLA フレームワーク、パーセンタイル重視(source) - [[@2018__Google SRE Workbook__Foreword I]] — Mark Burgess による序文。SRE Workbook を約束の設定・評価・修復の実践として位置づけ(source) - [[@2018__Google SRE Workbook__Foreword II]] — Andrew Clay Shafer による序文。SRE 原則を DevOps の理想と接続(source) - [[@2018__Google SRE Workbook__Chapter 1 How SRE Relates to DevOps]] — SRE と DevOps の関係。SRE は DevOps の文化原則に SLO・エラーバジェット・トイル制御を与える(source) - [[@2018__Google SRE Workbook__Chapter 2 Implementing SLOs]] — SLI 仕様/実装、ユーザー中心 SLO、4 週間ローリングウィンドウ、ステークホルダー合意(source) - [[@2018__Google SRE Workbook__SLO Engineering Case Studies]] — Evernote と The Home Depot の SLO 導入事例(source) - [[@2018__Google SRE Workbook__Monitoring]] — SLO に結びついた監視戦略、監視設定 as Code、アラートロジックのテスト(source) - [[@2018__Google SRE Workbook__Alerting on SLOs]] — エラーバジェットバーン率、複数ウィンドウ複数バーン率アラート、低トラフィックサービス(source) - [[@2018__Google SRE Workbook__Eliminating Toil]] — トイル測定、削減戦略、自動化と業務廃止の事例(source) - [[@2018__Google SRE Workbook__Simplicity]] — SRE における単純さ、システム複雑性の proxy、循環依存と設定標準化(source) - [[@2018__Google SRE Workbook__Part II Practices]] — SRE 実践パートの導入。運用作業とプロジェクト作業の関係、NALSD への橋渡し(source) - [[@2018__Google SRE Workbook__On-Call]] — オンコール設計、ページャー負荷、シフト設計、心理的安全性(source) - [[@2018__Google SRE Workbook__Incident Response]] — IC/CL/OL、3C、Google と PagerDuty のインシデント対応事例(source) - [[@2018__Google SRE Workbook__Chapter 10 Postmortem Culture - Learning from Failure]] — ブレームレスポストモーテム文化、良い/悪いポストモーテム比較、アクションアイテム追跡(source) - [[@2018__Google SRE Workbook__Conclusion]] — SRE の企業導入拡大、隣接領域への展開、DevSecOps への示唆(source) - [[@2018__Google SRE Workbook__Appendix A Example SLO Document]] — Example Game Service の SLO 文書例。可用性・レイテンシ・鮮度・正確性・完全性(source) - [[@2018__Google SRE Workbook__Appendix B Example Error Budget Policy]] — 4 週間窓のエラーバジェット方針、変更停止、P0 アクションアイテム(source) - [[@2018__Google SRE Workbook__Appendix C Results of Postmortem Analysis]] — ポストモーテム分析の集計例。変更起因障害とプロセス失敗の学習(source) - [[エラーバジェット]] — SLO で許容される障害量の上限を「予算」として扱い、開発と SRE の共通インセンティブを形成する仕組み(concept) - [[トイル]] — 手動的・反復的・自動化可能・戦術的で持続的価値のない運用作業の総称。Google SRE の 50% ルールで管理(concept) - [[@2018__CNCF WG Serverless__Serverless Overview Whitepaper v1.0]] — CNCF WG Serverless(2018)が策定したサーバーレスコンピューティング定義・ユースケース・Function 仕様・エコシステム勧告白書。FaaS+BaaS の 2 要素、CaaS/PaaS との 3 択比較、n:m イベント-Function マッピング、Function Workflow の 5 パターン・6 状態を体系化。コールドスタート・標準化不足を 2018 年時点の課題として明示(source / whitepaper) - [[@2019__yuuk.io__Rethinking-Serverless-Architecture]] — Yuuki Tsubouchi(2019)によるサーバーレスアーキテクチャ再考。サーバーレス=「サーバという単位を意識しない」と定義し直し、FaaS+BaaS のピタゴラスイッチ構成を解説(source) - [[サーバーレスアーキテクチャ]] — FaaS+BaaS の組み合わせ。CNCF 公式(外部・運用視点: サーバー管理不要)と Yuuki Tsubouchi(内部・アーキテクチャ視点: 2 種のサーバーを隠蔽)の相補的定義。CaaS/PaaS との比較では制御粒度・課金粒度が決め手(concept) - [[サーバーレスワークフロー]] — 複数イベントと Function を n:m マッピングで結び、逐次・並列実行・条件分岐・連鎖で構成するオーケストレーションパターン。CNCF 白書(2018)が 5 パターン・6 状態を定義。AWS Step Functions 等のステートマシン型が代表実装(concept) - [[@2024__arXiv__DeepSeek LLM - Scaling Open-Source Language Models with Longtermism]] — DeepSeek-AI 初代基盤モデル(7B/67B dense)。非埋め込み FLOPS/トークン M でスケーリング則を拡張(source) - [[@2024__arXiv__DeepSeek-Coder - When the Large Language Model Meets Programming]] — コード特化 LLM。87 言語・2T トークン、FIM 最適化。6.7B で CodeLlama-34B を凌駕(source) - [[@2024__arXiv__DeepSeek-V3 Technical Report]] — 671B MoE。MLA・補助損失なし負荷分散・MTP・FP8・DualPipe。約 557 万ドルで訓練(source) - [[@2025__arXiv__DeepSeek-R1 - Incentivizing Reasoning Capability in LLMs via Reinforcement Learning]] — SFT なし純粋 RL で推論能力創発。GRPO + 規則ベース報酬で aha モーメント(source) - [[@2025__arXiv__DeepSeek-V3.2 - Pushing the Frontier of Open Large Language Models]] — DSA・GRPO 安定化・合成エージェント環境で事後学習を大幅強化(source) - [[@2024__arXiv__DeepSeek-VL2 - Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding]] — MoE ベース VLM。活性化 4.5B で密モデル 8B 級(source) - [[@2025__DeepSeek__DeepSeek-V4 - Towards Highly Efficient Million-Token Context Intelligence]] — MegaMoE・CSA+HCA ハイブリッド圧縮で 100 万トークン推論(source) - [[DeepSeek-AI]] — 中国の AI 研究企業。DeepSeek LLM/Coder/V3/R1/V3.2/VL2/V4 シリーズを開発(entity) - [[DeepSeek LLM]] — 初代基盤モデル(7B/67B dense)(entity) - [[DeepSeek-Coder]] — コード特化 LLM(1.3B〜33B)(entity) - [[DeepSeek-V3]] — 671B MoE モデル(37B 活性化)(entity) - [[DeepSeek-R1]] — 推論特化モデル。SFT なし RL で推論創発(entity) - [[DeepSeek-R1-Zero]] — R1 の SFT なし純粋 RL 変種(entity) - [[DeepSeek-V3.2]] — V3 後継。DSA・GRPO 安定化(entity) - [[DeepSeek-VL2]] — MoE ベース VLM(entity) - [[DeepSeek-V4]] — 最新フラグシップ。100 万トークンコンテキスト(entity) - [[Multi-head Latent Attention]] — 低ランク KV 圧縮アテンション機構(entity) - [[DualPipe]] — 双方向オーバーラップパイプライン並列(entity) - [[HAI-LLM]] — DeepSeek の分散学習フレームワーク(entity) - [[MegaMoE]] — V4 の MoE 実行カーネル(entity) - [[Daya Guo]] — DeepSeek-Coder 筆頭著者(entity) - [[LLMスケーリング則]] — LLM 損失のべき乗則。データ品質が最適配分を左右(concept) - [[コードLLM]] — コード生成・補完に特化した LLM(concept) - [[マルチトークン予測]] — 1 フォワードパスで複数トークンを同時予測(concept) - [[ビジョン言語モデル]] — 視覚と言語を統合するマルチモーダル LLM(concept) - [[@2016__OReilly__SRE Book - Chapter 10 Practical Alerting from Time-Series Data]] — Borgmon の設計と Prometheus への系譜、宣言型ルール評価(source) - [[@2016__OReilly__SRE Book - Chapter 11 Being On-Call]] — オンコールの量的・質的均衡原則、フォロー・ザ・サン(source) - [[@2016__OReilly__SRE Book - Chapter 12 Effective Troubleshooting]] — 仮説演繹法に基づくトラブルシューティングの体系化(source) - [[@2016__OReilly__SRE Book - Chapter 13 Emergency Response]] — テスト誘発型障害 vs 訓練なし障害の対比(source) - [[@2016__OReilly__SRE Book - Chapter 14 Managing Incidents]] — ICS に基づくインシデント管理の 4 役割(source) - [[@2016__OReilly__SRE Book - Chapter 15 Postmortem Culture - Learning from Failure]] — ブレームレスポストモーテム文化の定着(source) - [[@2016__OReilly__SRE Book - Chapter 16 Tracking Outages]] — Outalator によるアウテージのパッシブ集約と追跡(source) - [[@2016__OReilly__SRE Book - Chapter 17 Testing for Reliability]] — テストと信頼性の定量的関係、カナリアテスト(source) - [[@2016__OReilly__SRE Book - Chapter 18 Software Engineering in SRE]] — Auxon による意図ベースのキャパシティプランニング(source) - [[@2016__OReilly__SRE Book - Chapter 28 Accelerating SRE On-Call]] — 体系的オンボーディング、Shadow→On-Call→Project Owner(source) - [[@2016__OReilly__SRE Book - Chapter 29 Dealing with Interrupts]] — 時間の二極化と認知的フロー状態(source) - [[@2016__OReilly__SRE Book - Chapter 30 Embedding an SRE to Recover from Operational Overload]] — 埋め込み SRE の 3 フェーズモデル(source) - [[@2016__OReilly__SRE Book - Chapter 31 Communication and Collaboration in SRE]] — プロダクションミーティングとチーム連携(source) - [[@2016__OReilly__SRE Book - Chapter 32 The Evolving SRE Engagement Model]] — PRR→早期関与→フレームワークの進化(source) - [[@2016__OReilly__SRE Book - Chapter 33 Lessons Learned from Other Industries]] — 航空・医療・製造業からの教訓(source) - [[@2026__arXiv__Agent System Operations - Categorization, Challenges, and Future Directions]] — [[Zexin Wang]]・[[Changhua Pei]] ほか。LLM エージェントシステムの異常タクソノミーと AgentOps フレームワーク(IEEE TSE, arXiv 2026-06-01) - [[@2026__arXiv__Which Types of Heterogeneity Matter for Root Cause Localization in Microservice Systems]] — [[Runzhou Wang]]・[[Shenglin Zhang]]・[[Dan Pei]] ほか(南開大学・清華大学)。マイクロサービス RCL における entity-level 異質性の実証分析と NexusRCL(異種グラフ+半教師付き能動学習、arXiv:2604.26670, 2026-04-29) - [[@2026__arXiv__XWind - A Cross-site Router for Large Language Model Inference Serving at Renewable Energy Farms]] — [[Debopam Bhattacherjee]] ほか [[Microsoft]]。[[AI Greenferencing]] 展開モデルと可変風力電力下 LLM 推論ルーター [[XWind]]（arXiv:2605.23348, 2026-05-22） - [[XWind]] — [[Microsoft]] の再生可能エネルギーファーム向け LLM 推論クロスサイトルーター（product） - [[Debopam Bhattacherjee]] — [[Microsoft]] リサーチャー。[[AI Greenferencing]] と [[XWind]] の提唱者（person） - [[@2026__応用物理__機械学習の原点 - 統計的機械学習の世界]] — [[赤穂昭太郎]]（[[産業技術総合研究所]]）による応用物理誌基礎講座。少量データ・解釈性が重要な応用物理・材料科学向けに[[統計的機械学習]]・[[ベイズ最適化]]・[[アンサンブル学習]]を概説(source, 応用物理 Vol.95 No.5, 2026) - [[AI Greenferencing]] — 再生可能エネルギーの発電源にモジュラー型 AI コンピュートを配置する展開モデル（concept） - [[@2026__arXiv__UModel - An Agent-Ready Observability Data Modeling Method at Scale]] — [[Changhua Pei]]・[[Gaogang Xie]]・[[Dan Pei]] ほか（CNIC CAS/UCAS/Alibaba/Tsinghua）。オブザーバビリティのオブジェクト中心統一モデリング [[UModel]] と U-SPL。[[Alibaba Cloud]] 本番 1 年以上・RCA 精度 8% 向上（arXiv:2606.04799, 2026-06-03） - [[UModel]] — CNIC/CAS・UCAS・[[Alibaba Cloud]] が開発したエージェント対応オブザーバビリティデータモデリングフレームワーク（product） - [[Gaogang Xie]] — CNIC/CAS・Hangzhou Institute for Advanced Study UCAS の研究者。[[UModel]] 共著者（person） - [[オブザーバビリティデータモデル]] — メトリクス・ログ・トレースをエンティティ・関係・セマンティクスとしてモデル化しエージェント RCA を支援するデータアーキテクチャ（concept） - [[@2022__IEEE ACCESS__A Survey on Observability of Distributed Edge & Container-Based Microservices]] — [[Muhammad Usman]]・[[Simone Ferlin]]・[[Anna Brunstrom]]・[[Javid Taheri]]（[[Karlstad University]]）。分散エッジ・コンテナ化マイクロサービスのオブザーバビリティ包括サーベイ。三本柱・SRE ゴールデンシグナル・F*/C* 枠組み・オープン課題（IEEE ACCESS 2022, DOI:10.1109/ACCESS.2022.3193102） - [[Muhammad Usman]] — [[Karlstad University]] ポスドク研究員。エッジコンピューティング・分散システムオブザーバビリティ研究者（person） - [[Simone Ferlin]] — [[Red Hat]] シニア性能エンジニア。MPTCP・輻輳制御の専門家（person） - [[Anna Brunstrom]] — [[Karlstad University]] 教授。分散システム・5G ネットワーク研究者（person） - [[Javid Taheri]] — [[Karlstad University]] 教授。クラウド・SDN 最適化研究者（person） - [[Karlstad University]] — スウェーデンの大学。5G・エッジ・オブザーバビリティ研究グループを擁する（organization） - [[@2015__CSUR__Performance Anomaly Detection and Bottleneck Identification]] — [[Olumuyiwa Ibidunmoye]]・[[Francisco Hernández-Rodriguez]]・[[Erik Elmroth]]([[Umeå University]])。PADBI 分野の体系的サーベイ(ACM CSUR 2015)。4 検知戦略・統計/ML 手法の分類体系・クラウド固有課題を整理（source） - [[Olumuyiwa Ibidunmoye]] — [[Umeå University]] 研究者。PADBI サーベイ第一著者（person） - [[Francisco Hernández-Rodriguez]] — [[Umeå University]] 研究者。PADBI サーベイ共著者（person） - [[Erik Elmroth]] — [[Umeå University]] 教授。クラウドコンピューティング・自律システム専門（person） - [[Umeå University]] — スウェーデン北部の大学。クラウドコンピューティング・分散システム管理研究で知られる（organization） - [[@2021__ISSRE__How Long Will it Take to Mitigate this Incident for Online Service Systems]] — [[Weijing Wang]]ほか([[Tianjin University]]/[[Microsoft]])。インシデント TTM 予測の最初の深層学習研究(IEEE ISSRE 2021)。T3 が TTM の 70% を占める実証・TTMPred(biGRU+アテンション+連続損失)が MAE 25.66% 改善（source） - [[Weijing Wang]] — [[Tianjin University]] の研究者。TTMPred(ISSRE 2021)筆頭著者（entity / person） - [[Tianjin University]] — 中国・天津市の国立研究大学（entity / organization） - [[インシデントTTM予測]] — インシデント緩和時間(TTM)を複数時点で予測する ML タスク。T3 フェーズが支配的という実証に基づく（concept） - [[@2020__ASE__How Incidental are the Incidents - Characterizing and Prioritizing Incidents for Large-Scale Online Service Systems]] — [[Junjie Chen]]・[[Qingwei Lin]](対応)ほか([[Tianjin University]] / [[Microsoft]] / [[University of Newcastle]] / [[Peking University]])。Microsoft 18 オンラインサービスで incidental incidents が平均 50.32%・TTR の 55.05% を消費すると初めて定量化(ASE 2020)。attention 付き CNN + 関連 incident 取り込みの [[DeepIP]] が AUC 0.808 で bug-severity 流用ベースラインを 18 全システムで上回る（source） - [[Junjie Chen]] — [[Tianjin University]] 助教。DeepIP(ASE 2020)筆頭著者（entity / person） - [[Shu Zhang]] — [[Microsoft]] Research Beijing 所属(2020)。DeepIP 共著者（entity / person） - [[Xiaoting He]] — [[Microsoft]] Research Beijing 所属(2020)。DeepIP 共著者（entity / person） - [[Dan Hao]] — [[Peking University]] 所属。ソフトウェア工学・AIOps 研究者。DeepIP 共著者（entity / person） - [[Feng Gao]] — [[Microsoft Azure]] Redmond 所属。DeepIP 共著者（entity / person） - [[Zhangwei Xu]] — [[Microsoft Azure]] Redmond 所属。DeepIP 共著者（entity / person） - [[Yingnong Dang]] — [[Microsoft Azure]] Redmond 所属。DeepIP 共著者（entity / person） - [[University of Newcastle]] — オーストラリア Callaghan 所在の公立研究大学。[[Hongyu Zhang]] が 2020〜2021 年時点で所属（entity / organization） - [[DeepIP]] — Microsoft の attention 付き CNN + 関連 incident 取り込みベースのインシデント優先順位付け手法。AUC 平均 0.808（entity / product） - [[インシデント優先順位付け]] — 自動報告された大量のインシデントを essential / incidental に分類して工数最適化するタスク。Chen+ ASE2020 が 6 カテゴリ taxonomy を導出（concept） - [[@2023__ISSRE__How to Manage Change-Induced Incidents - Lessons from the Study of Incident Life Cycle]] — [[Yujin Zhao]]・[[Ling Jiang]]ほか([[Peking University]]/[[Alibaba Group]])。変更起因インシデントのライフサイクル分析(IEEE ISSRE 2023)。RaIC vs RbIC・TTD 7.67 倍差・モニター失敗 3 類型（source） - [[@2023__ICSE-SEIP__An Empirical Study on Change-induced Incidents of Online Service Systems]] — [[Yifan Wu]]・[[Ying Li]]ほか([[Peking University]]/[[Ant Group]])。Ant Group の変更起因インシデント実証分析(ICSE-SEIP 2023)。重篤度 2.6 倍・4 課題の特定（source） - [[変更起因インシデント]] — ソフトウェア変更が起因のインシデントの分類・ライフサイクル・緩和戦略。RbIC は RaIC より TTM を 40.6% 短縮（concept） - [[Yujin Zhao]] — [[Peking University]]/[[Alibaba Group]]。変更起因インシデントライフサイクル論文第一著者（person） - [[Ling Jiang]] — [[Alibaba Group]] エンジニア。変更起因インシデントライフサイクル論文共著者（person） - [[Ye Tao]] — [[Peking University]] 研究者。変更起因インシデントライフサイクル論文共著者（person） - [[Songlin Zhang]] — [[Alibaba Group]] エンジニア。変更起因インシデントライフサイクル論文共著者（person） - [[Changlong Wu]] — [[Alibaba Group]] エンジニア。変更起因インシデントライフサイクル論文共著者（person） - [[Yifan Wu]] — [[Peking University]] 研究者。ISSRE 2023・ICSE-SEIP 2023 の両論文著者（person） - [[Zhonghai Wu]] — [[Peking University]] 教授。変更起因インシデントライフサイクル論文シニア著者（person） - [[Bingxu Chai]] — [[Ant Group]] エンジニア。ICSE-SEIP 2023 論文共著者（person） - [[Bingchang Liu]] — [[Ant Group]] エンジニア。ICSE-SEIP 2023 論文共著者（person） - [[Jianguo Li]] — [[Ant Group]] シニアエンジニア。ICSE-SEIP 2023 論文責任著者（person） - [[Yong Yang]] — [[Peking University]] 研究者。ICSE-SEIP 2023 論文共著者（person） - [[Wei Jiang]] — [[Ant Group]] エンジニア。ICSE-SEIP 2023 論文共著者（person） - [[@2023__ESEC-FSE__Detection Is Better Than Cure - A Cloud Incidents Perspective]] — [[Vaibhav Ganatra]] ほか [[Microsoft]]（ESEC/FSE 2023）。Microsoft 300 超サービス・2022 年間の本番インシデント約 950 件を分析し、ミス検知 6 カテゴリタクソノミ（Missing monitor/alert 40.41% が最大）を構築。ミス検知の 27.25% がアウテージに発展し、顧客報告インシデントは TTD 10.7 倍・TTM 3.75 倍と定量化。サービス成熟度が「何を監視すべきか」を、依存関係数が「どう監視すべきか」を決める(source / paper) - [[Vaibhav Ganatra]] — [[Microsoft]] India 所属。ミス検知タクソノミ研究（ESEC/FSE 2023）筆頭著者(person / aiops) - [[Yu Kang]] — [[Microsoft]] China 所属。ミス検知タクソノミ研究（ESEC/FSE 2023）共著者(person / aiops) - [[Anjaly Parayil]] — [[Microsoft]] India 所属。ミス検知タクソノミ研究（ESEC/FSE 2023）共著者(person / aiops) - [[クラウドモニタリング]] — クラウドサービスの稼働状態・性能・健全性を自動化ウォッチドッグで継続観察しインシデントを先手で検知・報告する運用実践の総体。Ganatra et al. 2023 はミス検知 6 カテゴリタクソノミを構築し、40.41% が「必要なモニタ/アラートが存在しない（Missing monitor/alert）」に起因することを実証。(AIOps / SRE / cloud operations) - [[@2024__arXiv__Chatbot Arena - An Open Platform for Evaluating LLMs by Human Preference]] — [[Wei-Lin Chiang]]・[[Lianmin Zheng]] ほか [[LMSYS]]/UC Berkeley(arXiv 2024)。クラウドソーシング型ペアワイズ比較で LLM を評価するオープンプラットフォーム [[Chatbot Arena]] を提案。Bradley-Terry モデルで統計的ランキング、能動サンプリングで最大 54% 少ない投票数で同等精度、240K 票・90K ユーザー・50+ モデルで検証。(source / paper / llm-evaluation) - [[LLM評価]] — LLM の性能・人間嗜好との整合を定量化する手法の総称。静的ベンチマーク(MMLU 等)の限界(汚染・オープンエンド評価困難)と、クラウドソーシング型ペアワイズ比較・LLM-as-judge の 2 アプローチ。Bradley-Terry モデルと能動サンプリングによる効率的ランキング。(concept / llm-evaluation / benchmarking) - [[Wei-Lin Chiang]] — [[University of California, Berkeley]] 博士課程。[[LMSYS]] 共同設立者。[[Chatbot Arena]] 第一著者(同等貢献、arXiv 2024)(person) - [[Lianmin Zheng]] — [[University of California, Berkeley]] 博士課程。[[LMSYS]] 共同設立者。[[Chatbot Arena]] 第一著者(同等貢献、arXiv 2024)。SGLang・Vicuna の主要著者(person) - [[LMSYS]] — Large Model Systems Organization。UC Berkeley 主導。[[Chatbot Arena]]・Vicuna・SGLang・LMSYS-Chat-1M を開発・公開(organization) - [[Chatbot Arena]] — [[LMSYS]] 開発の LLM 評価オープンプラットフォーム。匿名ペアワイズ比較 + Bradley-Terry モデルによるクラウドソーシング型ランキング。2024 年 1 月時点 240K 票・90K ユーザー(product) - [[@2004__OSDI__Correlating Instrumentation Data to System States - A Building Block for Automated Diagnosis]] — [[Ira Cohen]]・[[Moises Goldszmidt]]・[[Terence Kelly]]・[[Julie Symons]]（[[HP Labs]]）・[[Jeffrey S. Chase]]（[[Duke University]]）による OSDI 2004 論文。TAN で SLO 違反と相関する 3–8 メトリクスを自動特定、balanced accuracy 87–94%。「メトリクス帰属」と「相関 ≠ 因果」の先駆的定式化(source / paper / aiops) - [[Ira Cohen]] — [[HP Labs]] 所属。TAN ベース SLO 違反分類の筆頭著者（OSDI 2004）(person) - [[Moises Goldszmidt]] — [[HP Labs]] 所属。確率的グラフィカルモデルの専門家。TAN ベース SLO 違反分類共著者（OSDI 2004）(person) - [[Terence Kelly]] — [[HP Labs]] 所属。TAN ベース SLO 違反分類共著者（OSDI 2004）(person) - [[Julie Symons]] — [[HP Labs]] 所属。TAN ベース SLO 違反分類共著者（OSDI 2004）(person) - [[Jeffrey S. Chase]] — [[Duke University]] コンピュータサイエンス学科所属。TAN ベース SLO 違反分類共著者（OSDI 2004）(person) - [[HP Labs]] — Hewlett-Packard 企業研究部門（Palo Alto, CA）。[[Ira Cohen]] ら 4 名が TAN ベース SLO 違反分類を OSDI 2004 で発表(organization) - [[Duke University]] — 米国ノースカロライナ州ダーラムの研究大学。[[Jeffrey S. Chase]] が HP Labs との共同研究に参加（OSDI 2004）(organization) - [[@2017__FAST__Chronix - Long Term Storage and Retrieval Technology for Anomaly Detection in Operational Data]] — 運用データ異常検知特化ドメイン固有 TSDB Chronix（FAST '17、QAware / FAU）(source) - [[Florian Lautenschlager]] — QAware GmbH、Chronix 筆頭開発者(entity/person) - [[Michael Philippsen]] — FAU プログラミングシステムグループ教授、Chronix 共同開発者(entity/person) - [[Andreas Kumlehn]] — FAU 所属研究者、Chronix 共同開発者(entity/person) - [[Josef Adersberger]] — QAware GmbH 共同創業者・CTO、Chronix 共同開発者(entity/person) - [[QAware GmbH]] — ドイツ・ミュンヘンのソフトウェアエンジニアリング会社、Chronix 開発拠点(entity/organization) - [[Friedrich-Alexander-Universität Erlangen-Nürnberg]] — ドイツ FAU、Chronix 研究機関(entity/organization) - [[Chronix]] — ドメイン固有 TSDB、DDC・汎用データモデル・ビルトイン解析(entity/product) - [[@2023__WWW__CMDiagnostor - An Ambiguity-Aware Root Cause Localization Approach Based on Call Metric Data]] — [[Qingyang Yu]] ほか(Tsinghua/CNIC/Nankai/Tencent)、WWW 2023。CMD コールグラフの曖昧性(AmSit)を初めて定式化し AmSitor + 4 段階フレームワーク CMDiagnostor を提案。HR@5=0.94・MRR=0.83 (source / paper / rca / microservice) - [[Bowen Hao]] — [[Nankai University]] 所属。CMDiagnostor(WWW 2023)の共著者(entity/person) - [[Mingjie Li]] — [[Tsinghua University]]/BNRist 所属。CMDiagnostor(WWW 2023)の共著者(entity/person) - [[Xianglin Lu]] — [[Tsinghua University]]/BNRist 所属。CMDiagnostor(WWW 2023)の共著者(entity/person) - [[@2026__arXiv__Position - The Inevitable End of One-Architecture-Fits-All-Domains in Time Series Forecasting]] — Ma+, arXiv 2026。汎ドメイン TSF アーキテクチャとドメイン特化 SOTA の和解不能な矛盾を論証。メタラーニング(LLM Scientist)への方向転換を提言(source / paper / time-series / meta-learning) - [[Qinwei Ma]] — [[Tsinghua University]] の研究者。時系列予測ポジションペーパー筆頭著者(entity / person) - [[Jingzhe Shi]] — [[Tsinghua University]] の研究者。同ポジションペーパー共著者(entity / person) - [[Jiahao Qiu]] — [[Princeton University]] の研究者。TFB ベンチマーク共著者(entity / person) - [[Zaiwen Yang]] — [[Tsinghua University]] の研究者。同ポジションペーパー共著者(entity / person) - [[@2025__KDD__Can Slow-thinking LLMs Reason Over Time - Empirical Studies in Time Series Forecasting]] — Cheng+ WSDM 2026。訓練不要 DeepSeek-R1 ベースの TimeReasoner で深層学習ベースラインと競合する性能を実証(source / paper / time-series / llm / reasoning) - [[@2025__NeurIPS__Time-R1 - Post-Training Large Vision Language Model for Temporal Video Grounding]] — Wang+ NeurIPS 2025。LVLM の TVG タスクへの GRPO + tIoU 報酬による初の RLVR 後訓練。2.5K サンプル RL が 339K SFT を超える(source / paper / video-understanding / vlm / rl) - [[@2026__ICLR2026__TimeOmni-1 - Incentivizing Complex Reasoning with Time Series in Large Language Models]] — Guan+ ICLR 2026。TSR-Suite(4 タスク 23K)と SFT+GRPO の二段階訓練で因果発見 GPT-4.1 を 40.6% 上回る(source / paper / time-series / llm / rl) - [[@2024__Zenn__tsurubee__LLM-for-Time-Series]] — tsurubee(SAKURA internet)による Zenn 記事(2024-07-10)。LLM×時系列の 5 アプローチ分類(Prompting/Quantization/Aligning/Vision/Tool)を解説。LLMTime のゼロショット性能と One Fits All の知識転移可能性を紹介(source / article / time-series / llm / survey) - [[@2024__arXiv__Towards Time-Series Reasoning with LLMs]] — Chow+ NeurIPS 2024 Workshop。時系列推論を知覚→文脈化→演繹に分解し、知覚ボトルネックを定式化。軽量エンコーダ+LoRA で 7B が GPT-4o を超える(source / paper / time-series / llm / multimodal) - [[@2025__arXiv__AlphaCast - A Human Wisdom-LLM Intelligence Co-Reasoning Framework for Interactive Time Series Forecasting]] — Zhang+ USTC arXiv 2025-11。Investigator-Generator-Reflector の三段階エージェント型推論。反省モジュール除去で Sunny Power が非推論ベースラインより悪化(source / paper / time-series / llm / agentic) - [[時系列推論]] — 生の時系列入力に対して多段階の中間思考で予測・分類・因果発見・意思決定の解を導く LLM ベースのパラダイム(concept / machine-learning / llm) - [[検証可能報酬による強化学習]] — LLM 出力に客観的検証可能な報酬を与える後訓練枠組み(RLVR)。GRPO が代表アルゴリズムで、コード・数学・視覚推論・映像理解・時系列推論へ拡大(concept / rl / llm) - [[時間的映像グラウンディング]] — 自然言語クエリと映像から区間 [ts, te] を予測する TVG タスク。特徴量ベース → SFT-LVLM → RLVR-LVLM の三世代(concept / video / vlm) - [[Tong Guan]] — Griffith U / Zhejiang U の研究者。TimeOmni-1 と TSR-Suite の筆頭著者(entity / person) - [[Qin Jin]] — Renmin U AIM3 Lab の教授。Time-R1 の対応著者(entity / person) - [[MiLM Plus]] — Xiaomi Inc. の AI 研究組織。Time-R1 を Renmin U と共同開発(entity / organization) - [[Xiaomi]] — 中国の総合家電・スマートデバイス企業。MiLM Plus を擁する(entity / organization) - [[Jiahao Wang]] / [[Daoyu Wang]] / [[Xiaohan Zhang]] / [[Tian Gao]] — USTC の研究者。TimeReasoner / AlphaCast 共著者(entity / person) - [[Winnie Chow]] / [[Lauren Gardiner]] / [[Haraldur T. Hallgrimsson]] / [[Maxwell A. Xu]] / [[Shirley You Ren]] — Stanford / Apple / UIUC の研究者。Chow+ NeurIPS 2024 Workshop 共著者(entity / person) - [[Apple]] — アメリカのテクノロジー企業。機械学習・時系列解析の研究グループを擁する(entity / organization) - [[Borgmon]] — [[Google]] の初代分散監視システム。[[Monarch]] の前身。分散管理・スキーマなし・distribution 型欠如・手動シャーディングの 4 課題が Monarch 設計の動機(entity / product) - [[@2020__VLDB__Monarch - Google's Planet-Scale In-Memory Time Series Database]] — Google の 950 億時系列・プラネットスケール・インメモリ TSDB Monarch の設計・実装論文。FHI・Collection Aggregation・クエリプッシュダウンを主要技術とする(source / time-series / distributed) - [[@2026__Netflix TechBlog__From Silos to Service Topology - Why Netflix Built a Real-Time Service Map]] — Parth Jain ほか(Netflix)、2026-05-29。eBPF・IPC メトリクス・分散トレースの 3 層統合でリアルタイムサービス依存マップを構築。Pekko Streams・カスタムグラフ DB・gRPC で提供(source / article / distributed-systems / observability / microservices) - [[C10K-Problem]] — Dan Kegel(1999〜2014)。1台のサーバで同時10,000クライアントを処理するための I/O 戦略を5分類。[[epoll]]・[[kqueue]]・NPTL・sendfile・ゼロコピーを整理した古典的リファレンス(source / article / networking / systems) - [[C10K問題]] — 1台のサーバで同時に 10,000 クライアントを処理するための I/O アーキテクチャ上の課題。Dan Kegel が 1999 年に命名(concept / networking / concurrency) - [[epoll]] — Linux 2.6 のスケーラブルな I/O イベント通知機構。Davide Libenzi が 2001 年提案、2.5.46 でマージ。[[C10K問題]] への Linux の回答(concept / linux / networking) - [[kqueue]] — FreeBSD/NetBSD/macOS のスケーラブル汎用イベント通知機構。ソケット・ファイル・シグナル・タイマー等を統一監視。[[epoll]] の BSD 版(concept / bsd / networking) - [[Dan Kegel]] — [[C10K問題]] を 1999 年に命名・整理した技術者(entity / person) - [[nginx]] — [[C10K問題]] の解法を体現したイベント駆動型 Web サーバ。Linux では [[epoll]]、BSD では [[kqueue]] を自動選択(entity / product) - [[@2023__arXiv__TimeGPT-1]] — TimeGPT-1、Nixtla、時系列初ファウンデーションモデル(source / time-series) - [[Cristian Challu]] — Nixtla 研究者、TimeGPT-1 共著(entity / person) - [[Max Mergenthaler-Canseco]] — Nixtla 研究者、TimeGPT-1 共著(entity / person) - [[Nixtla]] — 時系列予測スタートアップ、TimeGPT 開発元(entity / organization) - [[@2026__SREcon26 Americas__The WTF Problem - Developer Experience as a Reliability Property]] — Nicole Forsgren、SREcon26 スライド。DX を SRE の信頼性特性として定義、DORA+SPACE+MTWTF で計測(source / slides / sre / developer-experience) - [[@2020__ICSE-SEIP__Understanding and Handling Alert Storm for Online Service Systems]] — Zhao+ ICSE-SEIP2020、アラートストームの初実証研究 + EVT 検知 + 4 段要約(source / aiops / alert-management) - [[@2020__ISSRE__AlertRank - Automatically and Adaptively Identifying Severe Alerts for Online Service Systems]] — Zhao+ ISSRE2020、XGBoost + Resolution Record 自動ラベルで F1=0.89(source / aiops / alert-management) - [[@2023__arXiv__ESRO - Experience Assisted Service Reliability against Outages]] — Chakraborty+ arXiv2023、CK グラフでアラート+障害レポート統合の経験ベース診断(source / aiops / root-cause-analysis) - [[@2023__ASE__Dynamic Graph Neural Networks-Based Alert Link Prediction for Online Service Systems]] — Chen+ ASE2023 (DyAlert)、AMDG + k-GNN + GRU でアラートリンク予測(source / aiops / graph-neural-network) - [[@2023__JCC__Filtering Alerts on Cloud Monitoring Systems]] — Voutsas+ JCC2023、Netdata でクリック行動ベース Random Forest フィルタ(source / aiops / cloud-monitoring) - [[@2023__ICSE-SEIP__TraceArk - Towards Actionable Performance Anomaly Alerting for Online Service Systems]] — Zeng+ ICSE-SEIP2023、ExL + パス粒度集約でアクショナブルアラート(source / aiops / alert-management) - [[@2024__CCGRID__AlertRCA - Causality Enhanced Graph Representation Learning for Alert-Based Root Cause Analysis]] — Yu+ CCGRID2024、アラートのみで top-1 83.9% RCA(source / aiops / root-cause-analysis) - [[@2024__ICSE-SEIP__Dynamic Alert Suppression Policy for Noise Reduction in AIOps]] — Bhukar+ ICSE-SEIP2024、教師なし統計学習で X-out-of-Y 抑制ポリシーを自動学習(source / aiops / alert-management) - [[@2024__ISSRE__Exploring Hierarchical Patterns for Alert Aggregation in Supercomputers]] — Yuan+ ISSRE2024 (SuperAgg)、HPC 連続的アラート過負荷を 2 段階階層構造で集約(source / aiops / hpc) - [[アラートストーム]] — アラート伝播による集中発火現象、Zhao+ 2020 が初定義(concept / aiops) - [[アラート抑制]] — 発火前のノイズ除去機構、Bhukar+ 2024 が動的学習(concept / aiops) - [[アクショナブルアラート]] — impact + interpretability 2 軸の解釈可能アラート、TraceArk + AlertRank(concept / aiops) - [[@2022__DICOMO__AI時代に向けたクラウドにおける信頼性エンジニアリングの未来構想]] — DICOMO 2022 統一セッション「クラウド」招待講演スライド。SRE/AIOps の現在地、[[セルフクラフト]]、[[Interactive AIOps]] を接続する(source / slides) - [[Interactive AIOps]] — オペレータと AI が対象システムの特徴を対話的に協働学習する AIOps 構想(concept / aiops) - [[セルフクラフト]] — AI との対話で利用者が個別化アプリケーションを製作し、信頼性目標を体験的に調整する未来像(concept / sre) ### 2026-06-19 JANOG56 スライド ingest - Sources: [[@2025__JANOG56__AI ML基盤における800GbEスイッチ導入とその挑戦]] - Entities: [[サイバーエージェント]], [[CIU]], [[小障子尚太朗]], [[疋田紅樹]], [[Juniper QFX5240]] - Concepts (new): [[Rail-Optimizedトポロジ]], [[マルチベンダーLosslessネットワーク]] - Concepts (updated): [[集合通信]], [[データセンター輻輳制御]], [[GPUクラスタ運用]] ### 2026-06-20 マイクロサービス・DB RCA 基礎論文 10 本一括 ingest - Sources: [[@2013__SIGMETRICS__Root Cause Detection in a Service-Oriented Architecture]], [[@2014__CNSM__Mining Temporal Lag from Fluctuating Events for Correlation and Root Cause Analysis]], [[@2018__CCGrid__CloudRanger - Root Cause Identification for Cloud Native Systems]], [[@2019__ISSRE__FluxRank - A Widely-Deployable Framework to Automatically Localizing Root Cause Machines for Software Service Failure Mitigation]], [[@2019__WWW__ε-Diagnosis - Unsupervised and Real-time Diagnosis of Small-window Long-tail Latency in Large-scale Microservice Platforms]], [[@2020__IPCCC__FluxInfer - Automatic Diagnosis of Performance Anomaly for Online Database System]], [[@2020__WWW__AutoMAP - Diagnose Your Microservice-based Web Applications Automatically]], [[@2021__CloudIntelligence__MicroDiag - Fine-grained Performance Diagnosis for Microservice Systems]], [[@2022__ICWS__TS-InvarNet - Anomaly Detection and Localization based on Tempo-spatial KPI Invariants in Distributed Services]], [[@2023__arXiv__PyRCA - A Library for Metric-based Root Cause Analysis]] - Entities: [[Myunghwan Kim]], [[LinkedIn]], [[Chunqiu Zeng]], [[Tao Li]], [[Florida International University]], [[Larisa Shwartz]], [[Genady Grabarnik]], [[Ping Wang]], [[Ping Liu]], [[Huasong Shan]], [[JD.com]], [[Li Wu]], [[Johan Tordsson]], [[Odej Kao]], [[TU Berlin]], [[Umeå University]], [[Elastisys AB]], [[Jasmin Bogatinovski]], [[Erik Elmroth]], [[Chenghao Liu]], [[Doyen Sahoo]], [[Steven C. H. Hoi]], [[Salesforce AI]] - Concepts (updated): [[根本原因分析]], [[因果推論ベースRCA]], [[マイクロサービスコールグラフ]], [[異常検知]], [[データベース自律診断]] ### 2026-06-23 Conductor (ICLR 2026) - Sources: [[@2026__ICLR__Learning to Orchestrate Agents in Natural Language with the Conductor]] - Entities (new): [[Sakana AI]], [[Stefan Nielsen]], [[Edoardo Cetin]], [[Yujin Tang]] - Concepts (new): [[マルチエージェント協調]] - Concepts (updated): [[テスト時計算スケーリング]] ### 2026-06-23 JustDiag (arXiv 2026) - Sources: [[@2026__arXiv__JustDiag! A Diagnostic Justification Engine for Accountable Root Cause Analysis]] - Entities (new): [[Tingzhu Bi]], [[Xinrui Jiang]], [[Xun Zhang]], [[Pengcheng Su]], [[Congjie He]], [[Jinglin Li]], [[Meng Ma]], [[Beijing University of Posts and Telecommunications]] - Entities (updated): [[Ping Wang]] - Concepts (new): [[診断的正当化]] - Concepts (updated): [[LLMによる根本原因分析]], [[仮説駆動RCA]], [[RCA評価設計]] ### 2026-06-23 mABC (EMNLP Findings 2024) - Sources: [[@2024__EMNLP Findings__mABC - Multi-Agent Blockchain-inspired Collaboration for Root Cause Analysis in Micro-Services Architecture]] - Entities (new): [[Wei Zhang (Beihang)]], [[Hongcheng Guo]], [[Cloudwise]] - Entities (updated): [[Beihang University]] - Concepts (updated): [[LLMによる根本原因分析]], [[マルチエージェント協調]] ### 2026-06-23 Cognitive Apprenticeship in Practice (SREcon23 Americas) - Sources: [[@2023__SREcon23 Americas__Cognitive Apprenticeship in Practice with Alert Triage Hour of Power]] - Entities (new): [[Paige Cruz]], [[Chronosphere]] - Concepts (new): [[認知的徒弟制]] - Concepts (updated): [[アラート管理]], [[アクショナブルアラート]] ### 2026-06-23 Anomaly Detection in Infrequently Occurred Patterns (SREcon17 Americas) - Sources: [[@2017__SREcon17Americas__Anomaly Detection in Infrequently Occurred Patterns]] - Entities (new): [[Dong Wang]], [[Baidu]] - Concepts (updated): [[異常検知]] ### 2026-06-25 - [[@2023__SREcon23 EMEA__Symptom-based Alerting for Machine Learning]] — Lina Weichbrodt, SREcon23 EMEA, 症状ベースアラーティングの ML 転用 - [[Lina Weichbrodt]] — ML フリーランス・コンサルタント - [[MLモデル監視]] — ML サービスの品質監視・3 段階優先順位フレームワーク ### 2026-06-26 - [[@2025__IOTS2025__SREはサイバネティクスの夢をみるか]] — 坪内佑樹, IOTS2025 招待講演, SRE のサイバネティクス的再解釈 - [[坪内佑樹]] — さくらインターネット研究所研究員、京都大学博士(情報学) - [[さくらインターネット研究所]] — さくらインターネット株式会社の研究開発部門 - [[自動化の皮肉]] — Bainbridge (1983) Ironies of Automation - [[なめらかなシステム]] — 利用者・情報システム・開発運用者の総体としてのシステム構想 ### 2026-06-26 再帰化 + なめらかなシステム DICOMO2025 スライド ingest - [[@2022__ペパボテックカンファレンス__再帰化への認知的転回]] — 三宅悠介, ペパボテックカンファレンス 2022, 再帰化の認知的転回 - [[@2025__DICOMO2025__なめらかなシステムと運用維持の終わらぬ未来]] — 三宅悠介, DICOMO2025 招待講演, なめらかなシステム再定義(仮) - [[再帰化]] — 関数の設計から系の設計へ - [[エフェクチュエーション]] — 目的生成的思考様式の実践枠組み ### 2026-06-26 とあるSREの博士「過程」 SRE NEXT 2025 スライド ingest - [[@2025__SRE NEXT 2025__とあるSREの博士「過程」]] — 坪内佑樹, SRE NEXT 2025, SRE としての博士課程の動機・研究・振り返り - Sources: [[@2025__SRE NEXT 2025__とあるSREの博士「過程」]] - Entities (updated): [[坪内佑樹]], [[SRE NEXT]] - Concepts (updated): [[SREの工学化]] ### 2026-06-26 デバッギング・性能解析・フィードバック 6 論文一括 ingest - [[@2002__IEEE TSE__Simplifying and Isolating Failure-Inducing Input]] — Zeller, IEEE TSE 2002, デルタデバッギング ddmin/dd - [[@2006__ICSE__HDD - Hierarchical Delta Debugging]] — Misherghi & Su, ICSE 2006, 木構造デルタデバッギング - [[@2014__OSDI__The Mystery Machine - End-to-end Performance Analysis of Large-scale Internet Services]] — Chow+, OSDI 2014, Facebook エンドツーエンド性能解析 - [[@2015__SOSP__Failure Sketching - A Technique for Automated Root Cause Diagnosis of In-Production Failures]] — Kasikci+, SOSP 2015, 本番障害の自動 RCA - [[@2015__Onward!__Runtime Metric Meets Developer - Building Better Cloud Applications using Feedback]] — Cito+, Onward! 2015, フィードバック駆動開発 - [[@2016__NSDI__Minimizing Faulty Executions of Distributed Systems]] — Scott+, NSDI 2016, 分散実行最小化 DEMi - Entities: [[Andreas Zeller]], [[Ghassan Misherghi]], [[Zhendong Su]], [[Michael Chow]], [[David Meisner]], [[Jason Flinn]], [[Thomas F. Wenisch]], [[George Candea]], [[Jürgen Cito]], [[Philipp Leitner]], [[Harald C. Gall]], [[Colin Scott]], [[Scott Shenker]], [[George Necula]], [[Gist]] - Concepts: [[デルタデバッギング]], [[階層的デルタデバッギング]], [[障害スケッチング]], [[フィードバック駆動開発]], [[分散実行最小化]] ### 2026-06-27 The Morning Paper on Operability (blog.acolyer 2016) - [[@2016__blog.acolyer__The Morning Paper on Operability]] — Colyer, blog.acolyer 2016, 運用性の 4 段階モデル（設計→可視化→デバッギング→フィードバック） - Entities: [[Adrian Colyer]] - Concepts: [[オペラビリティ]] ### 2026-06-27 OTel-Arrow Phase 2 blog post (opentelemetry.io 2026) - [[@2026__OTelBlog__OTel-Arrow-Phase-2]] — OpenTelemetry SIG-Arrow, 2026。Phase 2: Arrow をパイプライン全体の内部表現として採用した Dataflow Engine(Rust)。OTAP が単一コアで OTLP 比 **20×** スループット(2.47M vs 121K logs/sec)、4 rename 操作で CPU 6.6% vs 92.5%、16 コアで 14.6× 線形スケーリング - Entities: [[Apache-Arrow|Apache Arrow]] - Concepts: [[OTel-Arrow]], [[OTAP]] - [[@2019__SREcon19 Asia__A Tale of Two Postmortems - A Human Factors View]] — [[Tanner Lund]] (Microsoft Azure PRSE), SREcon19 APAC 2019。Human Factors/Resilience Engineering 視点からポストモーテムを批判的再設計。Dekker4目的・個別インタビュー・デブリーフィング手法 - Entities: [[Tanner Lund]] - Concepts: [[人的要因]](新規), [[レジリエンスエンジニアリング]](新規), [[ポストモーテム]](更新) ### 2026-06-27 SREcon16 Europe | Accident Models in Post Mortems - [[@2016__SREcon16Europe__Accident Models in Post Mortems]] — [[Will Gallego]]・[[Nathan Hoffman]]・[[Miriam Lautner]]（[[Etsy]]）、SREcon16 Europe 2016-07。事故モデル系譜・ヒューマンエラー批判・安全性の創発的特性・デブリーフィング7カテゴリ手法。transcript なし。 - Entities (new): [[Nathan Hoffman]], [[Miriam Lautner]] - Entities (updated): [[Will Gallego]], [[Etsy]] - Concepts (new): [[事故モデル]] - Concepts (updated): [[ポストモーテム]] ### 2026-06-27 SREcon15 Lueder | What Brought Us Down? Outage Trend Analysis at Google - [[@2015__SREcon15__What Brought Us Down - Outage Trend Analysis at Google]] — Sue Lueder（Google SRE PM）、2015-03。GQM フィードバックモデル・8 フェーズインシデントタイムライン・9 カテゴリ根本原因・4 次元重大度フラグ・Stop/Faster/Culture の 3 方向修正機会を公開。全データ捏造。transcript なし。 - Entities: [[Sue Lueder]] - Concepts (new): [[障害傾向分析]], [[インシデント重大度評価]] - Concepts (updated): [[インシデント管理]], [[根本原因分析]], [[ポストモーテム]] - Entities (updated): [[Google]] - [[@2023__SREcon23Americas__Far from the Shallows]] — [[Courtney Nash]]（[[Verica]]）。Duration/Severity/RCA の shallow data 批判、インシデントストーリー・Near Misses・Rasmussen Safety Boundaries 提唱（SREcon23 Americas, 2023-03-23） - [[Courtney Nash]] — Verica Head of Research、Internet Incident Librarian、The Void 主宰 - [[Verica]] — カオスエンジニアリング・インシデント研究プラットフォーム企業 - [[インシデントストーリー]] — 豊かな社会技術的詳細を持つ長形式インシデント記録（Nash 提唱） - [[@2023__SREcon23Americas__Turning an Incident Report into a Design Issue with TLA+]] — [[Finn Hackett]]（UBC）・[[Markus A. Kuppe]]（MSFT）。TLA+ をポストモーテムに適用し設計レベルの洞察を得るワークフロー（SREcon23 Americas, 2023-03-22） - [[Finn Hackett]] — UBC PhD 学生、TLA+ フォーマル検証研究 - [[Markus A. Kuppe]] — Microsoft Research、TLA+ プロジェクト 10 年超 - [[Joshua Rowe]] — Microsoft、Azure CosmosDB ドメインエキスパート - [[Azure CosmosDB]] — プラネットスケール KV ストア、5 段階整合性レベル、TLA+ モデル公開 - [[TLA+]] — 形式仕様記述言語。インシデントポストモーテムへの適用ワークフローを提示 ### 2026-06-28 SpeakerDeck | Postmortem as a textbook - [[@2023__SpeakerDeck__Postmortem as a textbook]] — [[KATO Toshiya]]（[[LINE株式会社]] Embedded SRE）、みんなで学ぶポストモーテム Lunch LT（Findy、2023-02-09）。ポストモーテムを「他チームが学べる教材」にするためのSRE主導執筆会議手法。当事者のみが執筆・共有する既存プロセスの5つの構造的問題を特定し、全体共有前の30分SRE主導会議で1対1に解決。 - Entities (new): [[KATO Toshiya]], [[LINE株式会社]] - Concepts (updated): [[ポストモーテム]](SRE主導執筆会議の横断的知見追記) ### 2026-06-28 SREcon26 Americas | Human Factors in the Age of AI Ops - [[@2026__SREcon26Americas__Human Factors in the Age of AI Ops]] — [[Eddie Redick]]（[[CTC Ops]]）SREcon26 Americas（2026-03-25、Seattle）。AI 信頼パラドックス（16%信頼 vs 68%統合予定）・Trust Triangle・Trust Spectrum（Observe/Advise/Assist/Partner）・"Commanding the Chaos"・AI Ops 80/20 の法則を提示。アラート疲労は「量の問題ではなくシステム問題」と再フレーミング。 - Entities (new): [[Eddie Redick]], [[CTC Ops]] - Concepts (updated): [[SRE AI Autonomy Levels]](Trust Spectrum 追記), [[アラート疲労]](2026統計追記), [[人的要因]](AI Ops 文脈追記) ### 2026-06-28 SREcon26 Americas | The Ironies of AI² - [[@2026__SREcon26Americas__The Ironies of AI²]] — [[J Paul Reed]]（[[Chime]]）SREcon26 Americas（2026-03-25、Seattle）。Bainbridge（1983）の自動化のアイロニー6項をAI時代に拡張し、Joint Cognitive System 5特性でインシデント対応中のAI利用を評価。匿名インシデント事例3件・ETO（効率性‐徹底性トレードオフ）・看護師実験（AI誤り多時96〜120%性能悪化、AI説明のみ条件で緩和）を提示。「インシデント中はAIに推薦でなく説明を求めよ」が主要実践的含意。 - Sources (new): [[@2026__SREcon26Americas__The Ironies of AI²]] - Entities (new): [[Chime]] - Entities (updated): [[J Paul Reed]](SREcon26登壇・Chime所属追記) - Concepts (updated): [[自動化のアイロニー]](SREcon26でのAI時代拡張・看護師実験知見追記), [[Joint Activity]](JCSとの対比・AIのInterpredictability欠如追記) ### 2026-06-28 O'Reilly Report | Incident Metrics in SRE (Davidovič, Google SRE) - [[@2021__OReilly__Incident Metrics in SRE]] — [[Štěpán Davidovič]]（Google SRE）、O'Reilly レポート（2021-03-19）。モンテカルロシミュレーション（10 万回）と 3 社実データ・Google 社内データで MTTR の統計的限界を実証。中央値・幾何平均・パーセンタイルも問題を解決しないことを示す。問いに合わせたメトリクス・ユーザースタディ・SLI/SLO を代替として提案。 - Entities (new): [[Štěpán Davidovič]] - Concepts (updated): [[TTXメトリクス]](Davidovič 2021 を正式ソース化・3 者批判の横断的知見追記) ### 2026-06-28 認知科学論文 | 縮約，網羅，減算：科学者の仕事とは何か (岡ノ谷一夫, 東京大学) - [[@2021__認知科学__縮約，網羅，減算：科学者の仕事とは何か]] — [[岡ノ谷一夫]]（[[東京大学]]）、認知科学 Vol.28 No.2 pp.236–241（2021-06-01）。池上高志への誌上討論コメンタリー。縮約・網羅・減算を三項対立で整理し、機械学習時代の科学方法論を論じる。 - Entities (new): [[岡ノ谷一夫]], [[東京大学]] - Concepts (new): [[縮約]], [[網羅]], [[減算]] ### 2026-06-29 SREcon19 Americas スライド | Case Study: Implementing SLOs for a New Service (Arnaud Lawson, Squarespace) - [[@2019__SREcon19Americas__Case Study - Implementing SLOs for a New Service]] — [[Arnaud Lawson]]（[[Squarespace]] Senior SRE）、SREcon19 Americas（2019-03-25）。Ceph Object Storage への SLO 実装 6 ステップ。可用性・レイテンシ・耐久性の 3 種 SLI。プローバーによる能動的 SLI 収集。Go コード例付き。23 スライド。 - Entities (new): [[Arnaud Lawson]], [[Squarespace]] - Concepts (updated): [[サービスレベル目標]](異種コンポーネント SLI 分類・プローバー計測の横断的知見追記), [[エラーバジェット]](SLO 設定と同時計算・文書化の実践知追記), [[SLI-SLO段階的導入]](新規サービスへのプローバー活用・SLO 公開ドキュメント知見追記) ### 2026-06-30 SREcon16 Europe スライド | HPC Downtime Budgets (Cory Lueninghoener, LANL) - [[@2016__SREcon16Europe__HPC Downtime Budgets]] — [[Cory Lueninghoener]]（[[Los Alamos National Laboratory]]）、SREcon Europe 2016（2016-07-12）。エラーバジェットを HPC 環境に適応した「ダウンタイム予算」実践報告。四半期 30 時間予算のバーンダウンチャート可視化。37 スライド + YouTube 自動字幕 transcript。 - Entities (new): [[Cory Lueninghoener]], [[Los Alamos National Laboratory]] - Concepts (updated): [[エラーバジェット]](HPC 適応・バーンダウンチャート・Wolf クラスタ超過事例・コミュニティ形成論) ### 2026-06-30 SREcon23 Americas スライド | Not All Minutes Are Equal: The Secret behind SLO Adoption Failure (Troy Koss + Michael Goins, Capital One) - [[@2023__SREcon23Americas__Not-All-Minutes-Are-Equal]] — [[Troy Koss]]・[[Michael Goins]]（[[Capital One]]）、SREcon23 Americas（2023-03-23）。時間スライス SLO の「すべての分を等価に扱う」問題とイベントベース SLO の優位性を比較。採用ロードマップ 6 段階・Default SLO 式・エラーバジェットシグナル解釈パターンを提示。40 ページ。transcript なし。 - Entities (new): [[Michael Goins]], [[Troy Koss]]; (updated): [[Capital One]] - Concepts (new): [[イベントベースSLO]]; (updated): [[エラーバジェット]]（時間スライス vs. イベントベース・シグナルパターン・EB Policy 4 者共有所有の横断的知見を追記） ### 2026-06-29 SREcon18 Asia/Pacific スライド | Quantifying Empathy Through Service Level Objectives (Ketan Gangatirkar, Indeed) - [[@2018__SREcon18Asia__Quantifying Empathy Through Service Level Objectives]] — [[Ketan Gangatirkar]]（[[Indeed]] VP of Engineering – Job Seeker）、SREcon18 Asia/Pacific（2018 年）。SLO 設計における「共感の数値化」をテーマに、ユーザー幸福の 6 フレーバー（#ARFCAapBof: Availability/Responsiveness/Freshness/Completeness/Accuracy/Breadth）と S 字曲線による痛みのしきい値特定の 5 ステップフレームワークを提示。152 スライド + YouTube 自動字幕トランスクリプト（1104 行）。 - Entities (new): [[Ketan Gangatirkar]], [[Indeed]] - Concepts (updated): [[サービスレベル目標]](共感ギャップ・6 フレーバー・S 字曲線しきい値の横断的知見を追記) ### 2026-06-30 SREcon25 EMEA スライド | Run, Walk, Crawl, or How We Failed Our Way to SLO Readiness (Rob Durst, Spring Health) - [[@2025__SREcon25EMEA__Run Walk Crawl or How We Failed Our Way to SLO Readiness]] — [[Rob Durst]]（[[Spring Health]]）、SREcon25 EMEA（2025-10-08、ダブリン）。ハイパーグロース・スタートアップにおける SLO 導入 4 度の挑戦（Run/Walk/Crawl/成功）と「SLO 準備度チェックリスト」4 条件（オブザーバビリティ基盤・ノミナル所有権・標準プロセス・保護時間）を提示。SLO 導入は社会技術問題であり socio 側が律速という主張が核心。51 ページ。transcript なし。 - Entities (new): [[Rob Durst]], [[Spring Health]] - Concepts (updated): [[サービスレベル目標]]（SLO 導入失敗律速・スタートアップでの定着 Lv5 到達の横断的知見を追記）, [[SLI-SLO段階的導入]]（4 条件前提条件診断・担当者交代問題・エラーバジェットコードフリーズの横断的知見を追記） ### 2026-06-30 ingest-paper | AI Assistants for Incident Lifecycle in a Microservice Environment: A Systematic Literature Review - [[@2024__arXiv__AI Assistants for Incident Lifecycle in a Microservice Environment - A Systematic Literature Review]] — [[Dahlia Ziqi Zhou]]・[[Marios Fokaefs]]（[[York University]]）。arXiv 2410.04334、2024 年 10 月。SEGRESS 準拠 SLR。309 件 → 31 件選定。Detect 54.8%・Contain 35.4%・Prepare 9.7%・Post-incident 3.2%。LLM 38.7%・DL 32.2%。非伝統的データソース(過去インシデントレポート・依存グラフ・コードリポジトリ)が将来機会として特定された。 - Entities (new): [[Dahlia Ziqi Zhou]], [[Marios Fokaefs]], [[York University]] - Concepts (updated): [[インシデント管理]](Prepare/Post-incident 過少研究の定量化追記), [[根本原因分析]](SLR での RCA 位置づけ追記), [[異常検知]](SLR での最大目標 41.9% 追記), [[LLMによる根本原因分析]](mABC ユーザースタディ確認・LLM 38.7% 追記) ### 2026-06-30 SREcon25 Americas スライド | Measuring Availability the Player Focused Way (Maxfield Stewart, Riot Games) - [[@2025__SREcon25Americas__Measuring Availability the Player Focused Way - How Riot Games Changed Its Availability Culture]] — [[Maxfield Stewart]]（[[Riot Games]] Technical Director: Live Operations）、SREcon25 Americas（2025-03）。Player Minutes（CCU 重み付き可用性指標）と Player Journey フレームワーク（Connecting / Purchasing / Play × 10 分類）を導入し、CEO OKR 接続で可用性文化変革を実現したゲーム SRE ケーススタディ。50 ページ PDF。transcript なし。 - Entities (new): [[Maxfield Stewart]], [[Riot Games]], [[Derek Defields]] - Concepts (new): [[Player Journey]]; (updated): [[サービスレベル目標]]（CCU 重み付き可用性計測・CEO OKR 定着手法の横断的知見追記） ### 2026-07-01 ingest-video | Keys to SRE (Ben Treynor Sloss, SREcon14, 2014) - [[@2014__SREcon14__Keys to SRE]] — [[Ben Treynor Sloss]]（[[Google]] VP Engineering）、SREcon14（2014-06-26）。SRE 創設者が「13 のキー」を初めて公開整理した講演。エラーバジェット・「ローンチオンブラック」ルール・運用 50% キャップ・移植可能性・Wheel of Misfortune・無責非難のポストモーテムが SRE Book（2016）の 2 年前に原型形態で提示された。YouTube 自動字幕 transcript（~55 分）。 - Entities (updated): [[Ben Treynor Sloss]]（SREcon14 講演追加、status developing へ昇格） - Concepts (updated): [[SRE]]（13 のキーと SRE Book の比較・ローンチオンブラックが操作的規則として先行する知見を追記）, [[エラーバジェット]]（ローンチオンブラックと開発チームの自浄メカニズムの 2014 年原型を追記）, [[ポストモーテム]]（2014 年の無責非難原則公言と後の Gallego 理論との知的系譜を追記） ### 2026-07-01 ingest-video | Incident Management and Chatops @ Netflix Feat Scorebot (Al Tobey, SREcon16, 2016) - [[@2016__SREcon16__Incident Management and Chatops @ Netflix Feat Scorebot]] — [[Al Tobey]]（[[Netflix]] SRE）、SREcon16（2016-03-16）。Go 製 ChatBot Scorebot による Netflix の ChatOps インシデント管理。Hipchat → Slack 移行後の実践。Scorebot の 4 機能(bookmarking / presence / after-hours / secrets)と 4 つの itch(callbacks / testing / コンテキスト不足 / obnoxious bot)。代表フレーム 12 枚・音声取得済み・Whisper transcript 処理中。 - Sources (new): [[@2016__SREcon16__Incident Management and Chatops @ Netflix Feat Scorebot]] - Entities (new): [[Al Tobey]]。Entities (updated): [[Netflix]] - Concepts (new): [[ChatOps]]。Concepts (updated): [[インシデント管理]]（ChatOps/Scorebot を LLM 以前の産業自動化として横断的知見に追記） ### 2026-07-01 ingest-video | Incident Response @ FB, Facebook's SEV Process (Gareth Eason, SREcon16 Europe, 2016) - [[@2016__SREcon16__Incident Response @ FB, Facebook's SEV Process]] — [[Gareth Eason]]（[[Facebook]] プロダクションレビュー(EMEA)運営者）、SREcon16 Europe（2016-07、Dublin）。「発見者=オーナー」原則・SEV1 意図的過大分類バイアス・IMOC の非技術的調整役割(blame umbrella / human mutex)・二段階レビューの3つの質問・メトリクスゲーミング警告・canary インシデント事例。代表フレーム6枚+YouTube自動字幕transcript。 - Sources (new): [[@2016__SREcon16__Incident Response @ FB, Facebook's SEV Process]] - Entities (new): [[Gareth Eason]]。Entities (updated): [[Facebook]], [[Jay Parikh]], [[Pedro Canahuati]] - Concepts (updated): [[Incident Commander]](IMOC の「技術的に直さない」原則・blame umbrella/human mutex の横断的知見を追記), [[インシデント重大度評価]](意図的過大分類とメトリクスゲーミング警告の横断的知見を追記), [[クロスインシデント分析]](Granda 2025年の洞察に9年先行するメトリクスゲーミング警告を追記) ### 2026-07-01 ingest-video | Dashboards and Runbooks: Scrapbooking for Engineers (Colin Douch, SREcon22 Asia/Pacific, 2022) - [[@2022__SREcon22APAC__Dashboards and Runbooks - Scrapbooking for Engineers]] — [[Colin Douch]]（[[Cloudflare]] Observability Platform Team Tech Lead）、USENIX SREcon22 Asia/Pacific（2022-12-07、シドニー）。ダッシュボード・ランブックの汎用化しすぎ／特化しすぎの二極化を「エンジニアのスクラップブッキング」と呼び、ランブック3クラス(自動化可能/自由記述/無価値)分類・良いランブックの本質的な一時性・composability(Jsonnet/Pulumi)・SLI/SLO・discoverability/explorability への移行を提案。USENIX ページはログイン必須のため YouTube 上の同一動画から自動字幕 transcript と代表フレーム20枚を取得。 - Sources (new): [[@2022__SREcon22APAC__Dashboards and Runbooks - Scrapbooking for Engineers]] - Entities (new): [[Colin Douch]]。Entities (updated): [[Cloudflare]] - Concepts (new): [[ダッシュボードとランブックの運用]] ### 2026-07-01 ingest-slides | Epic Incidents of History: The 1979 NORAD Nuclear Near Miss (Nick Travaglini, SREcon23 Americas, 2023) - [[@2023__SREcon23Americas__Epic Incidents of History - The 1979 NORAD Nuclear Near Miss]] — [[Nick Travaglini]]（[[Honeycomb.io]] Technical Customer Success Manager）、USENIX SREcon23 Americas（2023-03-21、サンタクララ）。1979年 NORAD 核近接ミス事件を題材に、単一根本原因でなく Walker・Woods・Rayo の「複数の系統的寄与要因」の視座から、Vannevar Bush 主導の軍産学複合体("Iron Triangle")・SAGE・NORAD 427M システムへ至る計算機史と Closed World 思考の圧力を分析。オペレーターのローカル合理性による誤警報看破の経緯を描く。34ページ + YouTube 自動字幕フォールバック transcript。 - Sources (new): [[@2023__SREcon23Americas__Epic Incidents of History - The 1979 NORAD Nuclear Near Miss]] - Entities (new): [[Nick Travaglini]], [[Honeycomb.io]]。Entities (updated): [[Vannevar Bush]](軍産学複合体"Iron Triangle"の主導者としての歴史的文脈を追加) - Concepts (updated): [[複雑システム障害論]](遠因の重層性という時間軸の追加を横断的知見に追記), [[根本原因分析]](単一根本原因の探索が構造的に成立しない歴史的事例を追記), [[人的要因]](ローカル合理性による疑いが惨事を防いだ事例を追記) ### 2026-07-01 ingest-video | Incident Commanders (Vanessa Huerta Granda, Emily Ruppe, SREcon23 Americas, 2023) - [[@2023__SREcon23Americas__Incident Commanders]] — [[Vanessa Huerta Granda]]・[[Emily Ruppe]]（[[Jeli]]）、USENIX SREcon23 Americas（2023 年 3 月頃）。IC(Incident Commander) とインシデントアナリストを「似て非なる別々のスキルセット」と定義し、IC の核心を「指示を出さない・壊れたものを直さない」調整役、アナリストの核心を「事件がなぜそのように起きたかを調査すること」とする。IC が事後検証(post-incident review)も担うと社会技術的要因を見落としやすいと指摘。「インシデントのサイクル」ライフサイクル図・IC の別名(Facilitator/Conductor/Sociotechnical Troubleshooter)を提示。代表フレーム12枚(全視聴確認済み) + YouTube 英語字幕。本 SREcon23 講演は同一人物 Vanessa Huerta Granda の [[Jeli]] 在籍時(2023年)のものであり、SREcon25/26([[Enova]] 在籍時)の既存記述より時系列的に早い。 - Sources (new): [[@2023__SREcon23Americas__Incident Commanders]] - Entities (updated): [[Vanessa Huerta Granda]], [[Emily Ruppe]], [[Jeli]] - Concepts (new): [[インシデントアナリスト]]。Concepts (updated): [[Incident Commander]](IC/アナリスト役割分離と Slack の no-give-backs ハンドオフの理由付け・「インシデントのサイクル」ライフサイクル図の横断的知見を追記), [[インシデント管理]](「インシデントのサイクル」円環モデルと Response/Review/Analysis 3部構成との対応関係を追記) ### 2026-07-01 ingest-video | If I Can Do It on an Ambulance, You Can Do It in an Office: Scalable Incident Response Using ICS (Thai Wood, SREcon23 Americas, 2023) - [[@2023__SREcon23Americas__If I Can Do It on an Ambulance - Scalable Incident Response Using ICS]] — [[Thai Wood]]（元 EMT、[[Resilience Roundup]] 主宰の独立コンサルタント）、USENIX SREcon23 Americas（2023-03-23、Santa Clara, CA）。ICS(Incident Command System)全体ではなく最小限の「種」から始めるアプローチを提案し、「3つの帽子」(Organizer/Connector/Expert)モデルを対応に必須の core needs として再定義。「ランブックは安全を買えない(you cannot document your way to safety)」というランブック批判と、ゲームデイ・テーブルトップ演習による practice の重要性を主張。YouTube 自動字幕 transcript(34分) + 代表フレーム12枚。 - Sources (new): [[@2023__SREcon23Americas__If I Can Do It on an Ambulance - Scalable Incident Response Using ICS]] - Entities (new): [[Thai Wood]], [[Resilience Roundup]] - Concepts (updated): [[Incident Commander]](「3つの帽子」最小モデルと正式な IC/TL/CL 構造の対比、ランブック批判と Goldfuss の Nrrd 自動化との対比を追記), [[ダッシュボードとランブックの運用]](Douch の一時性原則と Wood の認識論的批判の補完関係、ランブック作成という活動自体の価値を追記), [[GameDay]](practice の目的の再定義と「文書公開だけでは終わらない」という理論的根拠を追記) ### 2026-07-01 ingest-slides | The World Blew Up But We're All Okay: Managing a massive-scale incident at Datadog (Laurent Bernaille, Laura de Vesine, SREcon23 EMEA, 2023) - [[@2023__SREcon23EMEA__The World Blew Up but We're All Okay - How We Managed a Massive-scale Incident at Datadog]] — [[Laurent Bernaille]]・[[Laura de Vesine]]（[[Datadog]]）、USENIX SREcon23 EMEA。2023年3月8日、Ubuntu の自動セキュリティ更新が誘発した systemd/networkd の経路フラッシュにより AWS・GCP・Azure 複数リージョンで Kubernetes ノードが同時多発的に接続不能になった大規模インシデントの技術的根本原因(Cilium CNI・ENI 直接割り当て)と、500人超・単一 Zoom 通話に14時間で493人参加という規模の組織的インシデント対応を発表。76ページ + Whisper 音声文字起こし(584行)。 - Sources (new): [[@2023__SREcon23EMEA__The World Blew Up but We're All Okay - How We Managed a Massive-scale Incident at Datadog]] - Entities (new): [[Laurent Bernaille]]。Entities (updated): [[Laura de Vesine]](silverrose ハンドル追記)、[[Datadog]](インシデント対応・組織文化節を追加)、[[Kubernetes]](Datadog 親子クラスタ構成を追記) - Concepts (updated): [[インシデント管理]](共通 OS の障害波及・超大規模 IC 対応・クラウド API レート制限ボトルネックの横断的知見3件、未解決の問い1件を追記) ### 2026-07-01 ingest-slides | Your System Has Recovered from an Incident, but Have Your Developers? (Jaime Woo, SREcon18 Americas, 2018) - [[@2018__SREcon18Americas__Your System Has Recovered from an Incident, but Have Your Developers]] — [[Jaime Woo]]（元 [[Shopify]]）、USENIX SREcon18 Americas（2018-03-27）。インシデント後のエンジニアの心理的回復を医師・コメディアン・オリンピアンの知見から論じる。42.5% が強いストレスを報告、80% がピアサポートをほぼ受けていない実態を示し「人間向けインシデントレスポンス」を提起する。39ページ、transcript なし。 - Sources (new): [[@2018__SREcon18Americas__Your System Has Recovered from an Incident, but Have Your Developers]] - Entities (new): [[Jaime Woo]] - Concepts (new): [[インシデント後の人的回復]]。Concepts (updated): [[オンコールストレス管理]](横断的知見に Long vs Woo 比較追記), [[人的要因]](source 追加) ### 2026-07-01 ingest-slides | The Critical Resource Is You: Practical Destressing for On-Call Engineers (Beth Adele Long, SREcon26 Americas, 2026) - [[@2026__SREcon26Americas__The Critical Resource Is You - Practical Destressing for On-Call Engineers]] — [[Beth Adele Long]]（[[Continuous Re-integration]] / [[Adaptive Capacity Labs]]）、USENIX SREcon26 Americas（2026-03-24）。オンコール業務の慢性ストレス(ページャーを持つこと)と急性ストレス(インシデント対応)を ANS の観点から分析し、Ordinary Mind / Sensory Mind の 2 意識モードを軸に、身体知性に根ざした 4 ツール(Body Scan・Breath・Movement・Boredom)を提示する。43ページ、transcript なし。 - Sources (new): [[@2026__SREcon26Americas__The Critical Resource Is You - Practical Destressing for On-Call Engineers]] - Entities (new): [[Beth Adele Long]], [[Continuous Re-integration]] - Concepts (new): [[オンコールストレス管理]]。Concepts (updated): [[人的要因]](生理学的ストレス管理を Human Factors の身体的次元として横断的知見に追記) ### 2026-07-01 ingest-slides | Epistemology of Incident Management (Jack Kingsman, SREcon26 Americas, 2026) - [[@2026__SREcon26Americas__Epistemology of Incident Management]] — [[Jack Kingsman]]（[[Atlassian]] シニア SRE）、USENIX SREcon26 Americas（2026-03）。Google SRE Book の Incident Loop を 5 フェーズ（検知/宣言・生存/トリアージ・検査・診断・テスト/処置）に体系化し直し、各フェーズの「知識の問い」を設定した認識論的インシデント管理フレームワーク。証拠 2×2 マトリクス・3 種の探索パターン（Linear/Binary/Induced-Change）・仮説 3 条件（testable/relevant/specific）・テスト 6 基準の 4 ツールが核心。"Incidents are all about knowledge" で締めくくる。49ページ + YouTube 英語自動字幕 transcript。CC-BY 4.0。 - Sources (new): [[@2026__SREcon26Americas__Epistemology of Incident Management]] - Entities (new): [[Jack Kingsman]]。Entities (updated): [[Atlassian]](Kingsman SREcon26 発表を関連ソースに追加) - Concepts (new): [[インシデント認識論]]。Concepts (updated): [[インシデント管理]](Kingsman の認識論的横断的知見追記)、[[仮説駆動RCA]](仮説 3 条件・テスト 6 基準を横断的知見に追記) ### 2026-07-02 ingest-paper | Machine Learning Fleet Efficiency: Improving TPU Systems at Scale with ML Productivity Goodput (MLSys 2026) - [[@2026__MLSys2026__Machine Learning Fleet Efficiency - Improving TPU Systems at Scale with ML Productivity Goodput]] — [[Arissa Wongpanich]] ほか（[[Google]]）、MLSys 2026 Industry Track（2026-05）。ML Productivity Goodput（MPG = Scheduling Goodput × Runtime Goodput × Program Goodput）を提案。Google TPU 本番フリートで SG > 95%・非同期チェックポイント・AoT コンパイル・通信計算オーバーラップを実証。Program Goodput は roofline 効率でなく予測ステップ時間を分母に使うことでオペレーター融合余地を可視化する。 - Sources (new): [[@2026__MLSys2026__Machine Learning Fleet Efficiency - Improving TPU Systems at Scale with ML Productivity Goodput]] - Entities (new): [[Arissa Wongpanich]]、[[Vijay Janapa Reddi]]、[[Borg]]。Entities (updated): [[Google]](ML フリート効率セクション追加) - Concepts (new): [[ML Productivity Goodput]]。Concepts (updated): [[GPUクラスタ運用]](MPG 横断的知見・未解決の問い追記) - [[@2025__SIGCOMM__POSTER - Vedrfolnir - RDMA Network Performance Anomalies Diagnosis in Collective Communications]] — 集合通信における RDMA NPA 診断。待機グラフ+ステップ認識型適応検知。[[Hawkeye]] 比 98% テレメトリ削減。Beihang University、SIGCOMM Posters and Demos 2025。 ### 2026-07-06 ingest-paper | Beyond Throughput: Performance and Energy Insights of LLM Inference Across AI Accelerators (IPDPS 2026) - [[@2026__IPDPS__Beyond Throughput - Performance and Energy Insights of LLM Inference Across AI Accelerators]] — [[Giacomo Brunetta]] ほか（[[University of Illinois Chicago]] + [[Argonne National Laboratory]]）、IEEE IPDPS 2026。6 GPU(NVIDIA A100/H100/GH200, AMD MI250/MI300X, Intel Max 1550) + 2 データフローアクセラレータ(Cerebras CS-3, SambaNova SN40L) × 14 LLM を ALCF 実環境で比較。スループット・レイテンシ・TTFT・ITL・エネルギー効率を測定。主知見: H100 が GPU 最高・データフローは小バッチで GPU 比1桁優位・推論では DP > TP。 - Sources (new): [[@2026__IPDPS__Beyond Throughput - Performance and Energy Insights of LLM Inference Across AI Accelerators]] - Entities (new): [[Giacomo Brunetta]], [[Cerebras]], [[SambaNova]] - Concepts (new): [[AIアクセラレータ]]. Concepts (updated): [[LLM推論]](データフロー・DP vs TP・エネルギー効率の知見追記)、[[テンソル並列]](推論 TP vs DP の知見と未解決の問い追記)、[[Mixture-of-Experts]](MoE 推論・EP vs TP 知見追記) ### 2026-07-06 ingest-paper | INTFusion: Unifying Network and Host Telemetry in Data Center Networks (IFIP Networking 2026) - [[@2026__IFIP Networking__INTFusion - Unifying Network and Host Telemetry in Data Center Networks]] — [[Leonardo Alberro]] ほか([[Universidad de la República]])、IFIP Networking 2026。INT ソース/シンクを smartNIC にオフロードし eBPF ホスト層トレースを per-flow 融合する統一型データセンター監視アーキテクチャ。二層エクスポートモデル(イベント駆動リアルタイム + レート制御遅延)。フローレット抽象化で長期持続 TCP コネクション上の複数メッセージを識別。インキャスト検知とフローサイズ推定を輻輳制御ユースケースとして実証。10 GbE sNIC で 1〜3.9 Mpps 処理。 - Sources (new): [[@2026__IFIP Networking__INTFusion - Unifying Network and Host Telemetry in Data Center Networks]] - Entities (new): [[Leonardo Alberro]], [[Matias Richart]], [[Eduardo Grampin]], [[Universidad de la República]] - Concepts (new): [[インバンドネットワークテレメトリ]]. Concepts (updated): [[テレメトリ]](INT+eBPF クロスレイヤー収集の横断知見追記)、[[ネットワーク監視]](Centralizer スケーラビリティの横断知見・未解決の問い追記)、[[データセンター輻輳制御]](テレメトリ→制御閉ループの未解決の問い追記) ### 2026-07-13 ingest | Cognitive Work of Hypothesis Exploration During Anomaly Response (ACM Queue) - [[@2019__ACMQueue__Cognitive Work of Hypothesis Exploration During Anomaly Response]] — [[Marisa R. Grayson]]（[[Mile Two]]、ACM Queue Vol. 17 no. 6、2019年）。[[SNAFUcatchers Consortium]] のインシデントケースDBから4件を process tracing 手法で分析し、アノマリー応答における仮説探索空間(hypothesis-exploration space)の時間発展(line of commitment を境に分岐・収束)を可視化。データセンター間バックアップ経路輻輳とロードバランサのゾンビ tee ルールの2ケースを詳述。Cloudflare 403 のため Wayback Machine 経由で全文取得。 - Sources (new): [[@2019__ACMQueue__Cognitive Work of Hypothesis Exploration During Anomaly Response]] - Entities (new): [[Marisa R. Grayson]], [[Mile Two]], [[SNAFUcatchers Consortium]]。Entities (updated): [[David D. Woods]], [[Richard I. Cook]] - Concepts (new): [[アノマリー応答]]。Concepts (updated): [[仮説駆動RCA]](line of commitment・時間的近接性バイアスの横断的知見追記)、[[ヒンドサイトバイアス]](時間的近接性バイアスとの対比追記)、[[レジリエンスエンジニアリング]](process tracing 方法論の横断的知見追記) ### 2026-07-13 ingest | 価値はスケールしない。発酵する。(安宅和人) - [[@2026__hatenablog__価値はスケールしない、発酵する。]] — [[安宅和人]]、ブログ「ニューロサイエンスとマーケティングの間」(2026-07-11)。『風の谷という希望』第7章の価値生成論を発展させ、成長/脱成長の対立軸を「価値がどのような時間で育つか」という問いへ組み替える論考。経済資本(複利)・文化資本(発酵)・関係資本(熟成)・自然資本(循環)という[[四資本の時計]]、完全な混合でも分離でもない[[価値生成の膜モデル]]と[[地域の乳化剤]]、土地の個性ではなく「味わうことのできる時間」としての[[テロワール(味わうことのできる時間)]]、[[存続可能性から生成する力へ]]を提示する。メルボルン大学の[[Dan Hill]]との呼応、和歌山県御坊市の[[堀河屋野村]]訪問が題材。 - Sources (new): [[@2026__hatenablog__価値はスケールしない、発酵する。]] - Entities (new): [[安宅和人]], [[Dan Hill]], [[堀河屋野村]] - Concepts (new): [[四資本の時計]], [[価値生成の膜モデル]], [[地域の乳化剤]], [[テロワール(味わうことのできる時間)]], [[存続可能性から生成する力へ]] - Key insight: 成長論・脱成長論はともに全ての価値が経済資本と同じ単一の時計で動くと誤って前提しており、本当の問いは価値がどのような時間で育つかである。この論考は SRE/インフラ領域が中心だったこの wiki に、地域再生・文化資本・脱成長という新規ドメインを導入する。 - Open questions: 四資本それぞれの「発酵に適した温度」の定量化、乳化剤的人材の見出し方・育成制度設計、テロワール概念の食・酒以外への一般化。 ### 2026-07-13 ingest-paper | AgentTether: Graph-Guided Diagnosis and Runtime Intervention for Reliable LLM Agent Operations (arXiv) - [[@2026__arXiv__AgentTether - Graph-Guided Diagnosis and Runtime Intervention for Reliable LLM Agent Operations]] — [[Chenyu Zhao]]・[[Shenglin Zhang]] ほか([[Nankai University]] / [[Tsinghua University]] / [[Microsoft]])、arXiv 2026-07-07(cs.SE)。LLM エージェントの失敗実行を Transition Unit のグラフ(Critical Transition Graph)で診断し、オフライン HGT 検出器 + 実時間 Isolation Forest 検出器で失敗の根幹となる部分軌跡を局所化、Repair Memory で反復状態を保持しつつ保護付き実行時介入(Check→Decide→Inject)で修正を再実行中も維持する実行時修復フレームワーク。τ-bench 261 タスク・Qwen3.7-max/GPT-5.4 で評価し、Banking の初回失敗タスクを 59.04%/65.12% 修復(全体で Blind retry 比 +26.02pp)。根本原因は症状の中央値 4 ステップ上流(最大 26)にあり、一度きりの診断フィードバックは tool-call ステップ 13 で追従率 50% を割るまで減衰することを実証。 - Sources (new): [[@2026__arXiv__AgentTether - Graph-Guided Diagnosis and Runtime Intervention for Reliable LLM Agent Operations]] - Entities (new): [[Chenyu Zhao]]. Entities (updated): [[Shenglin Zhang]], [[Dan Pei]], [[Chetan Bansal]], [[Saravan Rajmohan]], [[Minghua Ma]], [[Wenwei Gu]](所属不一致の contradiction 追記), [[Yongqian Sun]], [[Nankai University]], [[Tsinghua University]], [[Microsoft]] - Concepts (new): [[エージェント修復]]. Concepts (updated): [[エージェントシステム運用]](「解決」段階の連動性の実証知見追記)、[[グラフベースRCA]](エージェント内部軌跡へのグラフ RCA 拡張の横断的知見追記) ### 2026-07-13 ingest-paper | Integrating Large Language Models into Security Incident Response (USENIX SOUPS 2025) - [[@2025__SOUPS__Integrating Large Language Models into Security Incident Response]] — [[Diana Kramer]]・[[Lambert Rosique]]・[[Ajay Narotam]]・[[Elie Bursztein]]・[[Patrick Gage Kelley]]・[[Kurt Thomas]]・[[Allison Woodruff]]([[Google]] / [[DataPhant]])、USENIX SOUPS 2025(2025-08-11、Seattle）。18名のセキュリティアナリストと50件の実インシデントを用い、Gemini 1.5 Flash によるインシデント要約の自律自動化と人間協働支援を4段階の実験で評価。自律要約は人間要約に61%対39%で劣後(完全性35%・事実性42%の欠陥率)する一方、人間がAI下書きを編集する協働(AI支援)要約は人間単独の要約より77%対11%で優位という非対称な結果を示した。 - Sources (new): [[@2025__SOUPS__Integrating Large Language Models into Security Incident Response]] - Entities (new): [[Diana Kramer]], [[Lambert Rosique]], [[Ajay Narotam]], [[Elie Bursztein]], [[Patrick Gage Kelley]], [[Kurt Thomas]], [[Allison Woodruff]]. Entities (updated): [[Google]](セキュリティインシデント要約へのLLM統合を追記) - Concepts (new): [[LLMインシデント要約]]. Concepts (updated): [[インシデントレポート執筆]](LLM要約の完全性/事実性トレードオフを横断的知見に追記)、[[インシデントレスポンスAIレベル]](セキュリティ要約タスクの実証データによる IR2 停止根拠の裏付けを追記) ### 2026-07-13 ingest-paper | Large Language Models Can Provide Accurate and Interpretable Incident Triage (ISSRE 2024) - [[@2024__ISSRE__Large Language Models Can Provide Accurate and Interpretable Incident Triage]] — [[Zexin Wang]]・[[Jianhui Li]]・[[Minghua Ma]] ほか([[Microsoft]] / [[Chinese Academy of Sciences]])、ISSRE 2024(2024-10、pp.523-534)。LLM(GPT-3.5/GPT-4)でログからキーワードを抽出し埋め込み類似検索でインシデントを担当チームへ割り当てるシステム COMET。AutoExtractor による生ログ絞り込み(TrimmedLogs)+ドメイン知識プロンプトによるキーワード抽出+FastText 埋め込みファインチューニング。Microsoft の2大規模クラウドサービスに6ヶ月以上本番展開し、オンラインでACC@1を0.47→0.61に改善・TTMを35%短縮。ログ・議論の生テキストよりTrimmedLogsが、生成要約よりキーワードがトリアージ入力表現として優れることを比較実験(Table I・II)で実証。DOI版はIEEE Xplore有料壁の向こうのため、著者が Microsoft Research サイトで直接公開する PDF を原本として取り込んだ。 - Sources (new): [[@2024__ISSRE__Large Language Models Can Provide Accurate and Interpretable Incident Triage]] - Entities (new): [[Ze Li]], [[Jianhui Li]], [[Chinese Academy of Sciences]]. Entities (updated): [[Zexin Wang]], [[Minghua Ma]], [[Chetan Bansal]], [[Qingwei Lin]], [[Dongmei Zhang]], [[Yu Kang]], [[Chaoyun Zhang]], [[Saravan Rajmohan]], [[Murali Chintalapati]], [[Changhua Pei]], [[Gaogang Xie]], [[Microsoft]] - Concepts (new): [[インシデントトリアージ]]. Concepts (updated): [[インシデント管理]](キーワード抽出の優位性・レガシールール再利用パターンを横断的知見に追記)、[[インシデントTTM予測]](トリアージ精度改善によるTTM削減という別経路を追記) ### 2026-07-13 ingest-paper | Collaborative Knowledge Distillation and Reinforcement Learning for Automated Ticket Triage in Large-Scale Production Systems (TOSEM投稿版) - [[@2026__nkcs.iops.ai__Collaborative Knowledge Distillation and Reinforcement Learning for Automated Ticket Triage in Large-Scale Production Systems]] — [[Ruowei Fu]] ほか([[ByteDance]] / [[Nankai University]])、TOSEM投稿版(2026)。知識蒸留+自己強化+DPOによるSLMファインチューニングでチケットトリアージを行うCoTriageを提案。3モジュール構成、Table 1〜8で大規模本番評価。同著者陣の先行研究OncallXとは対照的な技術路線。 - Sources (new): [[@2026__nkcs.iops.ai__Collaborative Knowledge Distillation and Reinforcement Learning for Automated Ticket Triage in Large-Scale Production Systems]] - Entities (new): [[Yang Zhang (ByteDance)]], [[Xin Wu (ByteDance)]], [[Feng Wang (ByteDance)]], [[Zeyu Che]], [[Xiaozhou Liu (ByteDance)]]. Entities (updated): [[Ruowei Fu]], [[Yu Zhang (ByteDance)]], [[ByteDance]], [[Yongqian Sun]], [[Nankai University]], [[Wenwei Gu]], [[Shenglin Zhang]] - Concepts (new): [[知識蒸留]]. Concepts (updated): [[オンコール自動化]](CoTriage vs OncallXの技術路線対比を追記)、[[インシデントトリアージ]](DeepCT/DeepTriage/COMETが共通ベースラインとして使われる観察を追記) ### 2026-07-13 ingest-paper | Debugging the Debuggers: Failure-Anchored Structured Recovery for Software Engineering Agents (arXiv 2026) - [[@2026__arXiv__Debugging the Debuggers - Failure-Anchored Structured Recovery for Software Engineering Agents]] — [[Chenyu Zhao]]・[[Shenglin Zhang]] ほか([[Nankai University]])、arXiv 2026-06-05。診断精度改善(+43.58pt)が回復率改善(+12.45pt)を大きく上回る「diagnosis–recovery gap」を実証したPROBEフレームワーク。AIOpsLab上でケーススタディ。 - Sources (new): [[@2026__arXiv__Debugging the Debuggers - Failure-Anchored Structured Recovery for Software Engineering Agents]] - Entities (new): [[Yihang Lin]], [[Zhimin Chen]]. Entities (updated): [[Chenyu Zhao]], [[Shenglin Zhang]], [[Wenwei Gu]], [[Yongqian Sun]], [[Dan Pei]], [[Chetan Bansal]], [[Saravan Rajmohan]], [[Minghua Ma]], [[AIOpsLab]] - Concepts (updated): [[エージェント修復]](PROBEとAgentTetherの突き合わせ知見を追記) ### 2026-07-13 ingest-paper | Can Language Models Go Beyond Coding? Assessing the Capability of Language Models to Build Real-World Systems - [[@2026__nkcs.iops.ai__Can Language Models Go Beyond Coding - Assessing the Capability of Language Models to Build Real-World Systems]] — [[Chenyu Zhao]] ほか([[Nankai University]] / [[Peking University]] / [[Tsinghua University]] / [[Microsoft]])。エージェント型ツール利用なしでは GPT-5 成功率6.13%、Build-benchの反復ループ環境下で63.19%(10.3倍)に到達することを実証。クロスISAビルド修復ベンチマーク。 - Sources (new): [[@2026__nkcs.iops.ai__Can Language Models Go Beyond Coding - Assessing the Capability of Language Models to Build Real-World Systems]] - Entities (new): [[Build-bench]], [[Open Build Service]], [[Weilin Jin]]. Entities (updated): [[Chenyu Zhao]], [[Shenglin Zhang]], [[Yongqian Sun]], [[Dan Pei]], [[Chaoyun Zhang]], [[Qingwei Lin]], [[Chetan Bansal]], [[Saravan Rajmohan]], [[Minghua Ma]], [[Nankai University]], [[Peking University]], [[Tsinghua University]], [[Microsoft]] - Concepts (new): [[クロスISAマイグレーション]], [[自動ビルド修復]]. Concepts (updated): [[エージェント型コーディング]](Build-benchの知見を追記) ### 2026-07-13 ingest-paper | Bridging the Delay: Lag-Aware Spatio-Temporal Causal Inference for Microservice Root Cause Analysis (FSE Companion '26) - [[@2026__FSE Companion__Bridging the Delay - Lag-Aware Spatio-Temporal Causal Inference for Microservice Root Cause Analysis]] — [[Junhua Kuang]] ほか([[Nankai University]] / [[Alibaba Group]] / [[Tsinghua University]])、FSE Companion '26。マイクロサービス障害伝播の81.5%が非同期(2分以上の遅延)であることを本番データで示し、時間ラグを明示的にモデル化するLagRCAを提案。 - Sources (new): [[@2026__FSE Companion__Bridging the Delay - Lag-Aware Spatio-Temporal Causal Inference for Microservice Root Cause Analysis]] - Entities (new): [[Junhua Kuang]], [[Yimeng Zhang]], [[Jintao Feng]], [[Jingyu Wang]], [[Liping Zhang]], [[LagRCA]]. Entities (updated): [[Shenglin Zhang]], [[Yongqian Sun]], [[Dan Pei]], [[Nankai University]], [[Alibaba Group]], [[Tsinghua University]], [[Sibo Xia]], [[Wenwei Gu]], [[Wei Li]] - Concepts (new): [[遅延認識時空間因果推論]]. Concepts (updated): [[因果推論ベースRCA]], [[Fault Localization]], [[根本原因分析]], [[グラフベースRCA]] ### 2026-07-13 ingest-paper | LLM-Assisted Joint Ticket and Log Analysis for Incident Triage in Intelligent and Connected Vehicles (ASE'26投稿版) - [[@2026__ASE__LLM-Assisted Joint Ticket and Log Analysis for Incident Triage in Intelligent and Connected Vehicles]] — [[Ruowei Fu]] ほか([[Nankai University]])、ASE'26投稿版(InsightTriage)。Huawei/ICV(車載)ドメイン向けチケット+ログ統合トリアージ。ログ検索器除去でWeighted F1が19.2%低下するアブレーションでログを一次証拠とする設計の有効性を実証。 - Sources (new): [[@2026__ASE__LLM-Assisted Joint Ticket and Log Analysis for Incident Triage in Intelligent and Connected Vehicles]] - Entities (new): [[Weiguo Li]]. Entities (updated): [[Ruowei Fu]], [[Shenglin Zhang]], [[Wenwei Gu]], [[Yongqian Sun]], [[Dan Pei]], [[Nankai University]] - Concepts (updated): [[インシデントトリアージ]], [[オンコール自動化]] ### 2026-07-13 ingest-paper | FoundRoot: Towards Foundation Model for Root Cause Analysis via Structured Deep Thinking (ICSE '26) - [[@2026__ICSE__FoundRoot - Towards Foundation Model for Root Cause Analysis via Structured Deep Thinking]] — [[Zhe Xie]] ほか([[Tsinghua University]] / [[ByteDance]] / [[Nankai University]])、ICSE '26。構造化深層思考(メトリクススキャン→伝播分析→リフレクション→ランキング)を warm-up SFT + DAPO で内在化し、ゼロショットRCA 4データセット全てでMRR 4.5%〜48.6%改善。 - Sources (new): [[@2026__ICSE__FoundRoot - Towards Foundation Model for Root Cause Analysis via Structured Deep Thinking]] - Entities (new): [[Yuzhuo Yang]]. Entities (updated): [[Zhe Xie]], [[Zeyan Li]], [[Xiao He]], [[Shenglin Zhang]], [[Longlong Xu]], [[Tieying Zhang]], [[Jianjun Chen]], [[Rui Shi]], [[Dan Pei]], [[Tsinghua University]], [[ByteDance]], [[Nankai University]] - Concepts (new): [[構造化深層思考]]. Concepts (updated): [[根本原因分析]], [[LLMによる根本原因分析]], [[検証可能報酬による強化学習]], [[Fault Localization]] ### 2026-07-13 ingest-paper | Aloha: Localizing Batch Failures in Large-scale Cloud Systems via Contrast Analysis and Human-in-the-Loop Agent (FSE Companion '26) - [[@2026__FSE Companion__Aloha - Localizing Batch Failures in Large-scale Cloud Systems via Contrast Analysis and Human-in-the-Loop Agent]] — Shenglin Zhang・[[Yujia Wu]]・[[Jinghuan Ren]] ほか([[Nankai University]] / [[Microsoft]])、FSE Companion '26。対照分析ベースのバッチ障害診断で「アルゴリズムでなくusability gapが実務障壁」と指摘し、CONANをACC@5で0.9370対0.6963、診断時間を約10時間から約0.5時間に短縮。 - Sources (new): [[@2026__FSE Companion__Aloha - Localizing Batch Failures in Large-scale Cloud Systems via Contrast Analysis and Human-in-the-Loop Agent]] - Entities (new): [[Yujia Wu]], [[Jinghuan Ren]]. Entities (updated): [[Shenglin Zhang]], [[Yongqian Sun]], [[Chaoyun Zhang]], [[Liqun Li]], [[Wenwei Gu]], [[Qingwei Lin]], [[Dongmei Zhang]], [[Saravan Rajmohan]], [[Chetan Bansal]], [[Minghua Ma]], [[Nankai University]], [[Microsoft]] - Concepts (new): [[バッチ障害診断]]. Concepts (updated): [[Fault Localization]] ### 2026-07-13 ingest-paper | When LLMs Listen to Experts: Accurate Failure Diagnosis in Operating Systems (ICSE-SEIP '26) - [[@2026__ICSE-SEIP__When LLMs Listen to Experts - Accurate Failure Diagnosis in Operating Systems]] — [[Yongxin Zhao]] ほか([[Nankai University]] / [[Alibaba Group]] / [[Tsinghua University]])、ICSE-SEIP '26。OScope は Knowledge Aligner による症状記述の意味的整合とチャンク単位検証で、Alibaba本番OS障害診断AC@5=0.901・平均診断時間112分→1.5分を達成。 - Sources (new): [[@2026__ICSE-SEIP__When LLMs Listen to Experts - Accurate Failure Diagnosis in Operating Systems]] - Entities (new): [[OScope]], [[Yuxin Sun]], [[Li Shi]], [[Cheng Huang]], [[Guodong Yang]], [[Luping Wang]]. Entities (updated): [[Yongxin Zhao]], [[Wenwei Gu]], [[Yongqian Sun]], [[Shenglin Zhang]], [[Dan Pei]], [[Liping Zhang]], [[Nankai University]], [[Alibaba Group]], [[Tsinghua University]] - Concepts (updated): [[TSG自動化]], [[マルチモーダル障害診断]] ### 2026-07-13 ingest-paper | PerfScout: An Adaptive Workload Generator in Software Performance Testing (ICSE-SEIP '26) - [[@2026__ICSE-SEIP__PerfScout - An Adaptive Workload Generator in Software Performance Testing]] — [[Yongqian Sun]] ほか([[Nankai University]] / [[BizSeer]] / [[Huawei Cloud]] / [[Tsinghua University]])、ICSE-SEIP '26。SPOT・ADF/KPSS・PPOを統合した性能テストワークロード生成の全自動化フレームワーク。Huawei Cloudに9か月間本番デプロイされ代表ケースで87%のテスト時間短縮を実証。 - Sources (new): [[@2026__ICSE-SEIP__PerfScout - An Adaptive Workload Generator in Software Performance Testing]] - Entities (new): [[Qingliang Zhang]], [[Yimin Zuo]], [[Bowen Deng]], [[Xiao Xiong]], [[Mengyao Li]], [[Huandong Zhuang]], [[Ruiyuan Wan]]. Entities (updated): [[Yongqian Sun]], [[Shenglin Zhang]], [[Dan Pei]], [[Xidao Wen]], [[Nankai University]], [[Huawei Cloud]], [[BizSeer]], [[Alban Siffer]], [[Tsinghua University]], [[Wenwei Gu]] - Concepts (updated): [[定常性モデル]], [[適応的ワークロード生成]] ### 2026-07-13 ingest-paper | A Comprehensive Benchmark and Empirical Study of Trace Anomaly Detection (IEEE TSC 2025) - [[@2025__TSC__A Comprehensive Benchmark and Empirical Study of Trace Anomaly Detection]] — Yongqian Sun ほか([[Nankai University]])、IEEE Transactions on Services Computing, 2025。トレース異常検知の初の横断ベンチマーク TADBench。全データセット横断で一貫最良のアルゴリズムは存在せず、決定木でアルゴリズムを推奨。 - Sources (new): [[@2025__TSC__A Comprehensive Benchmark and Empirical Study of Trace Anomaly Detection]] - Entities (new): [[Minyi Shao]], [[Kaiwen Yang]], [[Xingda Li]], [[Dongbiao He]], [[Yanbiao Li]]. Entities (updated): [[Yongqian Sun]], [[Nankai University]] - Concepts (new): [[トレース異常検知]] ### 2026-07-13 ingest-paper | From Chaos to Clarity: Log-based Kernel Panic Root Cause Analysis for Large-Scale Cloud Services (FCS 2025) - [[@2025__FCS__From Chaos to Clarity - Log-based Kernel Panic Root Cause Analysis for Large-Scale Cloud Services]] — [[Tianyu Cui]] ほか([[Nankai University]] / [[ByteDance]])、FCS 2025。カーネルパニックRCAをスパースログ抽出とログ間長距離依存の2課題に分解。ByteDance本番20,000件データでLogKGを15.5〜20.3pt F1上回り6ヶ月超本番デプロイ。 - Sources (new): [[@2025__FCS__From Chaos to Clarity - Log-based Kernel Panic Root Cause Analysis for Large-Scale Cloud Services]] - Entities (new): [[Tianyu Cui]]. Entities (updated): [[Shenglin Zhang]], [[Yongqian Sun]], [[Yicheng Sui]], [[Zeyu Che]], [[Nankai University]], [[ByteDance]] - Concepts (updated): [[ログ解析]], [[根本原因分析]], [[グラフベースRCA]], [[LLMによる根本原因分析]] ### 2026-07-13 ingest-paper | Bridging Edge and Cloud: A Knowledge-Enhanced Framework for Efficient Time Series Anomaly Detection (IEEE TSC 2025) - [[@2025__TSC__Bridging Edge and Cloud - A Knowledge-Enhanced Framework for Efficient Time Series Anomaly Detection]] — Shenglin Zhang ほか([[Nankai University]] / [[Alibaba Cloud]])、IEEE Transactions on Services Computing, 2025。RefinedEdge は多変量時系列異常検知モデルをエッジ配置可能な水準(0.15Mパラメータ未満)まで圧縮しつつクラウド訓練モデルに匹敵・凌駕する精度を達成。 - Sources (new): [[@2025__TSC__Bridging Edge and Cloud - A Knowledge-Enhanced Framework for Efficient Time Series Anomaly Detection]] - Entities (new): [[RefinedEdge]], [[Jiacheng Zhang]], [[Guohua Liu]], [[Shiqi Chen]], [[Yutong Chen]]. Entities (updated): [[Shenglin Zhang]], [[Yongqian Sun]], [[Dan Pei]], [[Minghua Ma]], [[Chenyu Zhao]], [[Nankai University]], [[Alibaba Cloud]] - Concepts (updated): [[異常検知]], [[知識蒸留]], [[モデル圧縮]], [[Edge-cloud Collaboration]] ### 2026-07-14 ingest-paper | A Survey of DevOps Concepts and Challenges (ACM Computing Surveys, 2019) - [[@2019__ACM CSUR__A Survey of DevOps Concepts and Challenges]] — [[Leonardo Leite]]・[[Carla Rocha]]・[[Fabio Kon]]・[[Dejan Milojicic]]・[[Paulo Meirelles]]([[University of São Paulo]] / [[University of Brasília]] / [[Hewlett Packard Labs]] / [[Federal University of São Paulo]])、ACM Computing Surveys, 2019。50本のcore paperにGrounded Theory的手法を適用し、DevOps概念をprocess/people/delivery/runtimeの4カテゴリからなるconceptual frameworkとして体系化。既存DevOps SLRがdelivery/runtimeの技術的含意を軽視していたことを指摘し、DevOpsツールを7カテゴリに分類してactorと概念に対応づけた。 - Sources (new): [[@2019__ACM CSUR__A Survey of DevOps Concepts and Challenges]] - Entities (new): [[Leonardo Leite]], [[Carla Rocha]], [[Fabio Kon]], [[Paulo Meirelles]], [[University of São Paulo]], [[University of Brasília]], [[Federal University of São Paulo]]. Entities (updated): [[Dejan Milojicic]], [[Hewlett Packard Labs]] - Concepts (updated): [[DevOps]] ### 2026-07-14 ingest-paper | OpenRCA 2.0: From Outcome Labels to Causal Process Supervision (arXiv, 2026) - [[@2026__arXiv__OpenRCA 2.0 - From Outcome Labels to Causal Process Supervision]] — [[Aoyang Fang]]・[[Yifan Yang]]・[[Jin'ao Shang]]・[[Qisheng Lu]]・[[Junjielong Xu]]・[[Rui Wang]]・[[Songhan Zhang]]・[[Yuzhong Zhang]]・[[Boxi Yu]]・[[Pinjia He]]([[The Chinese University of Hong Kong, Shenzhen]])、arXiv:2606.27154, 2026。既知の障害注入介入 do(v_root) を使う段階的因果ラベリング PAVE(Path Annotation via Verified Effects)を提案し、根本原因ラベルだけでなく検証済みの因果伝播経路まで持つ初の cross-system RCA ベンチマーク OpenRCA 2.0(TrainTicket・OTel Demo・Hotel Reservation、500 インスタンス)を構築。11 の最先端 LLM を評価すると EM は平均 20.7% にとどまり、正しいサービスを言い当てる AnySvc(76.0%)と検証済み経路まで裏づける Path Reachability(61.5%)の 14.5pp のギャップを「grounding されていない診断(ungrounded diagnosis)」と定義。Edge F1(43.4%)が Node F1(62.2%)を全モデルで下回ることも示した。 - Sources (new): [[@2026__arXiv__OpenRCA 2.0 - From Outcome Labels to Causal Process Supervision]] - Entities (new): [[Yifan Yang]], [[Jin'ao Shang]], [[Qisheng Lu]], [[Rui Wang]], [[Songhan Zhang]], [[Yuzhong Zhang]], [[Boxi Yu]]. Entities (updated): [[Aoyang Fang]], [[Pinjia He]], [[Junjielong Xu]], [[The Chinese University of Hong Kong, Shenzhen]], [[OpenRCA]] - Concepts (updated): [[RCA評価設計]], [[因果発見]], [[障害注入]] ### 2026-07-15 ingest-paper | The Anatomy of a Large-Scale Hypertextual Web Search Engine (Computer Networks, 1998) - [[@1998__Computer Networks__The Anatomy of a Large-Scale Hypertextual Web Search Engine]] — [[Sergey Brin]]・[[Lawrence Page]]([[Stanford University]])、Computer Networks and ISDN Systems 30 (1998) 107-117(WWW7 1998 発表)。2,400 万ページ規模の Web 検索エンジンプロトタイプ Google を報告し、リンク構造由来のページ重要度指標 PageRank(`PR(A) = (1-d) + d·Σ PR(Ti)/C(Ti)`)とアンカーテキストのリンク先索引化を核とした設計・クローラ/インデクサ/ソータ/サーチャからなるアーキテクチャ(Fig. 1)、実測ストレージ(圧縮リポジトリ 53.5 GB・完全転置索引 37.2 GB・合計 108.7 GB)とクロール速度(秒速最大 48.5 ページ)を報告する、検索エンジンとしての Google の創業論文。 - Sources (new): [[@1998__Computer Networks__The Anatomy of a Large-Scale Hypertextual Web Search Engine]] - Entities (new): [[Sergey Brin]], [[Lawrence Page]]. Entities (updated): [[Stanford University]], [[Google]] - Concepts (new): [[PageRank]] ### 2026-07-15 ingest-paper | Valet: Efficient Data Placement on Modern SSDs (SoCC '25) - [[@2025__SoCC__Valet - Efficient Data Placement on Modern SSDs]] — Devashish R. Purandare・Peter Alvaro・Avani Wildani・Darrell D. E. Long・Ethan L. Miller([[UC Santa Cruz]] / [[Emory University]] / [[Cloudflare]] / [[Pure Storage]])、ACM Symposium on Cloud Computing (SoCC '25)、2025-11-19。LD_PRELOAD ベースの userspace シムレイヤー Valet を提案し、アプリケーション・ファイルシステム・カーネルを一切変更せずに、affinity(親和性)と lifetime(寿命)の2軸に基づく配置ヒントを RocksDB・MongoDB(WiredTiger LSM)・CacheLib に注入。f2fs に対して2〜6倍のスループット向上、最大6倍低いテールレイテンシを達成し、アプリケーション固有ソリューション zenfs に匹敵する性能とより広い適用性を両立した(zenfs は最新 RocksDB で既に動作せず保守が停滞、追加コード行数は zenfs 4017+988行・f2fs(zns) 38,188+1252行に対し Valet はカーネル・アプリ変更ゼロで userspace 1700行)。 - Sources (new): [[@2025__SoCC__Valet - Efficient Data Placement on Modern SSDs]] - Entities (new): [[Devashish R. Purandare]], [[Peter Alvaro]], [[Avani Wildani]], [[Darrell D. E. Long]], [[Ethan L. Miller]], [[Valet]], [[MongoDB]], [[CacheLib]], [[zenfs]], [[f2fs]], [[Pure Storage]]. Entities (updated): [[UC Santa Cruz]], [[Emory University]], [[Cloudflare]], [[RocksDB]] - Concepts (new): [[ホスト誘導データ配置]], [[シムレイヤー]], [[ゾーン名前空間SSD]]. Concepts (updated): [[LSMツリー]] ### 2026-07-15 ingest-paper | Can Large Language Models Generate Observability-Aware Code? (arXiv, 2026) - [[@2026__arXiv__Can Large Language Models Generate Observability-Aware Code?]] — [[Yongliang Tao]]・[[Hongyu Zhang]]([[Chongqing University]])、[[Pengfei Gao]]・[[Minghua Ma]]・[[Zhiyu Fan]]・[[Yu Kang]]・[[Jue Zhang]]・[[Si Qin]]・[[Liqun Li]]・[[Qingwei Lin]]・[[Saravan Rajmohan]]([[Microsoft]])、arXiv:2607.05785、2026-07-07。コーディングエージェントが生成するコードのオブザーバビリティを、18 リポジトリ 1,223 インスタンスのソースレベル復元(Position F1・KeyBag F1)と、200 個の agent 生成マイクロサービス・Kubernetes デプロイ・13 種の Chaos Mesh 障害注入による 1,615 件の実行時評価(Fault Signals Rate 4.95〜13.99%)の 2 軸で実証。エージェントは配置(where)より診断意味論(what)の再現が体系的に弱く(全プロンプト戦略で Position F1 > KeyBag F1)、explicit instruction は生成量を倍増させるが precision を犠牲にする Quantity over Quality 現象を確認した。約 200 件の実失敗修復コミットから抽出した軽量 observability-oriented skill は FSR・Position F1・KeyBag F1 を改善するが効果は限定的(GPT-5.5: +8.67pp、Claude Opus 4.8: +0.99pp、Gemini 3.5 Flash: +2.54pp)。 - Sources (new): [[@2026__arXiv__Can Large Language Models Generate Observability-Aware Code?]] - Entities (new): [[Yongliang Tao]], [[Pengfei Gao]], [[Zhiyu Fan]], [[Jue Zhang]]. Entities (updated): [[Hongyu Zhang]], [[Chongqing University]], [[Minghua Ma]], [[Qingwei Lin]], [[Saravan Rajmohan]], [[Si Qin]], [[Liqun Li]], [[Yu Kang]], [[Microsoft]] - Concepts (updated): [[オブザーバビリティ]], [[コーディングエージェント評価]], [[ログ生成]], [[障害注入]], [[バイブコーディング]] ### 2026-07-16 ingest-paper | AI 2040: Plan A — The Deal (AI Futures Project, 2026) - [[@2026__AI Futures Project__AI 2040 - Plan A - The Deal]] — [[AI Futures Project]]([[Daniel Kokotajlo]] ほか)。「AI 2027」の続編となる政策シナリオ文書(90ページ)。米中が超知能開発への無謀な競争を回避する国際的取り決め「Plan A」——研究の完全透明化・コンピュート宣言・訓練一時停止・相互確証コンピュート破壊(MACD)——によって超知能到達を2040年まで先送りする成功シナリオを年表形式で描く。代替プランB(Sabotage)/C(Slowdown)/D(Race)/S(Shutdown)との著者ら自身による比較評価、中国による秘密裏AGI計画の検知確率分析(Appendix D、未検知でTED-AI到達確率は2043年まで10%未満)、著者ら自身の卓上演習で繰り返し再現された最悪の失敗モード(欠陥のある安全性ケースの承認、Appendix L)を含む。 - Sources (new): [[@2026__AI Futures Project__AI 2040 - Plan A - The Deal]] - Entities (new): [[AI Futures Project]], [[Daniel Kokotajlo]] - Concepts (new): [[AI国際検証レジーム]], [[権力集中リスク]]. Concepts (updated): [[知能爆発]], [[テイクオフ速度論争]] ### 2026-07-16 ingest-slides | LLM高速化(勉強会) (SpeakerDeck) - [[@2026__SpeakerDeck__LLM高速化(勉強会)]] — [[SuperHotDog]]、SpeakerDeck(全50ページ)。自己回帰型 LLM 推論の高速化技術を、アルゴリズム層(KVCache・FlashAttention・Super Sequence + Continual Batching・PagedAttention・Speculative Decoding)、実装層(CUDA・Triton・CuTe)、アーキテクチャ層(GQA・MLA・Sliding Attention・Linear Attention)、量子化(Mixed Precision Accumulation・Ozaki Scheme)、プロファイラ(Nsight Compute/Systems)、CUDAGraph、vLLM の内部構造とコントリビュート方法まで一気通貫で扱う勉強会資料。Qwen2.5-0.5B-Instruct によるハンズオンで、素の Transformers 推論(5.97 tokens/sec)から vLLM 推論(94.84 tokens/sec)への 15.88 倍高速化を実演する。 - Sources (new): [[@2026__SpeakerDeck__LLM高速化(勉強会)]] - Entities (new): [[SuperHotDog]]. Entities (updated): [[vLLM]] - Concepts (new): [[PagedAttention]], [[Speculative Decoding]], [[CUDAGraph]]. Concepts (updated): [[KVキャッシュ管理]], [[FlashAttention]], [[Grouped-Query Attention]], [[Multi-Head Latent Attention]], [[線形注意]], [[スライディングウィンドウアテンション]], [[Prefill-Decode分離]], [[GPU最適化]], [[カーネルフュージョン]], [[混合精度訓練]] ### 2026-07-17 ingest-paper | A New Golden Age for Computer Architecture (CACM, 2019) - [[@2019__CACM__A New Golden Age for Computer Architecture]] — [[John L. Hennessy]]・[[David A. Patterson]]([[Stanford University]] / [[University of California, Berkeley]])、Communications of the ACM, Vol. 62 No. 2, 2019-02、DOI: 10.1145/3282307。2017年ACM Turing賞受賞記念講演(Turing Lecture)のCACM掲載版。IBM System/360からRISC-Vまでの命令セットアーキテクチャ(ISA)の歴史を、著者ら自身がRISC-I/MIPSの開発当事者であった立場から振り返る。Moore の法則と Dennard スケーリングの終焉により汎用プロセッサの性能向上率がCISC期22%/年→RISC期52%/年→マルチコア期23%/年→Amdahl期12%/年→予測3%/年へと段階的に低下してきたと定量的に分析した上で、ドメイン固有アーキテクチャ(DSA、Google TPU v1が汎用CPU比29倍高速・80倍超のエネルギー効率)・オープンISA(RISC-V)・アジャイルなハードウェア開発の3つを次の10年の性能向上の道筋として提示する。Meltdown/Spectreのようなセキュリティ脆弱性を、ISAの「正しい実装」の定義に性能効果が含まれてこなかったことに起因するとする視点も示す。 - Sources (new): [[@2019__CACM__A New Golden Age for Computer Architecture]] - Entities (new): [[John L. Hennessy]], [[RISC-V]]. Entities (updated): [[David A. Patterson]], [[Google]] - Concepts (new): [[ドメイン固有アーキテクチャ]], [[ムーアの法則とデナードスケーリングの終焉]]. Concepts (updated): [[VLIW]], [[メモリウォール]] ### 2026-07-18 ingest-paper | ContextPilot: Fast Long-Context Inference via Context Reuse (MLSys 2026) - [[@2026__MLSys2026__ContextPilot - Fast Long-Context Inference via Context Reuse]] — Yinsicheng Jiang・Yeqi Huang ほか([[University of Edinburgh]])、第9回 MLSys Conference 2026(Oral)。arXiv:2511.03475。完全一致 prefix caching(RadixCache・[[LMCache]])の低再利用率と、近似 KV マッチング([[CacheBlend]])の精度劣化(9〜11%)という既存手法のトレードオフを、KV 値でなく検索文書・メモリ等のコンテキストブロック単位で整列・重複排除・優先順位注釈を行う新設計で回避。MultihopRAG/NarrativeQA/QASPER/MT-RAG で1.5〜3倍のプリフィルスループット向上とほぼ精度維持(整列由来の劣化0.1〜3.3%)、DeepSeek-R1(671B)でキャッシュヒット率5%→60%、実運用エージェント(OpenClaw)でプリフィルレイテンシ−63.6%、エッジ(M3 MacBook Air)で2.41倍のレイテンシ削減を報告(source / paper / llm-inference / kv-cache / rag) - Sources (new): [[@2026__MLSys2026__ContextPilot - Fast Long-Context Inference via Context Reuse]] - Entities (new): [[ContextPilot]]. Entities (updated): [[University of Edinburgh]], [[LMCache]], [[CacheBlend]], [[Mem0]] - Concepts (updated): [[KVキャッシュ管理]] ### 2026-07-18 ingest-paper | The Too-Much-Talent Effect: Team Interdependence Determines When More Talent Is Too Much Versus Not Enough (Psychological Science, 2014) - [[@2014__PsychSci__The Too-Much-Talent Effect - Team Interdependence Determines When More Talent Is Too Much or Not Enough]] — Roderick I. Swaab・Michael Schaerer・Eric M. Anicich・Richard Ronay・Adam D. Galinsky([[INSEAD]] / [[Columbia University]] / [[Vrije Universiteit Amsterdam]])、Psychological Science, Vol. 25 No. 8, 2014-08、DOI: 10.1177/0956797614537280。サッカー(FIFA、2010/2014年W杯予選)・バスケットボール(NBA、10シーズン)・野球(MLB、10シーズン)のアーカイバルデータから、トップタレント比率とチーム成績の関係を検証。タスク相互依存性が高いサッカー・バスケでは人材比率50%超で成績が負に転じる逆U字型曲線が現れる一方、相互依存性が低い野球では単調増加のまま転じないことを実証。NBA の play-by-play データ(アシスト・FG%・ディフェンスリバウンド)を用いた媒介分析で、チーム内コーディネーションの低下が人材過多効果を媒介することも統計的に立証(Sobel Z=2.93, p<.01)。2つのサーベイ研究では、人々の素朴信念が実際とは異なり常に線形単調だと予測していることも確認(source / paper / organizational-behavior / team-performance / sports-analytics) - Sources (new): [[@2014__PsychSci__The Too-Much-Talent Effect - Team Interdependence Determines When More Talent Is Too Much or Not Enough]] - Entities (new): [[Roderick I. Swaab]], [[Michael Schaerer]], [[Eric M. Anicich]], [[Richard Ronay]], [[Adam D. Galinsky]], [[INSEAD]]. Entities (updated): [[Columbia University]], [[Vrije Universiteit Amsterdam]], [[Singapore Management University]] - Concepts (new): [[過剰人材効果]], [[タスク相互依存性]] ### 2026-07-20 ingest | LLM生成テキストの統計的検知: TF-IDF+SVMによるAIGC分類器の構築 (blog.lyc8503.net) - [[AI生成テキスト分類器]] — [[lyc8503]] の個人ブログ記事。パープレキシティベースの AI 生成テキスト検知(失敗)を経て、`TF-IDF` + `LinearSVC` による文単位分類器 [[AITextDetector]] を構築し、7つの LLM(gemini・qwen・GLM-5・kimi25・glm47・doubao・deepseek-v3.2)それぞれに対応する二値分類器の多数決方式で約85%の文単位精度を達成。訓練データに含まれない未知モデル(Claude Sonnet 4.6・GPT 5.2)にも約70%以上の検知率で汎化することを示し、Lofter 実データでの偽陽性率が0.04%(閾値60%)と低い一方、同プラットフォームのトレンド記事の32.22%がAIスコア50%超と判定された。翻訳往復や脱AI感プロンプトによる回避は軽微な効果しかないことも検証している。 - Sources (new): [[AI生成テキスト分類器]] - Entities (new): [[lyc8503]], [[AITextDetector]] - Concepts (new): [[AI生成テキスト検知]] ### 2026-07-20 ingest-paper | Adversarial dynamical systems characterize when data-driven learning succeeds or fails (Nature Communications, 2026) - [[@2026__NatCommun__Adversarial dynamical systems characterize when data-driven learning succeeds or fails]] — [[Matthew J. Colbrook]]([[University of Cambridge]])・[[Igor Mezić]]([[UC Santa Barbara]])・[[Alexei Stepanenko]]([[University of Cambridge]])、Nature Communications (2026) 17:5397、DOI:10.1038/s41467-026-74220-8。Koopman作用素のスペクトルをデータから学習する問題に対し、敵対的力学系(adversarial dynamical systems)を構成することで、測度保存性・連続性の法という2条件が揃わない限りいかなる単一極限アルゴリズムも(確率的なものを含め)50%を超える確率で収束を保証できないという不可能性を証明。条件が揃う場合は誤差保証つきの最適アルゴリズムを構成し、可解性複雑性指標(SCI)によって問題の複雑性を上界・下界の一致として完全に分類した。北極海氷濃度データ(1979-2021)に適用し、EDMDでは埋もれる「隠れた減衰モード」を誤差保証つきで検出、IceNet・SEAS5より高精度かつ大幅に低コストな長期予測を実現(paper / dynamical-systems / koopman-operator / computability / climate-science)。 - Sources (new): [[@2026__NatCommun__Adversarial dynamical systems characterize when data-driven learning succeeds or fails]] - Entities (new): [[Matthew J. Colbrook]], [[Igor Mezić]], [[Alexei Stepanenko]] - Entities (updated): [[UC Santa Barbara]], [[University of Cambridge]] - Concepts (new): [[Koopman作用素]], [[可解性複雑性指標]] ### 2026-07-20 ingest | Kimi K3: Open Frontier Intelligence (Moonshot AI Blog) - [[@2026__Moonshot AI__Kimi K3 - Open Frontier Intelligence]] — [[Moonshot AI]] 公式ブログ(2026-07-17)。総パラメータ 2.8 兆・コンテキスト 100 万トークンの「世界初のオープンな 3T クラスモデル」[[Kimi K3]] を発表。[[Kimi Delta Attention]](KDA、[[Kimi Linear]] 由来の線形アテンションを 512-head MLA と組み合わせ)・[[Attention Residuals]](AttnRes、選択的表現検索)・[[Stable LatentMoE]](896 エキスパート中 16 活性化、スパーシティ 56)の 3 アーキテクチャ要素と、MXFP4/MXFP8 量子化認識訓練、Per-Head Muon・Quantile Balancing・SiTU の訓練手法を紹介。DeepSWE v1.1 で 67.3、コーディングベンチマークで Claude Fable 5・GPT-5.6 Sol 以外を上回るが「全体性能は最強のプロプライエタリモデルに未だ劣る」と自認。モデルウェイト・技術レポートは 2026-07-27 公開予定(kimi.com はサンドボックスのネットワーク許可リスト外のため WebFetch 経由の構造化要約に基づく、逐語引用ではない)(source / article / moe / llm / attention) - Sources (new): [[@2026__Moonshot AI__Kimi K3 - Open Frontier Intelligence]] - Entities (new): [[Kimi K3]], [[Kimi Delta Attention]], [[Attention Residuals]], [[Stable LatentMoE]]. Entities (updated): [[Moonshot AI]], [[Kimi Linear]] - Concepts (updated): [[Mixture-of-Experts]] ### 2026-07-20 ingest-paper | FailSafe: High-performance Resilient Serving (arXiv 2025 / MLSys 2026 Oral) - [[@2025__arXiv__FailSafe - High-performance Resilient Serving]] — Ziyi Xu([[Shanghai Jiao Tong University]])・[[Zhiqiang Xie]]・[[Swapnil Gandhi]]・[[Christos Kozyrakis]]([[Stanford University]])、arXiv:2511.14116(2025-11-18、cs.DC、Under Review)。MLSys 2026 Oral(https://mlsys.org/virtual/2026/oral/3856)にて改題後 "RaidServe" として発表予定(OpenReview `5pl9fdbEkq`)。テンソル並列 LLM サービングにおける GPU 障害後の計算・メモリ不均衡と復旧レイテンシに対処する耐障害システム。Cyclic KVCache Placement・Hybrid Attention・Fine-Grained Load-Aware Routing による負荷均衡と、プロアクティブ KVCache ホストバックアップ・FFN 可換性を利用したオンデマンド重み復旧による183倍高速復旧を8×H100 DGX で実証。標準的障害対応比最大2倍のスループット。(paper / llm-serving / fault-tolerance / tensor-parallelism) - Sources (new): [[@2025__arXiv__FailSafe - High-performance Resilient Serving]] - Entities (new): [[Ziyi Xu]]. Entities (updated): [[Zhiqiang Xie]], [[Swapnil Gandhi]], [[Christos Kozyrakis]], [[Stanford University]], [[Shanghai Jiao Tong University]], [[ReCycle]] - Concepts (new): [[耐障害LLMサービング]]. Concepts (updated): [[テンソル並列]], [[KVキャッシュ管理]], [[耐障害LLM訓練]] ### 2026-07-20 ingest | In-House LLM Serving at Netflix (Netflix TechBlog) - [[@2026__Netflix TechBlog__In-House LLM Serving at Netflix]] — Liping Pengほか([[Netflix]] AI Platform)、2026-07。既存のJVMベース統合サービングシステムとModel Scoring Service(MSS)/[[Triton Inference Server]]の上でLLM推論を内製運用する事例。2026年夏に[[TensorRT-LLM]]から[[vLLM]]へpaved-pathエンジンを切り替え(判断基準は性能ベンチマークでなく運用適合性)、TritonのPython/vLLMバックエンド選択とバージョン整合の運用課題、OpenAI互換API追加(response_formatの欠落パッチ)、Red-Black/Versionedデプロイ戦略、vLLM V0→V1移行によるlogits processorのバッチレベル化(制約付きデコーディング)を報告。(source / article / llm-inference / serving / netflix / vllm / triton) - Sources (new): [[@2026__Netflix TechBlog__In-House LLM Serving at Netflix]] - Entities (new): [[Triton Inference Server]]. Entities (updated): [[Netflix]], [[vLLM]], [[TensorRT-LLM]], [[NVIDIA]] - Concepts (new): [[制約付きデコーディング]]. Concepts (updated): [[LLM推論]] ### 2026-07-20 ingest-paper | Niyama: Breaking the Silos of LLM Inference Serving (arXiv 2025 / ASPLOS 2026) - [[@2025__arXiv__Niyama - Breaking the Silos of LLM Inference Serving]] — [[Kanishk Goel]]・[[Jayashree Mohan]]・[[Nipun Kwatra]]・[[Ravi Shreyas Anupindi]]・[[Ramachandran Ramjee]]([[Microsoft Research]] India)、arXiv:2503.22562(2025-03-28、cs.LG/cs.AI/cs.DC)。改題後 "QoServe" として ASPLOS 2026 採録。既存 LLM サービングの interactive/batch サイロ分割を廃し、複数 QoS クラスを同一レプリカ上で co-schedule する QoS 駆動スケジューリングシステム Niyama を提示。動的チャンキング(デッドラインスラック活用)・ハイブリッド優先度付け(EDF/SRPF 線形補間)・積極的降格(過負荷時の選択的リクエスト降格)の 3 技術により、SOTA サイロ構成比で GPU 必要台数を最大 32% 削減し、極限負荷下で SLO 違反を一桁削減。[[Sarathi-Serve]] のスケジューラを拡張して実装。(paper / llm-serving / scheduling / qos) - Sources (new): [[@2025__arXiv__Niyama - Breaking the Silos of LLM Inference Serving]] - Entities (new): [[Kanishk Goel]], [[Jayashree Mohan]], [[Nipun Kwatra]], [[Ravi Shreyas Anupindi]], [[Ramachandran Ramjee]], [[Sarathi-Serve]]. Entities (updated): [[Microsoft Research]], [[vLLM]] - Concepts (updated): [[LLM推論]], [[Prefill-Decode分離]], [[LLMサービング管理]] ### 2026-07-20 ingest-paper | DuckDB: an Embeddable Analytical Database (SIGMOD '19) - [[@2019__SIGMOD__DuckDB - an Embeddable Analytical Database]] — Mark Raasveldt・Hannes Mühleisen([[CWI]])、SIGMOD '19 Demonstration track、4ページ、DOI 10.1145/3299869.3320212。SQLiteのような組み込みデータベースはOLTP向けに設計され分析(OLAP)性能が乏しいという課題を受け、パーサ(libpg_query)・コストベースオプティマイザ・ベクトル化解釈実行エンジン・HyPer由来のシリアライザブルMVCC・DataBlocksストレージから成る、ゼロから組み込み分析用途向けに設計されたデータベースDuckDBを提示。JIT不採用による移植性重視、SQLite・MonetDBLite・HyPerとの対決を想定したTPC-Hベンチマークデモンストレーション構成(teaser/drilldownシナリオ)を報告。(paper / database / olap / embedded-database) - Sources (new): [[@2019__SIGMOD__DuckDB - an Embeddable Analytical Database]] - Entities (new): [[Mark Raasveldt]], [[Hannes Mühleisen]], [[CWI]], [[DuckDB]], [[MonetDBLite]] - Concepts (updated): [[列指向OLAPデータベース]] ### 2026-07-20 ingest-slides | Welcome & Setup (Design and Implementation of DuckDB Internals, Lecture 1) - [[@2026__DuckDB__Welcome & Setup (DiDi Course, Lecture 1)]] — [[Torsten Grust]]([[Universität Tübingen]])による15週講義シリーズ「Design and Implementation of DuckDB Internals(DiDi)」第1回。講義全体の射程を概観し、[[DuckDB]]の「zero copy」プロセス内蔵設計・2019年6月初リリース・名称の由来(Hannes Mühleisenの飼っていたアヒルWilbur)を紹介する導入回。(slides / database / olap / embedded-database) - Sources (new): [[@2026__DuckDB__Welcome & Setup (DiDi Course, Lecture 1)]] - Entities (new): [[Torsten Grust]], [[DuckDB Labs]]. Entities (updated): [[DuckDB]], [[Hannes Mühleisen]], [[Mark Raasveldt]] - Concepts (updated): [[列指向OLAPデータベース]] ### 2026-07-20 ingest-slides | The Query Performance Spectrum (DiDi Course #2) - [[@2026__DiDi__The Query Performance Spectrum]] — [[Torsten Grust]]([[Universität Tübingen]])によるDiDi講義第2回。TPC-H `lineitem` 列合計クエリをawk・Python・C(getline/mmap/マルチスレッド)・SQL([[DuckDB]])の7実装で実測比較し、システムコール削減・SWARビット演算・マルチスレッド化による40倍以上の性能スペクトラムを示す。(slides / database / olap / performance-engineering) - Sources (new): [[@2026__DiDi__The Query Performance Spectrum]] - Entities (updated): [[Torsten Grust]], [[DuckDB]] - Concepts (updated): [[列指向OLAPデータベース]] ### 2026-07-20 ingest-slides | Managing Memory + Grouped Aggregation (DiDi Course #3) - [[@2026__DiDi__Managing Memory + Grouped Aggregation]] — [[Torsten Grust]]([[Universität Tübingen]])によるDiDi講義第3回。[[DuckDB]]のメモリ管理(ホストRAM80%既定利用、統合割り当て管理、German Strings)とハッシュベースグループ集約(`HASH_GROUP_BY`/`PERFECT_HASH_GROUP_BY`、2段階の外部集約)を扱う。(slides / database / olap / memory-management) - Sources (new): [[@2026__DiDi__Managing Memory + Grouped Aggregation]] - Entities (updated): [[Torsten Grust]], [[Universität Tübingen]], [[DuckDB]] - Concepts (new): [[アウトオブコア処理]], [[ハッシュベースグループ集約]] ### 2026-07-20 ingest-slides | Sorting Large Tables (DiDi Course #4) - [[@2026__DiDi__Sorting Large Tables]] — [[Torsten Grust]]([[Universität Tübingen]])によるDiDi講義第4回。[[DuckDB]]の二相マージソート戦略(キー正規化・Vergesort/Ska Sort/Pattern-defeating QuickSort・T-way merge)を解説する。(slides / database / olap / sorting) - Sources (new): [[@2026__DiDi__Sorting Large Tables]] - Entities (updated): [[Torsten Grust]], [[Universität Tübingen]], [[DuckDB]] - Concepts (new): [[外部マージソート]], [[キー正規化]] ### 2026-07-20 ingest-slides | The ART of Indexing (DiDi Course #5) - [[@2026__DiDi__The ART of Indexing]] — [[Torsten Grust]]([[Universität Tübingen]])によるDiDi講義第5回。[[DuckDB]]のZonemap(min-maxインデックス)とAdaptive Radix Tree(ART、span=8bit・4種類の内部ノード型・遅延展開/パス圧縮)の2種類のインデックスを解説する。(slides / database / olap / indexing) - Sources (new): [[@2026__DiDi__The ART of Indexing]] - Entities (updated): [[Torsten Grust]], [[Universität Tübingen]], [[DuckDB]] - Concepts (new): [[Adaptive Radix Tree]], [[Zonemap]]. Concepts (updated): [[B-Tree]] ### 2026-07-20 ingest-slides | Query Execution Plans and Pipelining (DiDi Course #6) - [[@2026__DiDi__Query Execution Plans and Pipelining]] — [[Torsten Grust]]([[Universität Tübingen]])によるDiDi講義第6回。[[DuckDB]]がSQLを実行プラン(演算子木)へ変換しパイプラインへ分解する仕組み(自明並列演算子とシンクのSink/Combine/Finalize、パイプライン依存関係・パイプライン駆動ループ)を扱う。(slides / database / olap / query-execution) - Sources (new): [[@2026__DiDi__Query Execution Plans and Pipelining]] - Entities (updated): [[Torsten Grust]], [[Universität Tübingen]], [[DuckDB]] - Concepts (new): [[クエリ実行プラン]], [[プッシュ型パイプライン実行]]. Concepts (updated): [[並列データベース]] ### 2026-07-20 ingest-slides | Vectorized Query Execution (DiDi Course #7) - [[@2026__DiDi__Vectorized Query Execution]] — [[Torsten Grust]]([[Universität Tübingen]])によるDiDi講義第7回。[[DuckDB]]のベクトル物理表現(FLAT/CONSTANT/DICTIONARY/SEQUENCE)、unified representation+テンプレートによるコード生成、DuckDB 1.4実ソースの比較式評価トレース、コンパイラのSIMD化・分岐予測ミスペナルティを扱う。(slides / database / olap / simd / vectorization) - Sources (new): [[@2026__DiDi__Vectorized Query Execution]] - Entities (updated): [[Torsten Grust]], [[Universität Tübingen]], [[DuckDB]] - Concepts (updated): [[SIMDベクトル処理]], [[分岐予測]], [[パイプライン処理]] ### 2026-07-20 ingest-slides | Query Rewriting and Optimization (DiDi Course #8) - [[@2026__DiDi__Query Rewriting and Optimization]] — [[Torsten Grust]]([[Universität Tübingen]])によるDiDi講義第8回。[[DuckDB]]のクエリオプティマイザ(30以上の最適化パス、結合順序最適化のDPhyp動的計画法、DEPENDENT_JOINの系統的書き換えによるクエリ非相関化)をTPC-Hクエリで解説する。(slides / database / olap / query-optimization) - Sources (new): [[@2026__DiDi__Query Rewriting and Optimization]] - Entities (updated): [[Torsten Grust]], [[Universität Tübingen]], [[DuckDB]] - Concepts (new): [[クエリオプティマイザ]], [[結合順序最適化]], [[クエリ非相関化]] ### 2026-07-20 ingest-slides | 30分でわかるデータ指向アプリケーションデザイン (Data Engineering Study #18) - [[@2023__DataEngineeringStudy__30分でわかるデータ指向アプリケーションデザイン]] — 『データ指向アプリケーションデザイン』監訳者[[Taro L. Saito]]による講演。原著出版から5年間の発展を、データ形式・インデックス構造・分散トランザクション・[[導出データ]]・SQLの役割拡大・SLOという原著の枠組みに沿って再構成する。(slides / database / distributed-systems) - Sources (new): [[@2023__DataEngineeringStudy__30分でわかるデータ指向アプリケーションデザイン]] - Entities (new): [[Taro L. Saito]]. Entities (updated): [[Amazon Aurora (Database)]], [[DuckDB]] - Concepts (new): [[導出データ]]. Concepts (updated): [[分散トランザクション]] ### 2026-07-20 ingest-paper | Aurora DSQL: Scalable, Multi-Region OLTP - [[@2026__arXiv__Aurora DSQL - Scalable, Multi-Region OLTP]] — [[Marc Brooker]]ほか([[Amazon Web Services]])。compute・storage・トランザクション調整を独立サービスに分離した disaggregated アーキテクチャで、MVCC による座標不要読み取りと OCC による書き込みを組み合わせ、コミット時のみクロスリージョン座標するマルチリージョン分散 SQL データベース。p99 レイテンシ実測(2リージョンで SELECT 約2ms・COMMIT 約30ms)と Journal 間イレイジャーコーディングによるレイテンシ・可用性最適化を報告する。(paper / database / distributed) - Sources (new): [[@2026__arXiv__Aurora DSQL - Scalable, Multi-Region OLTP]] - Entities (new): [[Aurora DSQL]]. Entities (updated): [[Marc Brooker]], [[Amazon Aurora (Database)]] - Concepts (updated): [[分散SQLデータベース]], [[地理分散SQLデータベース]], [[分散トランザクション]], [[分散コンセンサス回避]], [[クォーラムベースレプリケーション]] ### 2026-07-20 ingest-paper | Using Lightweight Formal Methods to Validate a Key-Value Storage Node in Amazon S3 - [[@2021__SOSP__Using Lightweight Formal Methods to Validate a Key-Value Storage Node in Amazon S3]] — [[James Bornholt]]ほか([[Amazon Web Services]] / ETH Zurich / University of Washington)。Amazon S3 の新しいキーバリューストレージノード [[ShardStore]] を、実装と同じ言語(Rust)で書く参照モデル・property-based testing・stateless model checking(Loom/Shuttle)で検証する軽量形式手法アプローチ。本番投入前に16件の不具合(機能的正しさ5・クラッシュ整合性5・並行性6)を検出し、検証アーティファクトの保守を段階的に非専門エンジニアへ引き継いだ。(paper / storage / formal-methods) - Sources (new): [[@2021__SOSP__Using Lightweight Formal Methods to Validate a Key-Value Storage Node in Amazon S3]] - Entities (new): [[ShardStore]], [[James Bornholt]]. Entities (updated): [[Amazon Web Services]] ### 2026-07-20 ingest-paper | The Snowflake Elastic Data Warehouse - [[@2016__SIGMOD__The Snowflake Elastic Data Warehouse]] — Benoit Dageville・Thierry Cruanes・Marcin Zukowski ほか([[Snowflake Computing]])。ストレージ(S3)とコンピュートを疎結合サービスへ分離した「マルチクラスタ・シェアードデータ・アーキテクチャ」を導入。テーブルファイルの不変性を核にSnapshot Isolation・時間旅行・クローン・オンラインアップグレードを同一設計原理から導出し、VARIANT型による半構造化データのELT処理を約10%オーバーヘッドで実現した産業論文(SIGMOD 2016)。(paper / database / distributed / cloud) - Sources (new): [[@2016__SIGMOD__The Snowflake Elastic Data Warehouse]] - Entities (new): [[Snowflake Computing]], [[Benoit Dageville]], [[Thierry Cruanes]], [[Marcin Zukowski]]. Entities (updated): [[Amazon Web Services]] - Concepts (updated): [[シェアードナッシング]], [[並列データベース]], [[データパーティショニング]], [[列指向OLAPデータベース]] - Concepts (new): [[軽量形式手法]]. Concepts (updated): [[LSMツリー]] ### 2026-07-20 ingest-paper | Dremel: Interactive Analysis of Web-Scale Datasets - [[@2010__VLDB__Dremel - Interactive Analysis of Web-Scale Datasets]] — Sergey Melnikほか([[Google]], Inc.)。ネストデータに対する列指向ストレージ(repetition level / definition level)とウェブ検索由来の多段サービス木を組み合わせ、兆行規模テーブルへの集計クエリを数秒で実行する対話的クエリシステム。MapReduceを置き換えず補完する設計思想を明示し、3000ノード規模の実験でMR-on-recordsに対し87TBに対し約0.5TBしか読まず実行時間を2桁短縮する(VLDB 2010)。(paper / database / olap / distributed) - Sources (new): [[@2010__VLDB__Dremel - Interactive Analysis of Web-Scale Datasets]] - Entities (new): [[Sergey Melnik]], [[Andrey Gubarev]], [[Jing Jing Long]], [[Geoffrey Romer]], [[Shiva Shivakumar]], [[Matt Tolton]], [[Theo Vassilakis]], [[MapReduce]], [[Protocol Buffers]]. Entities (updated): [[Google]] - Concepts (new): [[ネスト型カラムナストレージ]]. Concepts (updated): [[列指向OLAPデータベース]], [[並列データベース]] ### 2026-07-21 ingest-paper | Mach: A Pluggable Metrics Storage Engine for the Age of Observability - [[@2022__CIDR__Mach - A Pluggable Metrics Storage Engine for the Age of Observability]] — [[Franco Solleza]]・[[Andrew Crotty]]・[[Suman Karumuri]]・[[Nesime Tatbul]]・[[Stan Zdonik]]([[Brown University]]・[[Carnegie Mellon University]]・[[Slack Technologies]]・Intel Labs・MIT)。複数の独立ライタースレッドが疎結合(mutex 協調なし)に振る舞うメトリクス専用ストレージエンジン。単一ノード最大480M f64/秒の書き込み(既存手法比約10倍)・100万データソースまでのスケーリング・既存手法比最大3倍の読み取りスループットを予備実験で示した(CIDR 2022)。(paper / database / time-series / observability) - Sources (new): [[@2022__CIDR__Mach - A Pluggable Metrics Storage Engine for the Age of Observability]] - Entities (new): [[Andrew Crotty]], [[Mach]]. Entities (updated): [[Franco Solleza]], [[Nesime Tatbul]], [[Stan Zdonik]], [[Suman Karumuri]], [[Brown University]], [[Carnegie Mellon University]], [[Slack Technologies]] - Concepts (updated): [[時系列データベース]], [[専用データベースシステム]] ### 2026-07-21 ingest | Tales from the Lunar Module Guidance Computer - [[@2004__AAS__Tales from the Lunar Module Guidance Computer]] — [[Don Eyles]]([[MIT Instrumentation Laboratory]])。Apollo 11 の 1201/1202 プログラムアラーム(ランデブーレーダーのICD記載漏れによるCPU時間喪失)とスロットル振動「キャッスレーション」(タイムラグ補償の誤り)を、開発当事者が一次資料に基づき解説する回顧録(AAS 04-064, 2004)。Apollo Guidance Computer の優先度駆動プリエンプティブ Executive/Waitlist・リスタート保護の設計思想を含む。(article / fault-tolerance / real-time-systems / postmortem / apollo) - Sources (new): [[@2004__AAS__Tales from the Lunar Module Guidance Computer]] - Entities (new): [[Don Eyles]], [[Allan Klumpp]], [[Hal Laning]], [[Apollo Guidance Computer]], [[MIT Instrumentation Laboratory]]. Entities (updated): [[Margaret Hamilton]] - Concepts (new): [[優先度駆動リアルタイム実行系]], [[リスタート保護]], [[インターフェース仕様の齟齬による障害]], [[制御ループの安定性とタイムラグ補償]]. Concepts (updated): [[べき等性]], [[チェックポイント]], [[根本原因分析]], [[ポストモーテム]] ### 2026-07-21 ingest-paper | Don't Predict, Prioritize: Rethinking GPU Reliability Assessment - [[@2026__arXiv__Don't Predict, Prioritize - Rethinking GPU Reliability Assessment]] — Difeng Ma・[[Changhua Pei]]ほか(Computer Network Information Center, [[Chinese Academy of Sciences]] / [[University of Chinese Academy of Sciences]] / [[StepFun]] / [[Tsinghua University]])。GPU の Double Bit Error・GPU Lost 障害が時系列テレメトリからは本質的に予測不能であることを 5 モデル横断で実証し(Kendall相関・SNR・分布比較の3分析)、ホスト単位のリスクランキングへ再定式化する Learning-to-Rank モデル HeaRank を提案。本番クラスタで AUC 0.834、上位5%リスクノードで将来障害の64%を捕捉(既存Health Scoreシステムは21%)し、6ヶ月の本番展開で月あたり約5万ドルのGPU時間節約を試算した(KDD '26 V.2)。(paper / aiops / hpc / gpu-reliability) - Sources (new): [[@2026__arXiv__Don't Predict, Prioritize - Rethinking GPU Reliability Assessment]] - Entities (new): [[Difeng Ma]], [[Yuanwei Lu]], [[Quan Zhou]], [[Daxin Jiang]], [[Jingjing Li]]. Entities (updated): [[Changhua Pei]], [[Gaogang Xie]], [[Zexin Wang]], [[Yibo Zhu]], [[Dan Pei]], [[Chinese Academy of Sciences]], [[University of Chinese Academy of Sciences]], [[Tsinghua University]], [[StepFun]] - Concepts (updated): [[障害予測]], [[GPUレジリエンス]]