_index - yuuk1's Digital Garden

# Concepts Index ### 2026-07-21 Tales from the Lunar Module Guidance Computer ingest - [[優先度駆動リアルタイム実行系]](新規) — 可変長ジョブに優先度を与えプリエンプティブに実行するリアルタイムOS方式(Executive/Waitlist)。ボックスカー式executiveとの対比を定義。[[@2004__AAS__Tales from the Lunar Module Guidance Computer]]を軸に記録。(real-time-systems / scheduling / fault-tolerance) - [[リスタート保護]](新規) — waypointによるチェックポイントでリスタート時にジョブを直近waypointから再開する設計。TLOSSによる資源枯渇の自己修復効果を横断的知見に記録。(fault-tolerance / idempotency / checkpointing) - [[インターフェース仕様の齟齬による障害]](新規) — ICDのような接続仕様が制約の一部だけを記述し統合時に予期しない相互作用を招く障害クラス。「コンピュータエラー」という表層的帰属への異議を定義。(root-cause-analysis / postmortem / fault-tolerance) - [[制御ループの安定性とタイムラグ補償]](新規) — フィードバック制御のアクチュエータ応答遅延補償の精度が系の安定性を左右する設計課題。throttle castellation 事例を定義。(control-systems / fault-tolerance / apollo) - [[べき等性]](更新) — 手作業waypoint方式(Apollo)による静的コード規約でのべき等性確保を横断的知見に追記。 - [[チェックポイント]](更新) — 手作業waypoint方式がシステムレベル最適化以前の保存範囲選別の原型であるという横断的知見を追記。 - [[根本原因分析]](更新) — Apollo 11の「コンピュータエラー」表層帰属への異議が現代AIOps以前の実例であるという横断的知見を追記。 - [[ポストモーテム]](更新) — 単一原因ラベルへの異議がSRE文化としての「根本原因」用語否定に半世紀先行する当事者実践であるという横断的知見を追記。 ### 2026-07-20 Managing Memory + Grouped Aggregation (DiDi #03) リンク切れ修正 - [[アウトオブコア処理]](新規) — [[DuckDB]]のメモリ階層・統一メモリ管理(非ページ/ページ/ベーステーブルバッファリング)・スピリング/アンピン/エビクションを定義。[[@2026__DiDi__Managing Memory + Grouped Aggregation]]を軸に、ページ化中間データのポインタ付け替え機構を記録。(database / memory-management) - [[ハッシュベースグループ集約]](新規) — `HASH_GROUP_BY`によるハッシュテーブル構築・線形プロービング・`PERFECT_HASH_GROUP_BY`、および外部グループ集約の2フェーズ設計(スレッドローカル事前集約→パーティション単位集約)を定義。[[@2026__DiDi__Managing Memory + Grouped Aggregation]]を軸に記録。(database / query-execution) ### 2026-07-20 Sorting Large Tables (DiDi #04) ingest-slides - [[外部マージソート]](新規) — [[DuckDB]]の二相マージソート戦略(フェーズ➊スレッドローカルソート、フェーズ➋T-wayマージ)を定義。[[@2026__DiDi__Sorting Large Tables]]を軸に、主記憶を超えるテーブルへのディスクスピル設計を記録。(database / sorting) - [[キー正規化]](新規) — 型ディスパッチ・NULL処理・辞書式順序を単一の`<`比較に置き換える固定長キー(`FixedSortKey`)設計を定義。[[@2026__DiDi__Sorting Large Tables]]を軸に、`create_sort_key()`によるユーザレベル公開を記録。(database / sorting) ### 2026-07-20 FailSafe ingest-paper - [[耐障害LLMサービング]](新規) — テンソル並列 LLM サービングにおける GPU 障害後の「復旧オーバーヘッド」と「持続的な計算・メモリ不均衡」を区別する概念。[[@2025__arXiv__FailSafe - High-performance Resilient Serving]] を軸に、同じ Stanford チームが[[耐障害LLM訓練]]の ReCycle からサービングへ焦点を移した経緯を横断的知見として記録。(distributed / machine-learning / fault-tolerance) - [[テンソル並列]](更新) — 不規則な GPU 数でのアテンションヘッド単位の不均衡と、Cyclic KVCache Placement・Hybrid Attention による prefill/decode 段階別の緩和効果を横断的知見に追記。 - [[KVキャッシュ管理]](更新) — ホストメモリ退避が「再利用キャッシュ」と「障害復旧バックアップ」の二重目的で使われる観察、および KVCache 配置が耐障害性の観点からも設計対象になるという知見を追記。 - [[耐障害LLM訓練]](更新) — 同一著者チーム(Gandhi・Kozyrakis)による ReCycle(訓練)と FailSafe(サービング)の設計思想対比を横断的知見に追記。 ### 2026-07-18 OpsMem ingest-paper - [[エージェントメモリ]](更新) — OpsMem の STM/LTM グラフメモリを代表的システム表に追加し、cross-memory resonance を「検索のトリガー条件」という新しい軸として横断的知見に追記。 - [[仮説駆動RCA]](更新) — OpsMem の STM(belief-state グラフ、GoS 由来)と LTM(運用経験)の結合を、仮説保持・検証の拠り所という観点で横断的知見に追記。 - [[LLMによる根本原因分析]](更新) — 静的 RAG(VectorRAG/GraphRAG/LinearRAG)から状態条件付き動的検索(CMR)への移行、および LTM consolidation による「経験蒸留器」という新しい LLM 役割分化を横断的知見に追記。 ### 2026-07-18 MLCommons Chakra ingest-paper - [[実行トレース]](新規) — 分散AI/MLワークロードの計算・メモリ・通信操作と依存関係を記録するグラフベース標準表現。[[MLCommons Chakra]]を軸に定義。(distributed / benchmarking) - [[Prefill-Decode分離]](更新) — Chakraのtrace-basedによるvLLM PD分離構成のper-layer KV転送レイテンシ実測(Send/Recv非対称性)を横断的知見に追記。 - [[KVキャッシュ管理]](更新) — Chakraによる標準トレースを使ったKVキャッシュオフロードコストのベンダー非依存な定量化を横断的知見に追記。 ### 2026-07-15 Scalable and Energy-Efficient AI ingest-paper - [[GPUエネルギー効率]](新規) — TFLOPs/kW・tokens-per-kilojouleで表される「計算-エネルギー不整合(compute-energy misalignment)」を軸とする概念。[[@2026__AI__Scalable and Energy-Efficient AI - System-Level Profiling of NVIDIA GPU Clusters for Distributed LLM Training]](訓練)と[[@2026__IPDPS__Beyond Throughput - Performance and Energy Insights of LLM Inference Across AI Accelerators]](推論)を突き合わせ、スループット優位とエネルギー効率優位が独立であることを横断的知見として記録。(gpu / energy / llm / aiinfra) ### 2026-07-15 Speculations Concerning the First Ultraintelligent Machine ingest-paper - [[知能爆発]](更新) — 提唱者 [[I. J. Good]] の一次論文([[@1965__AdvComput__Speculations Concerning the First Ultraintelligent Machine]])を追加し、Good(概念の定式化)と Yudkowsky(機構の定式化)の40年以上を隔てた役割分担を横断的知見に追記。 - [[Recursive Self-Improvement]](更新) — 概念の起源となった1965年原論文を出典に追加。 ### 2026-07-14 言語モデルの内部機序：解析と解釈 ingest-slides - [[SAE]](新規) — Sparse Autoencoderによる辞書学習。ゴールデンゲートブリッジ特徴とfeature absorptionの限界を扱う。(machine-learning / llm / interpretability) - [[活性化パッチング]](新規) — Activation Patchingによる因果的介入。時間軸方向操作・拒否方向操作等の実例を集約。(machine-learning / llm / interpretability) - [[言語モデルのプロービング]](新規) — 教師ありプローブによる内部表現の解析。構文木・地理座標・数値属性の実例を集約。(machine-learning / llm / interpretability) - [[機構的解釈性]](更新) — 4手法群(注意パターン観察・語彙空間射影・出力影響度測定・Circuit Analysis)の全体像と、「局所性・一対一対応」前提への懐疑を追記。 - [[プラトン的表現仮説]](更新) — 言語モデル対ヒト脳(in silico/in vivo)の収束議論を追記。 - [[モデル表現収束]](更新) — 緯度経度プローブ・CIELAB色空間同型性による収束の追加証拠を追記。 - [[ロジットレンズ]](更新) — 層単位の予測トークン推移可視化と非英語処理時の中間層挙動の観察を追記。 - [[帰納ヘッド]](更新) — 帰納ヘッド出現タイミングとICLスコア向上タイミングの一致という訓練ダイナミクスの実測を追記。 - [[アテンションヘッド]](更新) — attention sink現象の詳細メカニズム(massive activations)、緩和策、注意重み解釈可能性論争、IOI回路を追記。 ### 2026-07-10 Failure Trends in a Large Disk Drive Population ingest - [[ハードディスク信頼性]](新規) — Google 本番 10 万台超 HDD の実証研究(FAST 2007)を基盤に、AFR パターン・SMART シグナルの予測力と限界・温度/使用率との相関を集約。(storage / reliability / hardware / smart) - [[データセンター信頼性]](更新) — 温度・使用率の弱い相関と SMART 限界の定量化(Pinheiro et al. 2007)を横断的知見に追記。 - [[障害予測]](更新) — SMART シグナルなしの障害ドライブが 56% 超という予測精度の天井を定量化した先駆的実証として横断的知見に追記。 ### 2026-07-08 Benchmarking the Overhead of Distributed Tracing Agents ingest - [[トレーシングオーバーヘッド]](新規) — Java トレーシングエージェントが被監視アプリに追加する実行時レイテンシ。Kieker 133.92 ns/depth から inspectIT 656.79 ns/depth まで 5 倍の差。5 タスク(TIME/METADATA/CALL-TREE/MEMORY/QUEUE)で根本原因を分類。 - [[分散トレーシング]](更新) — エージェント実装選択でオーバーヘッドが 5 倍変わること・Pinpoint/Scouter のスパン損失バグによる傾きの偽装、eBPF vs Java エージェントの比較閾値の未解決問いを追記。 - [[継続的プロファイリング]](更新) — async-profiler のフレームグラフによるエージェント実装ボトルネック特定の横断的知見を追記。 ### 2026-07-07 VAST AI Operating System ingest - [[DASEアーキテクチャ]](新規) — Disaggregated and Shared Everything: ステートレス CNode と NVMe-oF 接続の DBox による単一非分割ネームスペースを実現する分散ストレージ設計パラダイム。(storage / ai-infrastructure / distributed) - [[コンピュートストレージ分離]](更新) — NVMe-oF が分離のレイテンシ障壁を低下させる観察と VAST DASE の横断的知見を追記。未解決の問いに Shared-Everything のスケール限界を追加。 - [[分散メッセージブローカ]](更新) — VAST Event Broker の「ストレージ側消去符号化でレプリカ不要」設計の横断的知見と未解決の問いを追記。 ### 2026-07-06 A Checkpoint/Restore Mechanism with Interoperability Among Distinctive WebAssembly Interpreters (APSys 2024 Poster) ingest - [[WebAssembly]]・[[ランタイム中立チェックポイント]]・[[Application Checkpointing]]・[[VM Migration]]・[[Edge-cloud Collaboration]]・[[チェックポイント]](更新) — standard interpreter と fast interpreter の間でプログラムカウンタ・コントロールスタック・バリュースタックを変換する異種 interpreter 間 C/R の知見を横断的知見・未解決の問い・関連に追記。 ### 2026-07-05 Self-Hosted WebAssembly Runtime for Runtime-Neutral Checkpoint/Restore in Edge–Cloud Continuum (Mid4CC ’25) ingest - [[Self-Hosted WebAssembly Runtime]](新規) — Wasm 自身にコンパイルしたランタイムを中間層として用い、ホストランタイムの差異と最適化戦略の差異を吸収する概念。 - [[WebAssembly]]・[[ランタイム中立チェックポイント]]・[[Application Checkpointing]]・[[VM Migration]]・[[Edge-cloud Collaboration]](更新) — Chiwawa による自己ホスト型 C/R の知見を横断的知見・未解決の問い・関連に追記。 ### 2026-07-05 Seamless Self-Healing in WebAssembly Container Orchestration with Runtime-Neutral Checkpointing (CANDARW 2025) ingest - [[ランタイム中立チェックポイント]](新規) — 特定のランタイム実装に依存しない中間形式でアプリケーション状態を保存・復元し、異種 Wasm ランタイム間移行を可能にするチェックポイント技術。 - [[ホットリスタート]](新規) — チェックポイントからの復元によりコールドスタートを回避する高速な障害回復手法。 - [[動的ランタイム切り替え]](新規) — 実行状態を保持したまま異なる Wasm ランタイム間でワークロードを移行し、メモリ圧力を緩和する技術。 - [[セルフヒーリング]](新規) — 障害を検知し自動的に回復する能力。本論文ではランタイム中立チェックポイントを用いた状態保持型回復を提案。 - [[WebAssembly]](更新) — WasmEdge と WAMR 間の動的切り替えとホットリスタートの知見を横断的知見・未解決の問いに追記。 - [[チェックポイント]](更新) — ランタイム中立チェックポイントによる異種ランタイム間マイグレーションの知見を横断的知見・未解決の問いに追記。 - [[コンテナオーケストレーション]](更新) — Wasm コンテナにおけるホットリスタートと動的ランタイム切り替えの知見を横断的知見・未解決の問いに追記。 ### 2026-07-05 Container Transplantation (APSys ’23) ingest - [[Container Transplantation]]・[[Capability-based Security]]・[[Capsicum]]・[[Lightweight Sandboxing]](新規) — Linux コンテナを FreeBSD へ移植し Capsicum を透過適用する軽量サンドボックス化の概念群。 - [[コンテナ仮想化]](更新) — Container Transplantation と Sandbox Tailoring の比較を横断的知見に追記。 ### 2026-07-05 Stateful VM Migration Among Heterogeneous WebAssembly Runtimes (EdgeSys ’24) ingest - [[WebAssembly]]・[[VM Migration]]・[[Edge Computing]]・[[Edge-cloud Collaboration]]・[[Application Checkpointing]](新規) — WasmEdge と WAMR 間の異種ランタイムステートフルVMマイグレーションに関連する概念群。(webassembly / edge-computing / virtualization / migration) - [[チェックポイント]](更新) — dirty memory検出によるチェックポイントサイズ削減と、異種ランタイム間の状態変換を横断的知見・未解決の問いに追記。 ### 2026-07-05 Subaco (UCC 2021) ingest - [[Sandbox Tailoring]](新規) — リソースごとに異なる隔離強度の手法を組み合わせるコンテナサンドボックス設計思想。 - [[コンテナネットワーク分離]](新規) — 共有ホスト OS 上のコンテナ間ネットワーク通信を保護する隔離技術。 - [[Para-passthrough Hypervisor]](新規) — 実デバイスを見せつつ特定デバイス I/O を傍受する薄いハイパーバイザアーキテクチャ。 - [[コンテナ仮想化]](更新) — Subaco による Sandbox Tailoring の知見を横断的知見・未解決の問いに追記。 ### 2026-07-04 OSDI'25 Extending Applications Safely and Efficiently ingest - [[Extension Interface Model]](新規) — ソフトウェア拡張の相互接続性と安全性をリソース/ケイパビリティで細粒度に指定するモデル。開発時仕様とデプロイ時仕様の 2 段階構成。(operating-systems / ebpf / security) - [[eBPF]]・[[BPF]]・[[uprobe]](更新) — ユーザ空間 eBPF ランタイム bpftime によるアプリケーション拡張への適用、uprobe のカーネル/ユーザ空間実行のオーバーヘッド差を横断的知見に追記。 ### 2026-07-04 The GPU Observability Gap ingest - [[eGPU]](新規) — eBPF プログラムを GPU カーネル内部で実行させる技術・パラダイム。bpftime による PTX/SPIR-V 注入で稼働中カーネルに計装を埋め込む。(ebpf / gpu / observability) - [[PTX 注入]](新規) — NVIDIA GPU の中間アセンブリ表現 PTX への動的計装コード挿入。eGPU の実装基盤。(gpu / instrumentation) - [[GPU観測性]]・[[eBPF]]・[[bpftime]](更新) — 既存 GPU ツールの 3 類型整理と、eBPF on GPU の位置づけを横断的知見に追記。 ### 2026-07-04 CUDA Events - eBPF-based CUDA API Tracing ingest - [[CUDA API トレース]](新規) — `libcudart.so` への uprobe/uretprobe で CUDA API 呼び出しを非侵襲に可視化する手法。ホスト側入口の可視化として、GPU 内部計装(eGPU/bpftime)と補完する。(ebpf / cuda / gpu-observability) - [[CUDA]](新規) — NVIDIA の GPU 汎用並列コンピューティングプラットフォーム・プログラミングモデル。(gpu / parallel-computing) - [[uprobe]](新規) — ユーザ空間関数の入口/出口に eBPF プログラムを動的アタッチする仕組み。(ebpf / tracing) - [[eBPF]]・[[GPU観測性]]・[[動的計装]](更新) — CPU 側 CUDA API トレースの実装例と、ホスト側/デバイス内計装の 2 層構造を横断的知見に追記。 - [[デジタル発酵]](新規) — 人間の記号、身体経験、記憶、作品、制度、儀礼、データセットが、モデル・共同体・プラットフォーム・エネルギーシステムの中で変質する過程。(ai-ethics / media-art) - [[デジタル蒸留]](新規) — 発酵した記号環境から意味、様式、信頼、著作性、判断を抽出し、保存・流通・責任化する過程。(ai-ethics / knowledge-management) - [[Homo Convivium]](新規) — 生成AI以後に、共に味わい、共に評価し、共に世界を構成する存在として人間を捉え直す概念。(posthuman / ai-ethics) - [[アクセシビリティ]](新規) — 計算環境が多様な身体に住まれ、変形され、拒否され、統治されうるかを問う存在論的試金石。(hci / accessibility) - [[計算機自然]]・[[マタギドライヴ]]・[[批判的デジタルネイチャー]](更新) — 生成AI以後の発酵する共在、AIの森のリテラシー、アクセシビリティとエネルギー責任を横断的知見に追記。 ### 2026-07-04 計算機自然からマタギドライヴへ ingest - [[計算機自然]](新規) — 計算的プロセスと物質的プロセスが相互に変換され、自然/人工の二項対立が再編される存在論的構想。(philosophy-of-technology / media-art) - [[マタギドライヴ]](新規) — 計算機自然の中心化・最適化・加速から距離を置き、辺縁で計算不能なものとともに生きる脱人間知性的文明論。(posthuman / technology-philosophy) - [[批判的デジタルネイチャー]](新規) — 環境負荷、計算インフラの権力構造、身体・ジェンダーの政治性を計算機自然の構成要素として組み込む再構成。(ai-ethics / technology-ethics) - [[主体なき美の美学]](新規) — 計算機の偶発的出力やグリッチに現れる美を、作者の意図や鑑賞主体の内面に還元しない美学的枠組み。(aesthetics / media-art) - [[ヌルのテトラレンマ]](新規) — null と空をめぐる四句分別を、人間/非人間・自然/人工・計算/非計算の二項対立を超える論理として扱う枠組み。(buddhist-philosophy / media-art) ### 2026-07-02 PLaMo 2 Technical Report ingest - [[ハイブリッドアテンションアーキテクチャ]](更新) — PLaMo 2 が Samba ベース構成から CPT でフルアテンション相当に移行した事例を、訓練段階ごとの効率/長距離検索切替として追記。(llm / architecture) - [[スライディングウィンドウアテンション]](更新) — PLaMo 2 の Phonebook / Passkey Retrieval で 2,048 トークン窓が長距離検索の障壁になった知見を追記。(llm / attention) - [[状態空間モデル]](更新) — SSM が任意位置の高解像度検索を苦手とする PLaMo 2 / Falcon3-Mamba 評価を追記。(sequence-modeling / llm) - [[モデル圧縮]](更新) — PLaMo 2 の 31B→8B 構造化枝刈り・知識蒸留を、モデルファミリー作成の訓練計画として追記。(llm / efficiency) - [[LLM推論]](更新) — vLLM 実装で Mamba state と KV キャッシュを同時に管理する必要があることを追記。(llm / inference) ### 2026-07-02 XProf (MLSys 2026) ingest - [[MLプロファイリング]](新規) — 現代 ML スタックの性能計測・可視化の手法・ツール群。スケーラビリティ・発見可能性・説明可能性・適応性・忠実度の 5 課題を定義。TraceMe の超低オーバーヘッド設計・Roofline 分析・多段可視化を核心とする。(ml-systems / observability / performance) - [[Rooflineモデル]](新規) — ハードウェアの演算上限と帯域幅上限を「屋根線」で表現し、compute-bound か memory-bound かを判定する性能分析フレームワーク。XProf の高レベルアクセラレーター分析ツールとして採用。(ml-systems / computer-architecture / performance) ### 2026-07-02 The Case for Learned Index Structures ingest - [[Learned Index]](新規) — 索引を学習モデル + 補助構造として再定式化する設計アプローチ。範囲索引を CDF 近似、ハッシュ索引を CDF スケーリング、Bloom filter を分類器 + 漏れ受け用 filter として扱う。(database / machine-learning / learned-data-structures) - [[B-Tree]](更新) — B-Tree を CDF を近似する回帰木として再解釈し、学習索引のフォールバック/ハイブリッド構造として位置づける横断的知見を追記。(database systems / storage engines) #### Modernizing Incident Response with LLMs, RAG, and the MCP (SREcon25 EMEA, 2025) (2026-07-01) - [[agentic SRE]](更新) — 評価駆動開発のフライホイールとマルチモーダル(画像)入力による human-agent 共通推論の横断的知見を追記。(concept / sre / aiops) - [[RAGベースクラウド運用支援]](更新) — セクション単位チャンク分割の有効性、組織固有語彙の埋め込み注釈による吸収の横断的知見を追記。(concept / aiops / rag) ### 2026-07-01 The Un-Incident (SREcon25 EMEA, Andreas Deuschl, Dynatrace) ingest - [[アンインシデント]](新規) — 正式宣言されない潜在インシデントの 4 類型(No-CI / NOF / Near Miss / Fear Miss)と Gray Zone Playbook(マインドセット→カルチャー→ストラクチャー→プロセス→事実ベース意思決定)。「インシデントか否か」ではなく「何を学べるか」への問いの転換。(sre / incident-management) - [[インシデント管理]](更新) — Un-Incident がライフサイクルの「入口の手前」にある盲点を構造化するという横断的知見を追記。(sre / incident-management / aiops) ### 2026-07-01 Incident Groundhog Day (SREcon24 EMEA, Hamed Silatani, Uptime Labs) ingest - [[インシデントシミュレーション]](新規) — ステージドワールド(staged world; Woods & Hollnagel 2006)の4特性・設計要件(技術的忠実度/社会的環境/シナリオ)・Allspaw の4活動カテゴリ(Diagnostic/Therapeutic/Recruiting/Status-Reporting)・治療的行動が即座に診断情報に変わる特性を収録。(sre / incident-management / resilience-engineering / human-factors) - [[インシデント重大度評価]](更新) — Silatani の staged world 実験から「severity 分類議論に費やした時間が解決時間を短くする」実証的証拠を横断的知見として追記。(sre / incident-management) - [[Incident Commander]](更新) — 「Solo Artist（個人突破型）vs Band Member（チーム活用型）」の行動パターン差を実験的証拠として横断的知見に追記。(sre / incident-management / ics) ### 2026-07-01 Incident Management Metrics that Matter (SREcon25 Americas, Jamie Luck / Laura de Vesine) ingest - [[インシデントメトリクス]](新規) — MTTR・インシデント件数が統計的に不堅牢かつ逆インセンティブを生む理由と、8次元の目標ベース代替指標群の定義。[[グッドハートの法則]]・[[サービスレベル目標]]・[[DORA]] との関係を整理。(sre / incident-management / metrics) - [[インシデント管理]](更新) — 「MTTR はインシデント管理プロセスの測定として不適切」という横断的知見を追記。KPI として使うことへの批判的文脈を付与。 ### 2026-07-01 Embracing the Multi-Party Dilemma (SREcon23 EMEA, Sarah Butt / Alex Elman) ingest - [[Multi-Party Dilemma]](新規) — 相互依存する組織間の境界で生じる課題のパターン。情報・影響・時間的の3非対称性、一過性組織(transient organization)と多中心的統治(polycentric governance)への移行を定義。[[Joint Activity]]・[[Common Grounding]] へ一方向参照。(human-factors / incident-response / resilience-engineering) ### 2026-07-01 An Organizational Response to Incidents (SREcon23 Americas, Laura Maguire, Jeli) ingest - [[Followship]](新規) — 「経験豊富な対応者たちが共通の目的に向けて協働する適応的コレオグラフィ」の定義、Attention の非対称性・調整のパラドックス(DELEGATE/DELAY/DIMINISH/DROP)・見える8つの行動・Reconfiguring・Observe/Talk/Analyze フレームワーク・アンチパターン(Shame/Blame/Retrain, MTTI)を収録。(sre / incident-response / resilience-engineering / human-factors) - [[Incident Commander]](更新) — Maguire が IC 個人への組織的関心の集中を問い直し、フォロワー側の働きを可視化する補完的視点として Followship を提示したことを横断的知見として追記。(sre / incident-management / ics) - [[Joint Activity]](更新) — Followship の定義が文字通り「adaptive choreography」を用いており、Davis(SREcon23)が引用した Adaptive Choreography/Response Trio と同一の理論的支柱であることを確認。ただし Maguire 本人の射程はより広いことを追記。(human-factors / incident-response) - [[Common Grounding]](更新) — Maguire による "mutual knowledge, beliefs, and/or assumptions" の直接定義(p.66)と4象限モデル(team/others/technical system/organization)、および VEng2/Eng2(ic) チャットログによる Common Ground 崩壊事例を追記。(human-factors / incident-response) ### 2026-07-01 Handover Communications in Software Operations (SREcon23 Americas, Chad Todd, CrowdStrike) ingest - [[Handover Communications]](新規) — 引き継ぎコミュニケーションの定義(The Joint Commission, 2017)、Confidence を内包する分析枠組み、CrowdStrike 社内2部門への半構造化インタビューから抽出した6テーマ。(human-factors / sre / incident-response) - [[Joint Activity]](更新) — Todd が Klein et al.(2005)を Joint Activity 自体の出典として明示。Davis(SREcon23)の3特性との突き合わせと、未解決の問いの一部解消を追記。(human-factors / incident-response) - [[Common Grounding]](更新) — Todd の Common Ground 崩壊の非対称性の記述と、Davis の即時崩壊シナリオとの相補性を横断的知見として追記。(human-factors / incident-response) - [[レジリエンスエンジニアリング]](更新) — Todd が引用する Adaptive Capacity の原著定義(Woods, 2019; p.53)と、Davis の「即興==Adaptive Capacity」論との整合を横断的知見として追記。(sre / resilience-engineering / human-factors) ### 2026-07-01 Dashboards and Runbooks: Scrapbooking for Engineers (SREcon22 APAC, Colin Douch, Cloudflare) ingest - [[ダッシュボードとランブックの運用]](新規) — ダッシュボード汎用化/特化の二極化・ランブック3クラス(自動化可能/自由記述/無価値)・良いランブックの本質的一時性・composability/SLO/discoverability への移行提案。横断的知見2件・未解決の問い3件。(sre / dashboard / runbook / observability) ### 2026-07-01 Evolution of Incident Management at Slack (SREcon21, Brent Chapman, Slack) ingest - [[インシデント管理]](更新) — Slack の Response/Review/Analysis 3部構成を、本 wiki の検知→トリアージ→診断→緩和ライフサイクルと対比する横断的知見を追記。(aiops / incident-management / sre) - [[Incident Commander]](更新) — Chapman の Area Command・Major IC follow-the-sun・IC訓練率実績・Incident Review no-give-backs ハンドオフを ICS 実践の系譜として横断的知見4件を追記。(sre / incident-management / ics) ### 2026-07-01 The Math behind the Incident Aftermath (SREcon22 APAC, Ashish Patel / Sriram Srinivasan, PayPal) ingest - [[インシデント影響測定]](新規) — FCI(Failed Customer Interactions)によるインシデント顧客影響の定量測定手法。ベースライン予測との乖離算出・Availability 変換・5軸セグメンテーションを収録。(sre / incident-management) ### 2026-07-01 You Can't Stop Fires with an Ambulance (SREcon18 Asia, Piers Chamberlain, Xero) ingest - [[アラート管理]](更新) — [[Klaxon]] の「顧客観測ベースの安全網アラート」という独立検知シグナル、および Rob Ewaschuk "philosophy on alerting" 論文への言及を症状ベースアラーティング系譜の実例として追記。(aiops / alert-management) - [[クロスインシデント分析]](更新) — Chamberlain の専任チームなし・非構造化・単独手動集計という原始的実践を、Granda の3要素(専任チーム・構造化アーティファクト・組織計画連動)との対比として追記。(sre / incident-management / postmortem) ### 2026-07-01 Fixing On-Call When Nobody Thinks It's (Too) Broken (SREcon19 Americas, Tony Lykke, HRT) ingest - [[アラート疲労]](更新) — Lykke SREcon19 Americas を追加。最小限の技術変更+コミュニケーション過剰投資+git shortlogによる定量的バイイン可視化という統合事例、および「アラート削減が沈黙への不安を招く」という副作用の横断的知見2件・未解決の問い2件を追記。(sre / alert-management / on-call) ### 2026-06-30 Xpert ICSE 2024 ingest - [[DSLクエリ推薦]](新規) — インシデント管理での KQL クエリ自動推薦。Xpert の実証知見(少数集中・非移転性・時変性)・LLM ICL 優位性・Xcore 設計・未解決の問い 5 件。(aiops / incident-management / llm / query) - [[インシデント管理]](更新) — DSL クエリ推薦が調査フェーズの新介入点として機能するという横断的知見を追記。 - [[LLMによる根本原因分析]](更新) — RCA でなくクエリ生成に LLM を使う Xpert を関連ソースとして追記。 ### 2026-07-01 nrrd 911 ic me (SREcon16, Alice Goldfuss, New Relic) ingest - [[Incident Commander]](更新) — ICS 起源（1968年フェニックス森林火災・2004年NIMS）・Sev1 拡張役割（EC/LL）・重大度5段階表・全員訓練方針・横断的知見3件（trained volunteer→deliberate team の10年進化・ROI 証拠・chatbot tooling の連続性）を追記。(sre / incident-management) ### 2026-07-01 Software Engineering (Boehm 1976) ingest - [[ソフトウェアライフサイクル]](新規) — 要件→設計→コード→テスト→保守の段階的プロセス定義と、フェーズ間の欠陥修正コスト比(要件0.1〜運用100)の原則。(software-engineering / classic) - [[ソフトウェア要件工学]](新規) — 「何を作るか」の完全・一貫・明確な仕様化の規律。ISDOS/SREP 等の機械解析可能要件仕様システム。要件/設計ジレンマ。(software-engineering) - [[ソフトウェア保守]](新規) — 修正・適応・完全化保守の三分類。ライフサイクルコストの約70%を占める規模と、軽視される構造的背景。(software-engineering / classic) ### 2026-06-30 FaultProfIT ICSE-SEIP 2024 ingest - [[障害パターンプロファイリング]](新規) — ポストモーテムにおいて各インシデントを事前定義タクソノミの葉ノードに分類する作業の定義・自動化アプローチ（FaultProfIT の性能比較表含む）・横断的知見 1 件・未解決の問い 3 件。(aiops / incident-management / postmortem) - [[ポストモーテム]](更新) — 障害パターン自動プロファイリングが深刻度バイアスを補完して分析対象範囲を拡大するという横断的知見、および汎化問題の未解決の問いを追記。 - [[障害傾向分析]](更新) — 自動分類が GQM サイクルの Organize フェーズを加速するという横断的知見、および自動化定着後の GQM 変化を問う未解決の問いを追記。 ### 2026-06-30 Fail through the Cracks EuroSys 2023 ingest - [[クロスシステムインタラクション障害]](新規) — CSI 障害の定義・3プレーン分類・根本原因パターン・横断的知見5件・未解決の問い5件。クラウドインシデントの20%の根本原因として位置づけ。(distributed / reliability / aiops) - [[分散システム障害]](更新) — CSI 障害が従来のコントロールプレーン中心から現代のデータ・管理プレーンへの構造的移行を反映するという横断的知見を追記。 - [[クラウドインシデント]](更新) — 本番インシデントの20%がCSI 障害起因であるという量的知見を横断的知見に追記。 ### 2026-06-30 Metastable Failures HotOS 2021 ingest - [[メタ安定障害]](更新) — 3 状態モデルの公式定義・4 事例からの横断的知見 4 件(逆説・隠れキャパシティ乖離・マルチレイヤー診断困難・グレイ障害との関係)・未解決の問い 3 件を追記。sources に HotOS 2021 原典を追加。(distributed-systems / reliability) ### 2026-06-30 Gray Failure HotOS 2017 ingest - [[差分可観測性]](新規) — Huang+ 2017 が定式化したグレイ障害の核心的特性。Observer がシステムを健全と判断する一方で App が不健全と観測する非対称性。Pingmesh・GrayScope との接続も収録。(reliability / monitoring / cloud) - [[グレイ障害]](更新) — 公式定義セクション(Observer/App モデル・Table 1 の4象限)・横断的知見2件(冗長性の逆説・差分可観測性ギャップ)・未解決の問い2件を追記。sources に HotOS 2017・GrayScope を追加。 ### 2026-06-30 mTCP NSDI 2014 ingest - [[ユーザーレベルTCPスタック]](新規) — TCPスタックをカーネルからユーザープロセスに移動させるアーキテクチャ。パケットI/Oとソケットイベントの双方向バッチ処理でコンテキストスイッチオーバーヘッドを分散させる。mTCP・AccelTCPを収録。(networking / systems / kernel-bypass) ### 2026-06-30 ISPASS 2015 — VM vs Linux Containers ingest - [[コンテナ仮想化]](新規) — Linux namespace + cgroup による OS レベル仮想化。Docker と KVM の性能差の機構(NUMA トポロジ隠蔽・QEMU I/O パス・NAT オーバーヘッド)と横断知見を収録。(systems / virtualization / cloud) ### 2026-06-30 Scaling Memcache at Facebook (NSDI 2013) ingest - [[分散キャッシュ]](新規) — memcached を基盤とした大規模分散キャッシュシステムの設計・パターン。ルックアサイドキャッシュ・リースメカニズム・Gutter プール等を収録。(distributed / caching) - [[一貫性ハッシュ法]](更新) — memcache でのキー配布・ホットキーにはレプリケーションで対応という知見を追記。 - [[Incast]](更新) — memcache のスライディングウィンドウによるアプリ層 incast 緩和を横断的知見に追記。 - [[結果整合性]](更新) — キャッシュ層のベストエフォート結果整合性(mcsqueal・remote marker)を横断的知見に追記。 ### 2026-06-30 Live Upgrading Thousands of Servers (LISA 2013) ingest - [[ファイルレベル同期]](新規) — パッケージマネージャーを迂回してマスターイメージをフリート全体に同期するフリート管理手法。べき等性・均一性・差分レビュー可能性が特性。(sre / infrastructure) - [[ライブアップグレード]](新規) — 稼働中サーバーを停止せず OS 等を段階的に移行する手法。フラグデー回避・細粒度変更・バイナリ互換性確保が核心。(sre / infrastructure) ### 2026-06-30 Towards end-to-end automation of AI research (Nature 2026) ingest - [[AI研究自動化]](新規) — 科学研究ライフサイクル全体をAIが自律実行する概念。The AI Scientist(Sakana AI, Nature 2026)が機械学習分野で初実証。モデル世代・計算量でスケーリングする。(ai-research-automation / llm / scientific-discovery) - [[エージェント型科学探索]](新規) — コードテンプレートや事前定義ワークフローに縛られない、並列化エージェントツリー探索によるオープンエンド科学探索。The AI Scientist テンプレート自由版の中核機構。(agentic-ai / open-endedness / tree-search) - [[自動査読]](新規) — LLMエージェントが査読ガイドラインに従い5-runアンサンブル+メタレビューで論文を自動評価するシステム。Automated Reviewer は均衡精度69%で人間(66%)と同等。(peer-review / llm / scientific-evaluation) ### 2026-06-30 An AI system to help scientists write expert-level empirical software (Nature 2026) ingest - [[LLMドリブンコード探索]](新規) — LLM を突然変異演算子として PUCT 木探索でコードを反復改善し品質スコアを最大化する技法の総称。ERA が代表実装。Best-of-N=1000 を複数 LLM で一貫して上回る。(llm / code-generation / tree-search / ai4science) - [[スコアリング可能タスク]](新規) — コード実行だけで品質スコアが自動返却されるタスクの抽象化。ERA がこの枠組みで科学的ソフトウェア開発を定式化し、LLM+木探索による自動探索を可能にした。(ai4science / code-generation / automl) - [[コードLLM]](更新) — ERA の実験（Table 1）から「同一推論コストでシングルショット生成（BoN）より木探索が有効」という横断的知見を追記。 ### 2026-06-30 Is the S in SRE for "Security"? (SREcon25 Americas) ingest - [[Safety-II]](新規) — Erik Hollnagel が提唱した安全科学の枠組み。悪い結果の非発生でなく成功の増加を目指す。SRE・セキュリティの「パフォーマンス向上」戦略の理論的基盤。(safety / security / sre) - [[Security Level Objectives]](新規) — SLO をセキュリティ指標（脆弱性数・開放ポート数・MFA カバレッジ等）に転用してリソース配分を意思決定する概念。Benninghoff が提案。(security / slo / sre) ### 2026-06-30 9 Things You Should Do When Starting to Use SLOs (SREcon23 EMEA) ingest - [[SLODLC]](新規) — SLO Development Lifecycle。INITIATE→DISCOVER→DESIGN→IMPLEMENT→OPERATE の 5 フェーズで SLO 導入を継続的プロセスとして構造化するオープンフレームワーク。Sal Furino が SREcon23 EMEA で紹介。(sre / slo) - [[サービスレベル目標]](更新) — 「成功定義 > エラー定義」の SLI 設計原則とステークホルダー別時間窓（Furino SREcon23 EMEA）を追記。 - [[SLI-SLO段階的導入]](更新) — SLODLC との対応関係と WWWWHW 文書化 6 要素（Furino SREcon23 EMEA）を追記。 ### 2026-06-30 Principled Performance Analytics (SREcon22 Americas) ingest - [[2σ手法]](新規) — ワークロードをコホート分割し正規分布 z スコアで IID 仮説を検定する、較正不要・コホート間結合可能なパフォーマンス分析手法。[[定常性モデル]]の数理実装。Desai・Bryan（Google）が SREcon22 で発表。(sre / performance / statistics) - [[定常性モデル]](更新) — 2σ手法が 2021 年提唱の定常性モデルの数理実装であるという横断知見・SREcon22 ソース追記。 - [[サービスレベル目標]](更新) — SLO 実現不可能性の根本批判（Desai SREcon22）と [[Brent Bryan]] のエンティティリンクを追記。 ### 2026-06-30 Beyond Goldilocks Reliability (SREcon21) ingest - [[定常性モデル]](新規) — Goldilocks Reliability の代替として Desai が提唱。可用性・パフォーマンス・正確性の 3 次元に定常性仮定を付与し、仮定からの逸脱を信号とする数理モデル。(sre / reliability-modeling) - [[SREの工学化]](更新) — 定常性モデルが「技芸から工学へ」の移行の具体例であるという横断知見を追記。 ### 2026-06-29 SLOs for Data-Intensive Services (SREcon19 EMEA) ingest - [[データ品質SLO]](新規) — データ集約型サービスの一貫性・新鮮性・完全性・耐久性を SLO 化する概念。外部プローブとゲートウェイ内部比較の2計測パターン。SLO が自動緩和・自動修復を可能にする。(sre / slo / data-quality) - [[サービスレベル目標]](更新) — データ品質 SLO の横断知見（可用性・レイテンシだけでは不十分・SLO が自動化の根拠になる）を追記。 - [[SLI-SLO段階的導入]](更新) — データ集約型サービスでは SLO 次元がステークホルダー関心と合わないと導入が進まないという知見を追記。 ### 2026-06-29 Latency SLOs Done Right (SREcon19 Americas) ingest - [[サービスレベル目標]](更新) — Moyer と Hartmann の両 SREcon19 発表が収束する「パーセンタイル平均化の誤り→3 手法体系」の横断的知見を追記。2017→2019→2022 の系譜確認。 - [[ヒストグラムメトリクス]](更新) — libcircllhist のログリニアビン設計・マージ可能性の条件・TSDB サポート 2019 年時点の状況を横断的知見に追記。 ### 2026-06-29 Memory in the Age of AI Agents ingest - [[エージェントメモリ]](新規) — LLM ベースのエージェントが過去の対話・行動・環境観測を蓄積・取り出す機構の総称。Hu+ (2025) が形態(トークンレベル/パラメトリック/潜在)・機能(事実/経験/作業)・動態(形成/進化/検索)の 3 軸タクソノミを提案。[[コンテキストエンジニアリング]]・RAG・LLM メモリを包含しつつ射程が異なる独立領域。(llm / agent-memory / agents) ### 2026-06-29 How We Foster Reliability in Diversity / SRE NEXT 2022 ingest - [[ダイナミックケイパビリティ]](新規) — 環境変化への組織的耐性フレームワーク。Sensing/Seizing/Transforming の3能力。SRE の5ステップとの対応を Narimichi Takamura が体系化。(sre / organization / strategy) - [[組織の信頼性マインドセット]](新規) — Google SREs 発の5フェーズ分類（Absent/Reactive/Proactive/Strategic/Visionary）。SRE コンテキスト把握の診断ツール。(sre / organization / maturity-model) - [[SRE組織変革]](更新) — 氷山モデル3層・MVV 策定・5ステップの横断的知見を SREcon23 EMEA ソースと並べて追記。 ### 2026-06-29 Extending the Error Budget Model (SREcon19 Americas) ingest - [[脆弱性バジェット]](新規) — エラーバジェットモデルをセキュリティに拡張。SLI=依存パッチリリースからの経過日数・SLO=30 日・ポリシー=閾値接近時にパッチ適用。Equifax 侵害(67 日)で有効性を論証。(sre / security / error-budget) - [[フィーチャーフレッシュネス]](新規) — エラーバジェットモデルをフィーチャー鮮度に拡張(Legacy Budget)。SLI=リリースからの経過日数・SLO=ブリーディングエッジ度の範囲・ポリシー=90 日毎アップグレード。k8s 事例。(sre / error-budget / platform-engineering) - [[エラーバジェット]](更新) — SLI/SLO/ポリシーモデルの汎用性(セキュリティ・フィーチャーフレッシュネスへの拡張)を横断的知見に追記。 ### 2026-06-29 小さくはじめるSLI/SLO / Road to SRE NEXT 2026 神戸 ingest - [[SLI-SLO段階的導入]](新規) — SLI/SLO 導入の 3 つの難点（定義・運用・定着）と、SRE 4 ステップ導入法を援用した段階的フレームワーク。SLO 違反ポリシー 5 段階拡大・成熟度モデル（3 軸 × 5 段階）を体系化。[[Narimichi Takamura]]（[[Topotal]]）が提案。(sre / slo / maturity-model / organization) - [[サービスレベル目標]](更新) — SLI/SLO 組織導入の段階的アプローチを横断的知見に追記。 - [[エラーバジェット]](更新) — SLO 違反ポリシー 5 段階拡大の観点を横断的知見と未解決の問いに追記。 ### 2026-06-29 インシデント対応成熟度モデル / SRE NEXT 2024 ingest - [[インシデント対応成熟度モデル]](新規) — インシデントレスポンス能力を3フェーズ×9プロセス×4段階（Absent/Reactive/Proactive/Strategic）で評価・改善する枠組み。[[Narimichi Takamura]] が SRE NEXT 2024 で提案。(sre / incident-management / maturity-model) ### 2026-06-29 SRE NEXT 2025 Rethinking Incident Response ingest - [[インシデントレスポンスAIレベル]](新規) — SAE J3016™ の自動運転 L0〜L5 に対応する IR0〜IR5 フレームワーク。2025 年時点で IR0〜IR2 実現済み、MCP + Coding Agent で IR2〜IR3 が現実的。IR3 到達には安全な操作の定義が必要。Topotal Waroom の MCP デモで実証。(sre / incident-response / aiops) - [[インシデント管理]](更新) — SAE IR Levels フレームワーク(IR0〜IR5)を横断的知見に追記。 - [[AIOps]](更新) — SRE 実務視点のベンチマーク比較(OpenRCA 11%、AIOpsLab 検知 86%・局所化 71%・RCA 14%・緩和 43%)を横断的知見に追記。 ### 2026-06-29 AWS Lambda Container Loading / ATC 2023 ingest - [[コンテナ起動高速化]](新規) — コンテナイメージ全体を転送せず必要なデータのみオンデマンドで取得してコールドスタートを短縮する技術群。ファイルシステムレベル(Slacker/Starlight) vs ブロックレベル(Lambda/DADI)の対比を含む。(distributed-systems / serverless) - [[収束暗号化]](新規) — ブロックのハッシュから暗号化キーを決定論的に導出し、キーを共有しない安全な重複排除を可能にする暗号化スキーム。Farsite 起源・Lambda で塩による爆発半径制御を追加。(cryptography / distributed-systems) - [[イレイジャーコーディング]](新規) — k-of-(k+m) 符号でデータを分散し、テールレイテンシ削減とヒット率耐障害性を両立する技法。Lambda の L2 キャッシュが 4-of-5 コードを採用し 25% オーバーヘッドで大幅なテール削減を実現。(distributed-systems / storage) - [[メタ安定障害]](新規) — トリガー後に自己強化ループで高負荷状態から回復できなくなる分散システムの障害パターン。Lambda の高ヒット率キャッシュ空時 500x 負荷倍増リスクと対策(並行処理数制限・定常作業原則)を含む。(distributed-systems / reliability / sre) ### 2026-06-29 Raft / ATC 2014 ingest - [[分散コンセンサス]](新規) — 非ビザンティン障害下で複数サーバーが同一値に合意する問題とアルゴリズム総称。Raft vs Paxos vs VR 比較・Aurora コンセンサス回避との対比を含む。(distributed / consensus) - [[複製ステートマシン]](新規) — 同一コマンド列を全サーバーで実行することで一貫性を保つ分散フォールトトレランス手法。Raft の管理対象となる複製ログモデル。(distributed / fault-tolerance) - [[リーダー選出]](新規) — 分散システムでリーダーを選ぶプロセス。Raft のランダム化タイムアウト・投票制限・MemoryDB のログベース選出との比較。(distributed / consensus) - [[分散コンセンサス回避]](更新) — Raft のジョイントコンセンサスとの対比を横断的知見に追記。 ### 2026-06-28 CockroachDB ingest (SIGMOD 2020) - [[地理分散SQLデータベース]](新規) — 複数リージョンにまたがりながら SQL + ACID トランザクションを維持するシステム。Spanner vs CockroachDB の一貫性・クロック・配置ポリシー比較。(database / distributed / sql / geo-distributed) - [[ハイブリッド論理クロック]](新規) — 物理時刻 + Lamport 論理時刻の組み合わせで因果関係と単調増加を保証する分散クロック方式。TrueTime との詳細比較。(distributed / clock / consistency) - [[分散トランザクション]](更新) — CockroachDB の Read Refresh・Parallel Commits・commit wait 回避アプローチを横断的知見に追記。未解決問いを更新。 - [[外部一貫性]](更新) — 外部一貫性 vs 単一キー線形化可能性の具体的比較・クロックスキュー超過時の動作の違いを横断的知見に追記。 ### 2026-06-28 F1 ingest (VLDB 2013) - [[分散SQLデータベース]](新規) — スケール・可用性・強一貫性・フル SQL を同時に満たす分散 DB の設計原則。F1 と Spanner の 2 ソースを横断比較。(database / distributed / sql) - [[分散トランザクション]](更新) — 楽観的 vs 悲観的の条件分岐・グローバルインデックス一貫性コストを横断的知見に追記。F1 実装セクション追加。 ### 2026-06-28 Amazon MemoryDB ingest (SIGMOD 2024) - [[インメモリデータベース]](新規) — DRAM をプライマリストレージとするデータベースシステム。耐久性のトレードオフとその解決アプローチ(ローカルログ・分散ログ分離・アンチキャッシング)を整理。(database / distributed-systems / cloud) - [[ストレージ計算分離]](新規) — 計算と耐久性/ストレージを独立コンポーネントに分解するアーキテクチャパターン。Aurora・MemoryDB・PolarDB の横断比較。(database / distributed-systems / cloud) ### 2026-06-28 Amazon Aurora ingest (SIGMOD 2018) - [[分散コンセンサス回避]](新規) — 2PC/Paxos を使わずに書き込みコミット・クォーラム読み込み・メンバーシップ変更を達成する設計アプローチ。Aurora の SCL/PGCL/VCL 階層・クォーラムセット・エポックを核として整理。(distributed / database / consensus) - [[クォーラムベースレプリケーション]](更新) — クォーラムセット + エポックによる非ブロッキックメンバーシップ変更・フル/テールセグメント非対称設計を横断的知見に追記。 - [[クラッシュリカバリ]](更新) — エポックベースフェンシング（ゾンビインスタンス解消）・Undo 並行実行を横断的知見に追記。 - [[Write-Ahead Logging (WAL)]](更新) — SCL/PGCL/VCL/VDL 分散 LSN 一貫性ポイント階層・VDL による MTR 原子性保証をレプリカ一貫性に接続した横断的知見を追記。 ### 2026-06-28 Amazon Aurora ingest (SIGMOD 2017) - [[クォーラムベースレプリケーション]](新規) — 分散データシステムで読み書き操作にクォーラム承認を要求する手法。Aurora の V=6 Vw=4 Vr=3 AZ+1 設計を含む。(distributed / database / replication) - [[コンピュートストレージ分離]](新規) — OLTP DB においてクエリ/トランザクション処理とログ/ストレージ/リカバリを独立サービスに切り出すアーキテクチャパターン。Aurora の「ログがデータベース」設計を主軸に分析。(distributed / database / architecture) - [[OLTPシステムアーキテクチャ]](更新) — クラウドネイティブ OLTP でのネットワークボトルネック問題と Aurora の対処を横断的知見に追記。 - [[Write-Ahead Logging (WAL)]](更新) — Aurora の「ログがデータベース」設計（ストレージ層へのログ適用移譲）を横断的知見に追記。 - [[クラッシュリカバリ]](更新) — Aurora の継続的 Redo 適用・10 秒以内リカバリを横断的知見に追記。 - [[分散ストレージ]](更新) — OLTP 専用ストレージのログ処理責任モデルを横断的知見に追記。 ### 2026-06-28 Unlock High-Frequency Deployments ingest (SREcon26 Americas) - [[Prometheusシリーズチャーン]](新規) — Kubernetes ロールアウト等で短期間に大量の時系列識別子が入れ替わり、失活系列が Prometheus HEAD に蓄積して OOM を引き起こす問題。stale-series compaction による解決策と閾値選択指針を含む。(sre / prometheus / observability) - [[Prometheus TSDB]](新規) — Prometheus 内蔵の時系列ストレージエンジン。HEAD(RAM) + WAL + Block の 2 層構造。シリーズチャーン問題の根源的なアーキテクチャを定義。(prometheus / storage) ### 2026-06-28 Reliability Equilibrium ingest (SREcon26 Americas) - [[ゲーム理論とSRE]](新規) — 囚人のジレンマ・Stag Hunt・公共財ゲーム・ベイジアンゲーム・進化的ゲームを用いて SRE の社会技術的失敗パターンを診断し、メカニズムデザインで解決するフレームワーク。「SRE の障害の多くは調整の失敗」「ナッシュ均衡は安定であって良いとは限らない」。(sre / game-theory / mechanism-design) ### 2026-06-28 Executing Chaos Engineering ingest (SREcon26 Americas) - [[カオスエンジニアリング]](新規) — 本番システムの逆境耐性を検証・強化する規律。Steady State 定義→仮説→障害注入→分析→改善のサイクル。金融規制環境での段階的導入フレームワーク（手動→自動化→GameDay）と実測成果（MTTD 73% 削減）を含む。(sre / chaos-engineering / resilience) - [[GameDay]](新規) — 事前通知なしにリアル障害をシミュレートしてチームの対応準備態勢を検証する演習形式。+300 人規模の Bradesco 事例・Dynatrace を RCA 宝の地図として使う実施形式・54% 発見率を含む。(sre / incident-response / chaos-engineering) ### 2026-06-28 Learning from Incidents at Scale ingest (SREcon25 Americas) - [[クロスインシデント分析]](新規) — 個別インシデント学習の次の段階として複数インシデントを横断し組織的パターン・インサイトを発見する継続的プログラム。専任チーム・定量＋定性アーティファクト・組織計画連動の3要素。アクションアイテムと推奨事項の分離。(sre / incident-management / postmortem) - [[ポストモーテム]](更新) — 部門横断招待が学習コミュニティを形成するという Granda の観察・アクションアイテムファクトリー anti-pattern とその対策を横断的知見に追記。 ### 2026-06-28 So You Want a New Incident Commander ingest (SREcon26 Americas) - [[Incident Commander]](新規) — IC は最強エンジニアのバッジでなく社会技術的リーダーシップスキル。People/System/Business の3軸で条件を整える役割。3コアコンピテンシー・3チーム類型・アンチパターンを含む。(sre / incident-management) - [[インシデント管理]](更新) — IC の役割定義・3チーム類型（Deliberate/Domain/Volunteer）の横断的知見を追記。SRE Book の ICS 定義との収束を記録。 ### 2026-06-28 The Case of the Misnamed Cities ingest (SREcon26 Americas) - [[CAST]](新規) — Causal Analysis based on Systems Theory。Nancy G. Leveson 考案。制御構造・メンタルモデル・文脈要因・システム的要因を析出し、RCA が落とす遠位・組織的要因を特定する。(sre / safety-engineering / postmortem) - [[事故モデル]](更新) — CAST の「イベント選択の主観性問題」批判と制御構造アプローチを横断的知見に追記。 - [[根本原因分析]](更新) — Google での CAST 産業適用実績を横断的知見に追記。CAST → [[CAST]] へのリンク追加。 ### 2026-06-28 Human Observability of Incident Response ingest (SREcon23 Americas) - [[Joint Activity]](新規) — 複数参加者が共通目標に向け意図的に協力する活動の総称。Adaptive Choreography の3特性（Interpredictability・Directability・Common Ground）を含む。インシデント対応の本質的構造として Davis が提示。(human-factors / incident-response) - [[Common Grounding]](新規) — 相互理解とメンタルモデルをコミュニケーション・テスト・更新・調整・修復によって維持する継続的プロセス（Klein, Feltovich, Bradshaw, Woods 2005）。修復作業と並行して常に進行する。(human-factors / incident-response) - [[Practice of Practice]](新規) — Matt Davis が考案した SRE 向け反復訓練フレームワーク。「インシデントでなく共に働くことを練習する」原則。Wheel of Expertise・Decision Requirements Tables・Multiverse Mirror・Oblique Alert Strategy・RPG Your Severity・Chaos Gameday を含む。(sre / training / human-factors) - [[人的要因]](更新) — 「人間のオブザーバビリティ」という独立した観測次元（Davis）・「即興能力は練習の外に存在しない」という訓練設計への接続を横断的知見に追記。 - [[レジリエンスエンジニアリング]](更新) — 「即興 == 適応的キャパシティ」等式・Roud(2021)の集合的即興論をレジリエンスエンジニアリングの実践論として横断的知見に追記。 - [[インシデント管理]](更新) — 技術的オブザーバビリティと人間のオブザーバビリティの並存・Response Trio と SRE Book Incident Command System の相補関係を横断的知見に追記。 ### 2026-06-28 Incident Archeology ingest (SREcon23 Americas) - [[インシデント考古学]](新規) — 過去インシデント記録を仮説駆動で横断分析する実践手法。Clint Byrum(Spotify、SREcon23 Americas)が提唱。修復・再発防止でなく学習に主眼を置き、8 ステップと 4 指針で定義。(sre / postmortem / incident-management) - [[ポストモーテム]](更新) — Spotify の完了率実測値（55%→62%）・生産性影響度バイアス・インシデント考古学という第三の活用法を横断的知見に追記。 ### 2026-06-28 The Repeat Incident Fallacy ingest (SREcon22 EMEA) - [[ポストモーテム]](更新) — 「Repeat Incident Fallacy」として「再発防止誓約」が誤った前提に立つことを Ruppe の主張として追記。「Insights from the Past = Options in the Future」目標転換が Gallego/Lund/Partington との 4 者収束として横断的知見に追加。 - [[レジリエンスエンジニアリング]](更新) — 「カーディオを鍛えよ」比喩によるレジリエンス構築実践・「進化する社会技術システム」概念・Laura Maguire の CI/CD 連続変化命題を横断的知見に追加。 ### 2026-06-28 Ditch the Template ingest (SREcon22 EMEA) - [[インシデントレポート執筆]](新規) — ナラティブ型 IR 執筆の原則。テンプレートを捨て謎→調査→解決の 3 部構成で書く。読者サポート・視覚化・分析・文体の 4 軸。Laura Nolan(SREcon22 EMEA 2022)。(sre / postmortem / incident-management) - [[ポストモーテム]](更新) — テンプレート形式が学習価値を損なうという Nolan の主張・専門知識の継続的損失を IR が補うという位置づけを横断的知見に追記。 ### 2026-06-28 Retrospectives for Humans ingest (SREcon19 APAC) - [[レトロスペクティブファシリテーション]](新規) — ポストモーテム会議でのファシリテーター役割・言語技術・会議運営の実践体系。Miller's Law・Why/You→How/What 変換・contributing factor discovery・ユーモアのリスク・Conway's Law 接続。(sre / postmortem / facilitation / human-factors) - [[ポストモーテム]](更新) — contributing factor discovery（根本原因分析の代替）・ファシリテーター言語が学習の深さを規定するという観点を横断的知見に追記。 - [[人的要因]](更新) — Miller's Law の認識論的基盤・「ヒューマンエラーは行き止まり」の三者収束（Eckhardt / Lund / Gallego）を横断的知見に追記。 ### 2026-06-27 Architecting a Technical Post Mortem ingest (SREcon18) - [[ポストモーテム]](更新) — Gallego の「ブレーム・アウェア」精緻化・定義から修復を除く・根本原因用語の否定・ローカル合理性・修復的正義の 5 観点を横断的知見に追記。(sre / postmortem) - [[根本原因分析]](更新) — SRE 実践文脈での「根本原因は誤った概念」という Gallego の主張と Cook(1998)の社会的構成性を接続した横断的知見を追記。(sre / aiops) ### 2026-06-27 Failures and Fixes ingest - [[インシデント調査戦略]](新規) — インシデント対応中の根本原因特定に用いる方法論。日和見的戦略(典型原因確認/時間相関探索)と体系的戦略(症状連鎖追跡/スタック追跡)の二分類。Sillito & Kutomi 2020 が 30 インシデント定性分析で同定。(sre / incident-response) ### 2026-06-27 OTel-Arrow Phase 2 ingest - [[OTel-Arrow]](新規) — Apache Arrow のカラム型フォーマットをテレメトリ転送・パイプライン処理全体に適用する OTel SIG プロジェクト。Phase 2 DFE で OTLP 比 20× スループット(単一コア)。(observability / opentelemetry) - [[OTAP]](新規) — OpenTelemetry Arrow Protocol。Arrow カラム型フォーマットを用いたワイヤプロトコル。OTel-Arrow Phase 1 の成果。(observability / protocol) ### 2026-06-27 Do Not Blame Users for Misconfigurations (SOSP'13) - [[設定ミス脆弱性]](新規) — 設定エラーへの不良反応の 5 分類。SPEX-INJ が 743 件を検出。(configuration / systems) - [[設定マイニング]](更新) — SPEX ホワイトボックスアプローチの位置づけ・ブラックボックスとの比較・クロスソフトウェア制約ギャップを追記。 ### 2026-06-27 障害箇所特定・根本原因分析 11 論文一括 ingest - [[再帰障害]](新規) — DéjàVu が定義した「同種・別箇所の繰り返し障害」概念。オンラインサービス障害の 74% 以上が該当。(aiops / fault-localization) - [[障害依存グラフ]](新規) — 障害ユニット(コンポーネント × メトリクスグループ)版の依存グラフ。DéjàVu が導入。(aiops / fault-localization) - [[不均衡障害分類]](新規) — 変更後サービスの「正常 vs 障害」+ 「障害種別間」の二重不均衡。SLIM が定式化。(aiops / fault-localization) - [[時系列知識グラフ]](新規) — UniDiag が導入した TKG ベースのマルチモーダル統合手法。(aiops / knowledge-graph) - [[ログベース障害診断]](新規) — LogInsight が実証した LLM + ログ圧縮による障害診断と説明文生成。(aiops / log / llm) - [[クラウドインフラ障害診断]](新規) — BSODiag が対象とするバッチサーバー障害の時空間グラフ RCA。(cloud-infra / rca) - [[サーバーレスRCA]](新規) — FaaSRCA が開拓したサーバーレスアプリケーション向け RCA。(serverless / rca) - [[ワンショットRCA]](新規) — LasRCA が実証したワンショット設定の障害 RCA。(aiops / rca / llm) - [[コード知識強化RCA]](新規) — COCA が実証したソースコード活用型 RCA。(rca / llm / code) - [[Fault Localization]](更新) — DéjàVu の障害ユニット概念・FL-AIer の不均衡対処・SLIM の DNF ルールセットを追記。横断的知見・未解決の問い拡充。(aiops / fault-localization) - [[根本原因分析]](更新) — BSODiag の伝播パス出力・RADICE の因果サブグラフ・COCA のコード知識活用を追記。(aiops / rca) - [[因果発見]](更新) — PCMCI+ のマイクロサービス適用(Causal Discovery)・RADICE の産業実装を追記。(causal) - [[因果推論ベースRCA]](更新) — RADICE・Causal Discovery のドメイン知識制約設計を追記。(causal / rca) - [[LLMによる根本原因分析]](更新) — LasRCA の LLM ラベラー設計・LogInsight の LoRA ファインチューニングを追記。(llm / rca) - [[マルチモーダル障害診断]](更新) — UniDiag の TKG 融合路線を追記。(aiops / multi-modal) - [[グラフベースRCA]](更新) — BSODiag の時空間障害相関を追記。(aiops / rca / graph) - [[サービス依存グラフ]](更新) — FDG との対比を追記。(aiops / graph) - [[マイクロサービスコールグラフ]](更新) — コールグラフとレイテンシグラフの乖離を追記。(microservice / graph) - [[サーバーレスアーキテクチャ]](更新) — FaaSRCA の知見を追記。(serverless) - [[ドメイン別RCA]](更新) — FaaSRCA のサーバーレス RCA を追記。(rca) ### 2026-06-27 RCA・障害箇所特定・集合通信診断 9 論文一括 ingest - [[根本原因分析]](更新) — LLMRCA・MetaRCA・KPIRoot+・eARCO・GALA・Robust RCD の 6 ソースから横断的知見を追記。LLM 統合型 RCA（プロンプト最適化・エージェントワークフロー・強化微調整）の分岐を整理。(aiops / rca) - [[LLMによる根本原因分析]](更新) — LLMRCA・ThinkFL・eARCO・GALA の 4 ソースから LLM 活用パターンの横断的知見を追記。マルチモーダル入力・プロンプト最適化・グラフ拡張・強化微調整の 4 アプローチ対比。(aiops / llm / rca) - [[マルチモーダル障害診断]](更新) — LLMRCA からマルチモーダルオブザーバビリティデータ統合の知見を追記。(aiops / multi-modal) - [[因果推論ベースRCA]](更新) — MetaRCA のメタ因果知識・Robust RCD の分布内介入を横断的知見に追記。(aiops / causal / rca) - [[Fault Localization]](更新) — BiAn（SIGCOMM 2025）の本番ネットワーク LLM ベース FL・ThinkFL の強化微調整を追記。(aiops / fault-localization) - [[異常検知]](更新) — KPIRoot+ の異常検知-RCA 統合フレームワークを追記。(aiops / anomaly-detection) - [[集合通信]](更新) — CCL-D の遅延・ハング異常高精度診断を追記。(hpc / collective-communication) ### 2026-06-27 データベースノブチューニング・自律 DB 3 論文 - [[データベースノブチューニング]](更新) — OtterTune(SIGMOD 2017)・GPTuner(VLDB 2024)・openGauss(VLDB 2021)からの横断的知見 4 件・未解決の問い 3 件を追加。ML→NLP→LLM への発展系譜と外付け/内蔵チューニングの対比が明確化。(concept / database / aiops) ### 2026-06-27 データベース異常診断・RCA 8 論文 - [[Sparkジョブ異常診断]](新規) — クラウド環境の Spark ジョブ実行異常に対する自動検知と根本原因分析。AutoDebugger(AIDB 2025)が定式化。(concept / aiops / spark) - [[グラフベースRCA]](新規) — システムトポロジの依存グラフを活用した根本原因分析。GRANO(VLDB 2019)が eBay NuData で実運用。(concept / rca / graph) - [[宣言的RCA]](新規) — SQL ライクな宣言的言語で因果仮説を列挙しランキングする教師なし RCA パラダイム。ExplainIt!(SIGMOD 2019)が Cisco Tetration で実運用。(concept / rca / causal) - [[データベース性能トラブルシューティング]](新規) — データベースの性能問題を検知・原因分析・解決する End-to-End パイプライン。Vista(Amazon RDS)が大規模展開。(concept / database / aiops) - [[根本原因分析]](更新) — DB 異常診断 8 論文からの横断的知見を追記。 - [[異常検知]](更新) — DB/クラウド領域の新ソース知見を追記。 - [[データベース自律診断]](更新) — RCRank・Vista・BALANCE からの知見を追記。 - [[データベース O&M]](更新) — FSE 2023 産業経験報告からの知見を追記。 - [[マルチモーダル障害診断]](更新) — RCRank のマルチモーダルランキングを追記。 ### 2026-06-27 - [[NLPベースDBチューニング]](新規) — テキスト文書から DBMS チューニングヒントを自動抽出し強化学習で適応する問題設定。DB-BERT(SIGMOD 2022)が初めて形式化。 - [[データベースノブチューニング]](更新) — DB-BERT からの横断的知見(NLP+RL+ランタイムフィードバック三統合・注釈なし学習)と未解決の問い(測定困難メトリクスの抽出・乗数空間の限界)を追加。 ### 2026-06-26 - [[データセンター信頼性]] — 部品、環境、運用、ソフトウェアをまたぐ可用性・耐障害性。 - [[クラウドインシデント]] — 本番時のサービス影響事象と復旧連鎖。 - [[データセンターネットワーク信頼性]] — ネットワーク障害をサービス影響で評価する概念。 - [[分散システム障害]] — 設定、部分障害、非決定的イベント順序による障害。 - [[Kubernetesオペレータ]] — 望ましい状態への調停を自動化する Kubernetes 拡張プログラム。 Navigation: [[index]] | [[entities/_index]] | [[sources/_index]] 複数ソースを横断して抽出した概念ページの一覧。各 concept は定義・関連実体/ソースへのリンク・関連 `structures/*.MOC.md` への一方向参照に加え、**横断的知見**(複数ソースを並べて初めて見える観察)と**未解決の問い**(次に調べるべき問い)の 2 節を持ち、ingest のたびに更新する(規約は [[conventions]] §8)。 --- ### 2026-06-26 SRE NEXT 2023「エンジニアのためのSRE論文への招待」スライド ingest - [[SRE論文]](新規) — SRE に関連する論文を、実務で探索・読解するための発表者独自の呼称。ソフトウェア工学・信頼性工学・システム・ネットワーク・データベース・クラウドに分散する未普及技術論文を、実装・適用のアイデア源として扱う。(sre / research / paper-reading) ### 2026-06-26 SRE NEXT 2022 AIOps研究録スライド ingest - [[AIOps]] / [[因果推論ベースRCA]] / [[時系列クラスタリング]] / [[自動化の皮肉]](更新) — 症状アラートと原因診断の分業、RCA 前処理の境界設計、時系列クラスタリングで因果ノードを落とさない制約、診断 AI 自体の運用という論点を追記。(aiops / rca / time-series / automation) ### 2026-06-26 DEMi 分散実行最小化 (NSDI 2016) 論文 ingest - [[分散実行最小化]](新規) — 分散システムの障害実行から不変条件違反を再現する最小イベント列(MCS)を自動探索する技法。外部イベントにデルタデバッギング + DPOR でスケジュール空間を探索する DEMi が代表実装。デルタデバッギング(逐次入力)→階層型デルタデバッギング(木構造入力)→分散実行最小化(並行プロセス)の系譜。(distributed-systems / debugging / advanced) ### 2026-06-26 ソフトウェア信頼性工学 2 論文 ingest - [[ソフトウェア信頼性工学]](新規) — 指定環境における指定期間の障害なし動作確率を定量的に評価する工学技法の総体。障害ライフサイクル 4 技法（予防・除去・耐性・予測）と SRE プロセス 4 構成要素（信頼性目標・操作プロファイル・信頼性モデリング・信頼性検証）。(software-reliability / advanced) - [[ソフトウェア信頼性成長モデル]](新規) — SRGM。テスト進行にともなう故障率減少・信頼性成長を追跡する統計モデル群。1972 年 Jelinski-Moranda 以来 100 以上のモデルが存在。NHPP・ベイジアン・ニューラルネットの 3 潮流。(software-reliability / advanced) - [[ソフトウェア耐障害性]](更新) — Lyu 2007 のシングルバージョン/マルチバージョン障害耐性技法・N-version programming 信頼性モデルの知見を横断的知見に追記。 - [[Design for Reliability]](更新) — Lyu 2007 の failure-resilient architecture 8 段階設計・コンポーネントベース信頼性の知見を追記。 ### 2026-06-26 SREcon22 APAC 動画 ingest (Reliability Map) - [[Reliability Map (r9y.dev)]](新規) — SRE ケイパビリティをゲームのテック・ツリーに着想を得たマップとして体系化したオープンソースプロジェクト。各ケイパビリティカードは「何・なぜ・取得方法・前提」を持つ。(sre / reliability / capability) - [[SRE]](更新) — ケイパビリティ選択におけるコンテキスト抽出の重要性と Reliability Map の補完的位置づけを横断的知見に追記。 ### 2026-06-26 SREcon23 EMEA スライド ingest（From Sysadmins to Flying Unicorns） - [[SRE組織変革]](新規) — シスアドから SRE チームへの組織文化変革プロセス。TOS・SRE Academy・CFT・SLO・Reliability Meetup の 5 施策。成功要因: Executive Support・IC/Management Pairing・Fail iterate・Communicate。(sre / culture / organization) - [[SRE]](更新) — SIE の SRE 組織変革事例（TOS 割り込み吸収・CFT 設計参加・Reliability Meetup）を横断的知見に追記。 ### 2026-06-26 HDD: Hierarchical Delta Debugging 論文 ingest - [[階層的デルタデバッギング]](新規) — 木構造入力の各レベルを粗いものから順に ddmin にかけるアルゴリズム。文脈自由文法で定義される入力(XML・AST 等)で ddmin より桁違いに少ないテスト回数を達成。(software-engineering / debugging / testing) ### 2026-06-26 データベース/分散システム異常診断 6 論文一括 ingest - [[間欠的遅延クエリ]](新規) — クラウドデータベースにおいてインスタンスレベル・マシンレベルの外部要因で間欠的に発生する遅延クエリ（iSQ）。通常のスロークエリとは異なり原因が外部にあり、診断に多次元テレメトリの横断分析が必要。(aiops / database / performance) - [[クエリレイテンシ予測]](新規) — クエリ実行計画とシステムコンテキスト（HW 構成・負荷状態）からレイテンシを予測する手法群。OSprey の因子分解アーキテクチャがワークロード固有モデルとシステム汎用モデルの分離を確立。(database / ml / performance) - [[ログベース異常検知]](新規) — システムログのパース・テンプレート化・ベクトル化を通じた異常検知手法。MultiLog/LogDB がマルチノードログの統合分析の必要性を実証し、単一ノードログの限界を定量化。(aiops / log-analysis) - [[データベース性能異常ベンチマーク]](新規) — OLTP 性能異常の再現手順とデータセットを体系化したベンチマーク。DBPA が 9 種類の異常を決定論的に再現可能にし、複合異常の生成アルゴリズムを提供。(database / benchmark) - [[Raftログ診断]](新規) — Raft コンセンサスプロトコルのログを分散ストレージシステムの異常診断に活用する手法。RBAD がランタイム収集オーバーヘッドほぼゼロで監視データ・アプリケーションログを上回る精度を達成。(aiops / distributed-storage / consensus) - [[異常検知]](更新) — iSQUAD の TOPIC クラスタリング、MultiLog/LogDB のマルチノードログ統合、RBAD の Raft ログ活用を横断的知見に追記。データベース/分散ストレージ領域の異常検知が監視データ・アプリログ・Raft ログの三軸で発展。 - [[データベース自律診断]](更新) — DBPA ベンチマークと iSQUAD を出典に追加。再現可能なベンチマークがモデル訓練データ不足の解消に直交的に貢献する知見を追記。 - [[分散ストレージ]](更新) — RBAD の Raft ログ活用による異常診断を横断的知見に追記。 ### 2026-06-26 arXiv:2508.08906 Ultra Ethernet 論文 ingest - [[Ultra Ethernet]](新規) — UE 1.0 の設計原則と UET の主要機能。パケットスプレー・コネクションレス・有損失対応・ゼロトラストセキュリティ。(networking / hpc) - [[RDMA]](更新) — UE 1.0 が RoCE 3 大設計欠陥に回答した横断的知見と、UE 設計論文の初の論文開示を追記。 - [[RoCE設計課題]](更新) — UE による各課題の解消状況を横断的知見・未解決の問いに追記。 ### 2026-06-26 SONiC Workshop Japan 2026 スライド ingest - [[RDMA]](更新) — RoCEv2 対 UE Transport/Falcon/MRC の 4 方式 12 軸比較表を横断的知見に追記。SONiC/SAI が UE spec v1.0.2 に基づき LLR・CBFC・LLDP を実装中であり、次世代 Ethernet への移行が実装レベルで具体化。 - [[オープンネットワーキング]](更新) — SONiC の役割が Scale-Out NOS から Scale-Up プロトコルスタック実装へ拡張されつつある横断的知見を追記。 ### 2026-06-26 再帰化への認知的転回 + なめらかなシステムと運用維持の終わらぬ未来スライド ingest - [[再帰化]](新規) — 構造化・自動化されたサービスがユーザインタラクションの結果を取り込んで自己改修するプロセス。「関数の設計から系の設計への認知的転回」。(systems-design / machine-learning) - [[エフェクチュエーション]](新規) — 高い不確実性に対して非予測的コントロールで対処する思考様式。5 つのヒューリスティクス。なめらかなシステムの目的生成的枠組みとして導入。(entrepreneurship / systems-design) - [[なめらかなシステム]](更新) — DICOMO2025 再定義（仮）、4 構成要件、「主体から関係性へ」の転換、再帰化との接続を大幅追記。 - [[基礎情報学]](更新) — DICOMO2025 での HACS 再評価と ICT 他律性の限界の再確認を横断的知見に追記。 - [[セルフクラフト]](更新) — 再帰化との補完関係を関連に追記。 --- ### 2026-06-26 なめらかなシステム (DICOMO2018) 論文 ingest - [[コンテキスト・アウェアネス]](新規) — 1994年提唱のユビキタスコンピューティング由来のシステム観。利用者の状況に応じた自動的サービス提供を定義(Abowd 1999 定義)。(ubiquitous-computing / hci / systems-thinking) - [[基礎情報学]](新規) — 西垣通による学際情報学。HACS(階層的自律コミュニケーション・システム)を提唱。構造的カップリング・コミュニケーション継続によるシステム維持が中核。(systems-theory / systems-thinking) - [[なめらかなシステム]](更新) — 正式定義・要件(1)(2)(3)・理論的背景・横断的知見(2018→2025の発展・開発運用者対称性・シンボル・グラウンディング問題)を大幅拡充。 - [[サイバネティクス]](更新) — 「なめらかなシステムにおける生命体参照の伝統」横断的知見を追記。 --- ### 2026-06-26 arXiv 2401.00134 Unicron 論文 ingest - [[弾性LLM訓練]](新規) — 障害発生時に GPU 数・並列設定を動的変更して訓練を継続させる能力。弾性と訓練効率(Megatron 比)のトレードオフを整理。 - [[耐障害LLM訓練]](更新) — Unicron の「クラスタ全体の複数タスク WAF 最大化」という設計目標と、ByteRobust・FFTrainer の「単一大規模ジョブ ETTR 最大化」との対比を横断的知見に追記。 --- ### 2026-06-26 HotNets 2024 I've Got 99 Problems But FLOPS Ain't One 論文 ingest - [[AIデータセンタートポロジ]](新規) — LLM 訓練特化のデータセンターネットワーク設計概念。スケールアップ/スケールアウト二層構造、マルチプレーン・マルチレール、ワイドエリア分割 DC。スイッチコスト 50%・リンクコスト 66% 削減の定量化。(networking / distributed / llm-training) - [[LLM分散学習]](更新) — 百万 GPU スケールでのスケールアップボトルネック化・MoE の通信要求厳格化・東西 DC 分割の 30 ms 伝播遅延隠蔽条件を横断的知見に追記。 - [[データセンター輻輳制御]](更新) — RoCEv2 シングルパス FCT 9 ms(最適の 9 倍)・マルチパストランスポートへのシフト・業界の UEC 動向を追記。 - [[LLMスケーリング則]](更新) — スケーリング則をインフラ設計の推論ツールとして活用した事例を追記。 --- ### 2026-06-26 ICPADS 2024 Generic and ML Workloads in an HPC Datacenter 論文 ingest - [[HPCワークロード特性化]](新規) — HPC データセンターの運用ログから汎用/ML ジョブの特性を定量比較する取り組み。ML ジョブのエネルギー過消費・冷却設計超過・未完了ジョブへのエネルギー浪費・ジョブ状態相関を横断的知見として整理。(hpc / workload-characterization) - [[GPUクラスタ運用]](更新) — ML/汎用混在 HPC では ML ジョブがエネルギー 39% を消費し冷却容量を超過する知見、未完了ジョブのエネルギー浪費(50%)・GPU-position-aware スケジューリング課題を追記。 --- ### 2026-06-26 ICSE 2023 Quality Issues of DL Platform 論文 ingest - [[DLプラットフォーム品質問題]](新規) — DL プラットフォームで発生するジョブ障害・品質劣化の体系的分類。ハードウェア/プラットフォーム側/ユーザー側の三次元 22 カテゴリ。Job Resubmission と User Code Improvement が緩和の 6 割を担う。 --- ### 2026-06-26 OSDI 2025 TrainCheck 論文 ingest - [[DLトレーニングサイレントエラー]](新規) — 損失・精度異常なしに進行する DL 訓練バグの定義・根本原因分布・検知困難性。Heisenbug の DL 特化形態として位置付け。 - [[訓練不変条件]](新規) — DL 訓練固有の高レベル意味規則の自動推論・前提条件推論・転用可能性。従来の不変条件推論(Daikon 等)との観察粒度の差異を整理。 - [[Heisenbug]](更新) — DLトレーニングサイレントエラーとの横断的知見を追記。 ### 2026-06-24 ClickHouse PVLDB 2024 - [[列指向OLAPデータベース]](新規) — カラム型 OLAP DB の定義・設計原則・ClickHouse を中心とした横断的知見。 - [[LSMツリー]](更新) — MergeTree* のフラット等価パート構造と WAL レス直書き設計を追記。 ### 2026-06-24 SREcon スライド 7 件一括取り込み (anomaly detection / monitoring) - [[異常検知]](更新) — Booking.com の MAD ロバスト性定量化を LinkedIn・Alibaba の事例と横断的に接続。AI/ML なし統計検知が 2024 年でも有効であることを確認。 - [[変化点検知]](更新) — Bloomberg PELT・Netflix ゲーム QoE の変化点検知事例を追記。 - [[ゴールデンシグナル]](新規) — Google SRE Book 発のレイテンシ・トラフィック・エラー・飽和度の 4 シグナルの概念ページ。 - [[時系列類似度検索]](新規) — SAX・DTW・ユークリッド距離による時系列パターンマッチングの概念ページ。 ### 2026-06-23 SREcon18 Americas Automatic Metric Screening - [[Fault Localization]](更新) — Baidu の自動メトリクススクリーニングを、FluxRank 論文化前の「どこを見るか」を縮小する実務向け箇所特定パターンとして追記。 - [[RCA入力選別]](更新) — ゴールデンメトリクスなしに全メトリクスをダイジェスト推薦へ圧縮する、LLM 以前の入力選別として追記。 - [[特徴量削減]](更新) — ゴールデンメトリクス設定負荷の削減という運用上の動機を追記。 ### 2026-06-23 SREcon17 Americas Practical Monitoring and Alerting - [[アラート管理]](更新) — 静的しきい値を、満杯までの時間・人間の修復時間・SLO 違反へ変換する設計を追記。 - [[アクショナブルアラート]](更新) — ページ条件は SLO 違反へ寄せ、診断情報はコンソールに残す分離を追記。 - [[サービスレベル目標]](更新) — Wilkinson 2017 を SLO ベース呼び出しのデータ構造・運用分離の前段として追加。 - [[ヒストグラムメトリクス]](更新) — Prometheus の累積バケット比率によるレイテンシ割合アラートを、レイテンシ SLO 実装の初期例として追記。 ### 2026-06-23 SREcon16 Europe Alerting for Distributed Systems - [[アラート管理]](更新) — 「症状へページし、原因は調査・チケットへ逃がす」分離と、ページ用異常検知は単純・堅牢に限定する設計原則を追記。 - [[アクショナブルアラート]](更新) — 「全ページはアクショナブル」は症状ベース設計と対で成立するという観察を追記。 - [[Prometheusルールリント]](更新) — 時系列アラートの初期利点と、後年に必要になったルール健全性保証の関係を追記。 - [[サービスレベル目標]](更新) — 高レベルサービス目標へアラートし、個別コンポーネントを調査可能に保つ原則を SLO ベース呼び出しの前史として追記。 ### 2026-06-23 SREcon16 Less Alarming Alerts スライド - [[アラート管理]](更新) — Treat の「ビジネス影響・修復手順・通知先・予防可能性をアラート追加前に問う」実践を、Runbook 合意とアラートバジェットの前史として追記。 - [[アクショナブルアラート]](更新) — アクショナブル性の最小チェックリストとして、ビジネス影響・修復手順・通知先・予防可能性を追加。 - [[アラート疲労]](更新) — 偽陽性が応答性を壊す行動モデルを 2016 年時点の早い実践知として追記。 ### 2026-06-23 SREcon17 Europe Over-Monitoring and Alert Fatigue スライド - [[アラート疲労]](新規) — 大量のアラート（特に偽陽性）に繰り返し曝されることでオペレータの応答性が低下する状態。ICU のモニタリング過剰と同構造で、インセンティブ設計による介入が有効。(sre / alert-management) - [[アラート管理]](更新) — アラートバジェットによるインセンティブ設計を第三の介入軸（技術的介入・社会的設計に並ぶ）として追加。 - [[アラートポリューション]](更新) — 心理的抵抗のインセンティブによる構造的無効化を横断的知見に追加。 - [[アクショナブルアラート]](更新) — Jalleda の「即座の対応 + 人間の知性」定義を運用者視点の最小定義として追加。 ### 2026-06-23 SREcon21 Spike Detection スライド - [[アラート相関]](新規) — 分散システムの障害時にアラート群からサービス依存関係を用いて根本原因を推定する取り組み。LinkedIn の AC Engine 実装と修正 Z スコアによるスパイク分離の事例。(sre / aiops) ### 2026-06-23 Sakana Fugu Technical Report - [[集合知]](新規) — 複数フロンティアLLMの相補的専門性を組み合わせ、どの単一モデルも到達できない性能軸にアクセスする手法群。オーケストレーションをスケーリング軸として確立する概念。(multi-agent / collective-intelligence) - [[マルチエージェント協調]](更新) — Fugu の intra-workflow isolation・動的集約者・ドメイン適応創発の知見を横断的知見と未解決の問いに追記。 --- ### 2026-06-23 SREcon19 EMEA Adaptive Paging スライド - [[Adaptive Paging]](新規) — 分散トレーシングの因果関係と OpenTracing セマンティック規約を活用してアラートの通知先を動的に決定するアラートハンドラ。症状ベースアラーティングのクリスマスツリー効果と通知先集中を解消する。(sre / alert-management / distributed-tracing) ### 2026-06-23 SRE NEXT 2023 Warning アラート自動調査スライド - [[Warningアラート]](新規) — Critical ほど即時対応ではないが、SLO・エラーバジェット・信頼性劣化の兆候として放置すべきでない低重要度アラート。発火時点の観測データ保存が調査可能性を左右する。(sre / alert-management / observability) - [[アラート管理]](更新) — 発火後の「調査準備」を自動化する第七の介入点として prepalert 型 enrichment を追記。(aiops / alert-management) - [[エラーバジェット]](更新) — Warning アラートでも 5xx や遅延がエラーバジェット消費につながるため、低重要度扱いと調査不要は同義でないという観察を追記。(sre / slo) - [[サービスレベル目標]](更新) — SLO 由来アラートには原因調査に必要なログ・メトリクスを即時添付する運用層が必要という知見を追記。(slo / observability) ### 2026-06-23 ハイブリッドアテンション論文(Rethinking Hybrid Architectures) - [[ハイブリッドアテンションアーキテクチャ]](新規) — フルアテンション + 効率的注意(SWA・Lightning・Mamba-2・GDN)のハイブリッド設計。Large-Window Laziness と NoPE 改善の機構的説明。(machine-learning / llm / architecture / long-context) - [[NoPE]](更新) — フルアテンション層へのハイブリッド内選択的適用が長コンテキスト性能を大幅改善(RULER +6.75 pt)という知見を横断的知見に追記。SWA との相互作用も追加。(machine-learning / attention) - [[線形注意]](更新) — ハイブリッドでの再帰型混合器が「理論上無制限の受容野」を持つにもかかわらず長コンテキスト検索の主体ではないという知見を追記。(machine-learning / efficient transformers) ### 2026-06-23 LLM 基盤論文 4 本一括(InstructGPT / Chinchilla / Sparsely-Gated MoE / ReAct) - [[人間フィードバックからの強化学習]](新規) — RLHF の定義と 3 段階パイプライン(SFT → 報酬モデル → PPO)。InstructGPT を起点に横断的知見を蓄積。(machine-learning / alignment) - [[指示チューニング]](新規) — 自然言語指示に従うようモデルを微調整する手法。FLAN・InstructGPT の系譜。(machine-learning / alignment) - [[アライメント]](新規) — LLM の出力を人間の意図・価値観に沿わせる技術群の総称。RLHF・指示チューニング・Constitutional AI 等。(machine-learning / ai-safety) - [[スケーリング則]](更新) — Chinchilla 論文を追加。Kaplan et al. 2020 との対比で計算最適な配分が異なることを横断的知見に追記。(machine-learning / scaling) - [[計算最適訓練]](新規) — Chinchilla のスケーリング則に基づく訓練配分最適化。モデルサイズとデータ量の等比率スケーリング。(machine-learning / scaling) - [[ReAct]](新規) — 推論トレースと外部行動を交互に生成する LLM プロンプティングパラダイム。CoT の推論力とツール利用の接地力を統合。(machine-learning / prompting / agents) - [[Chain-of-Thought Prompting]](更新) — ReAct との相補性・RLHF との組み合わせに関する横断的知見を追加。出典に ReAct・InstructGPT を追記。(machine-learning / prompting) ### 2026-06-23 MoE 2017 論文(Shazeer et al., ICLR) — 概念ページ更新 - [[Mixture-of-Experts]](更新) — 2017 年論文を定義に追加。スパースゲート MoE の原型・top-k ゲーティング・重要度損失 + 負荷損失の補助損失・ネットワーク帯域ボトルネック予言を定義セクションに加筆。横断的知見に「2017 年の設計原則が 2024–2026 年研究に継承された系譜」3 点を追加。未解決の問いに「top-k の最適値」「ノイズゲーティング廃止の理由」「エキスパート専門化パターン」を追加。出典に原論文を追加。(machine-learning systems) - [[条件付き計算]](新規) — 入力ごとに計算グラフの一部を動的に有効化/無効化するパラダイム。MoE を最も成功した実現形式と位置づけ、分散環境での通信コスト・スパーシティスケーリング則を横断的知見として整理。(machine-learning) - [[負荷分散]](新規) — MoE における特定エキスパートへのトークン集中を防ぐ技術群の総称。Shazeer 2017 の補助損失(重要度損失 + 負荷損失)から DeepSeek-V3 のバイアス動的調整・MiniMax-M2 のシグモイドゲーティングまでの 4 方向の解法系譜を整理。(machine-learning systems) ### 2026-06-21 マイクロサービス RCA・マルチモーダル障害診断 7 論文一括(LocaleXpert / UniTok / MRCA / HolisticRCA / Medicine / ChangeLLM / DeepHunt) - [[根本原因分析]](更新) — LocaleXpert・MRCA・HolisticRCA・Medicine・DeepHunt の 5 ソースから横断的知見を追記。LLM 統合型・メトリクスレベル・包括的オブザーバビリティ活用の分岐を整理。(aiops / rca) - [[マルチモーダル障害診断]](更新) — MRCA・HolisticRCA・Medicine・ChangeLLM の 4 ソースからモダリティ統合戦略の横断的知見を追記。適応的重み付け(Medicine)と RAG ベース知識活用(ChangeLLM)の差異を整理。(aiops / multi-modal) - [[LLMによる根本原因分析]](更新) — LocaleXpert・ChangeLLM の 2 ソースから LLM 活用パターンの横断的知見を追記。専門家知識のプロンプト注入と RAG アプローチの対比。(aiops / llm / rca) - [[変更起因インシデント]](更新) — ChangeLLM から変更影響評価の自動化に関する知見を追記。(aiops / change-management) - [[時系列基盤モデル]](更新) — UniTok/UniTok-FM から離散トークン化アプローチの知見を追記。NTP ベース汎用 TSFM の可能性と課題。(time-series / foundation-model) ### 2026-06-20 マイクロサービス RCA 6 論文一括(TraceRank / LogCluster / LogKG / FSF / Nezha / Eadro) - [[ログクラスタリング]](新規) — IDF 重み付けベクトル化と凝集型階層クラスタリングによるログ系列の問題クラス圧縮。知識ベース照合で再発/新規を振り分ける。(aiops / log-analysis) - [[知識グラフ]](新規) — エンティティ間の関係を有向グラフで表現する知識表現形式。LogKG ではログテンプレートと障害をノードとしたグラフ推論で障害診断を実現。(aiops / knowledge-representation) ### 2026-06-20 Energy statistics (JSPI 2013) - [[エネルギー統計]](新規) — 距離に基づく U/V統計量の族。エネルギー距離・DISCO・E-クラスタリング・適合度検定を統一する枠組み。回転不変・スケール同変から一意に導出される。(statistics / distance-statistics) - [[距離相関]](新規) — 距離共分散(dCov)と距離相関(dCor)。ゼロとなる必要十分条件が独立性であり、任意次元・非線形依存も検出可能。ブラウン共分散と任意次元で一致。(statistics / dependence-measure) ### 2026-06-20 Odin (NSDI 2018) - [[CDN計測システム]](新規) — クライアント側アプリ層計測を用いた CDN 計測プラットフォームの設計原則。Odin が代表例。(networking / cdn / internet-measurement) - [[エニキャストルーティング]](新規) — 同一 IP を複数 PoP でアナウンスし BGP でユーザーを誘導する CDN ルーティング手法。性能盲目性とパッチ適用手法を整理。(networking / cdn / routing) ### 2026-06-20 分散トレーシング基礎論文 5 本一括(Pinpoint / Magpie / lprof / Pivot Tracing / Canopy) - [[動的計装]](新規) — 実行中にトレースポイントを挿入する技術。Pivot Tracing の happened-before 結合が確立。(distributed-tracing / instrumentation) - [[リクエストモデリング]](新規) — リクエスト単位の資源消費モデルをオンライン構築する技術。Magpie のスキーマ駆動パーサが先駆。(distributed-tracing / performance-modelling) - [[非侵入プロファイリング]](新規) — ソースコード改変なしにリクエストフローを再構築する手法。lprof のバイトコード静的解析が確立。(distributed-tracing / non-intrusive) - [[分散トレーシング]](更新) — Pinpoint/Pivot Tracing/Canopy の横断的知見を追加。2002–2017 の進化系譜を集約。 - [[Fault Localization]](更新) — Pinpoint の統計的障害箇所特定の起源を横断的知見に追加。 - [[トレースサンプリング]](更新) — Canopy のヘッドベースサンプリング + コールパス打ち切りを横断的知見に追加。 - [[根本原因分析]](更新) — Pinpoint の統計的 RCA の先駆的貢献を追加。 ### 2026-06-20 arXiv — A Tutorial on Kernel Density Estimation and Recent Advances - [[カーネル密度推定]](新規) — ノンパラメトリック密度推定法。帯域幅選択・信頼帯構成のバイアス処理・密度の幾何学的/位相的特徴推定を体系化。[[密度ベースクラスタリング]]の DENCLUE の理論的基盤。(nonparametric-statistics / density-estimation) - [[密度ベースクラスタリング]](更新) — KDE との理論的接続を横断的知見に追加。 ### 2026-06-20 JMLR — DirectLiNGAM - [[因果発見]](更新) — DirectLiNGAM の位置づけ（外生変数の逐次同定による直接推定法）を定義に補足。横断的知見にアルゴリズムパラメータ依存性の解消・モデル仮定違反の具体例証を追加。 ### 2026-06-19 PVLDB — Time-Series Clustering: A Comprehensive Study - [[時系列クラスタリング]](新規) — 時系列データを同質なグループに分割する教師なしタスク。84手法・128データセット評価で10年前の k-Shape を統計的に上回る手法が存在しない「進歩の幻想」が実証された。基盤モデル(CHRONOS・OFA・MOMENT)もクラスタリングでは古典手法を超えられない。(time-series / clustering / benchmark) - [[時系列基盤モデル]](更新) — TSFM のクラスタリング性能が k-Shape を統計的に上回れない知見を横断的知見に追加。「予測以外のタスクでの TSFM 優位は未確立」。 ### 2026-06-19 Boris Tane Blog — The Software Development Lifecycle Is Dead - [[コンテキストエンジニアリング]](新規) — AI エージェントに与える情報の品質を設計・管理する実践。「エージェントで構築するものの品質は、エージェントに与えるコンテキストの品質に正比例する」。従来 SDLC における「プロセスの厳密さ」に代わる AI 時代の差別化要因。(ai-native / software-development / llm / observability) - [[AIネイティブ開発]](新規) — Cursor 以降にキャリアを始め、スプリント計画・ストーリーポイント・PR レビューを経験せずに形成されたソフトウェア開発スタイルおよびエンジニア文化。従来 SDLC の「改善版」ではなくパラダイムの断絶。(ai-native / software-development / engineering-culture) ### 2026-06-19 Frontiers in Genetics — Review of Causal Discovery Methods - [[因果発見]](新規) — 観測データから変数間の因果構造（DAG/同値類）を推定する手法の総称。制約ベース（PC・FCI）・スコアベース（GES）・関数的因果モデルベース（LiNGAM・ANM・PNL）の3系統。[[因果推論ベースRCA]] の理論的基盤。(causal-discovery / graphical-models / statistics) - [[因果推論ベースRCA]](更新) — Glymour+ 2019 の理論体系との接続を追記。忠実性仮定・前処理による分布歪み・FCI vs PC の交絡対処ギャップが RCA 失敗モードを体系的に説明することを横断的知見に追加。 ### 2026-06-19 Physics Reports — Signal propagation in complex networks - [[複雑ネットワーク]](新規) — スケールフリー性・スモールワールド性・時間的ネットワーク・多層ネットワークを含む複雑ネットワークの型と特性。感染閾値・拡散パターン・カスケード障害の基礎的フレーム。(complex-networks / network-science / physics) - [[信号伝播]](新規) — 感染・情報・ニューロン活動・カスケード障害などが複雑ネットワーク上でどのように伝わるか。モデリング駆動（蔵本/反応拡散/感染症モデル）とデータ駆動（転送エントロピー/発生源特定）の 2 軸。(complex-networks / nonlinear-dynamics / physics) ### 2026-06-19 CSUR — Anomaly Detection: A Survey - [[異常検知]](更新) — Chandola+ 2009 の点異常・文脈異常・集合異常、6 技法群、仮定ベース比較を基礎 taxonomy として追加。2015 PADBI・2021 マイクロサービスサーベイ・現代 AIOps への接続を横断的知見に追記。(aiops / anomaly-detection / survey) ### 2026-06-19 SREcon19 EMEA — Latency SLOs Done Right - [[ヒストグラムメトリクス]](新規) — レイテンシ分布を平均やパーセンタイル値に潰さず、ビンごとのサンプル数として保持するメトリクス。任意の期間・ノード・エンドポイントを集約して、しきい値以内の良いイベント比率を計算できる。(telemetry / slo / observability) - [[サービスレベル目標]](更新) — レイテンシ SLO はパーセンタイル時系列でなく、ログ・カウンタ・ヒストグラムによりしきい値内のリクエスト比率として実装する必要がある観察を追加。(slo / latency / telemetry) ### 2026-06-18 SpeakerDeck — AIスーパーコンピュータにおけるLLM学習処理性能の計測と可観測性 - [[GPU観測性]](更新) — クラウド事業者の責任境界により、GPU プロファイリングはユーザー有効化・高オーバーヘッドの手法から、非侵入・低オーバーヘッド・学習フレームワーク文脈復元へ要求が移る観察を追加。(gpu / observability) - [[LLM学習モニタリング]](更新) — OTel + Grafana のリソース分析基盤から、順伝搬・逆伝搬・重み更新・集団通信スパンへ意味づけを引き上げる課題を追加。(llm-training / monitoring) - [[RDMAネットワーク監視]](更新) — R-Pingmesh 型の能動プロービングを研究論文から運用ツールへ移す際の、RNIC ペア選択・網羅性・行列可視化の段差を追加。(rdma / roce / monitoring) ### 2026-06-18 PyTorch Conference 2025 — LMCache + NIXL - [[KVキャッシュ管理]](更新) — NIXL の Memory Section / Metadata Handler を、KV キャッシュ転送に必要なメモリ登録・メタデータ交換の抽象として追記。(llm / inference / kv-cache) - [[LLM推論]](更新) — VAST Storage での長コンテキスト TTFT 削減例から、推論高速化が「どこから KV を読むか」という階層ストレージ問題へ移る観察を追加。(llm / inference) - [[Prefill-Decode分離]](更新) — NIXL の UCX 例を、PD 分離における転送データ面と制御面の分離として追記。(llm / inference / serving) ### 2026-06-18 FlashAttention シリーズ 4 本 + AIBrix ingest - [[FlashAttention]](新規) — IO-aware 厳密アテンションアルゴリズム。4 世代(A100→Blackwell)にわたる進化と GPU ボトルネック追跡を横断整理。(gpu / attention / llm-inference) - [[LLM推論]](更新) — FlashAttention の IO-aware ボトルネック追跡と AIBrix のクラウドネイティブ推論オーケストレーションの横断的知見を追加。(LLM systems) - [[KVキャッシュ管理]](更新) — AIBrix の分散 KV キャッシュファブリックと scan-resistant eviction を横断的知見に追加。(llm / inference / kv-cache) - [[Prefill-Decode分離]](更新) — AIBrix の Kubernetes ベース PD 分離オートスケーリングを横断的知見に追加。(llm / inference / serving) - [[カーネルフュージョン]](更新) — FlashAttention 4 世代の融合設計進化を横断的知見に追加。(hpc / gpu) - [[テンソルコア]](更新) — テンソルコア利用率の 70-75% 天井と TMEM によるレジスタ圧力解消を横断的知見に追加。(hpc / gpu / hardware) - [[GPU最適化]](更新) — FlashAttention をボトルネック追跡型最適化の教科書的事例として横断的知見に追加。(hpc / gpu) ### 2026-06-18 KV キャッシュ・GPU クラスタ論文 5 本 - [[KVキャッシュ管理]](更新) — 本番ワークロード特性(合成比低ヒット率、シングルターン支配、指数分布寿命)、非プリフィックス選択的再計算(CacheBlend/KVShare)、デコードフェーズのアテンション・ドリフト、sub-O(n) メモリ手法のマルチターン破綻(SCBench)を追記。(llm / inference / kv-cache) - [[LLM推論]](更新) — 本番 KV キャッシュワークロード特性、RAG/マルチテナントの非プリフィックス再利用、KV キャッシュライフサイクルベンチマークの必要性を追記。(llm / inference) - [[GPUクラスタスケジューリング]](更新) — Alibaba PAI 異種混合クラスタのワークロード解析（GPU 共有、CPU 競合、タスク繰り返し SJF）を追記。(distributed / scheduling) ### 2026-06-18 MPLS JAPAN 2025 — KV cache sharing with IOWN APN - [[KVキャッシュ管理]](更新) — KV キャッシュ共有を広域低遅延ネットワークと電力制約下の分散小型データセンター設計へ拡張する知見を追加。(llm / inference / kv-cache / iown) - [[LLM推論]](更新) — 電力制約下の推論ではリクエストルーティングと KV キャッシュ配置が同時制御問題になる観察を追加。(llm / inference / energy) - [[AI Greenferencing]](更新) — XWind 型の発電源近傍コンピュートと、IOWN APN 型の光ネットワーク連携分散データセンターを横断比較。(AI infrastructure / sustainable computing) ### 2026-06-18 LLM 推論 KV キャッシュ管理/分離型推論 6 論文 - [[KVキャッシュ管理]](新規) — LLM 推論で KV キャッシュを保存・再利用・退避・転送・共有するためのメモリ/ストレージ/ネットワーク管理。PagedAttention、RadixAttention、LMCache、P/D-Serve を横断し、GPU 内 page と外部 transfer chunk の二重粒度を整理。(llm / inference / kv-cache) - [[LLM推論]](更新) — KV キャッシュが attention kernel 最適化からクラスタデータ管理へ拡張した系譜、structured LM programs、P/D-Serve の本番スケジューリング観測課題を追記。(LLM systems) - [[Prefill-Decode分離]](更新) — P/D-Serve の scenario 単位 organization、LMCache/P-D-Serve による KV 転送粒度変換を横断知見に追加。(llm / inference / serving) ### 2026-06-18 LLM 推論サービング論文 2 本 - [[Prefill-Decode分離]](新規) — LLM 推論の Prefill と Decode を別 GPU・別インスタンス・別資源プールに分けるサービング設計。DistServe の Goodput 最適化、さくら/高火力 PHY の KV キャッシュ転送制約、INLG 2025 サーベイのカテゴリ化を横断整理。(llm / inference / serving) - [[LLM推論]](更新) — DistServe による PD 分離の Goodput 最適化、Zhen+ INLG 2025 によるインスタンス/クラスタ/新興シナリオの階層型サーベイを追記。(LLM systems) ### 2026-06-18 SpeakerDeck — 推論基盤のパフォーマンス検証と最適化戦略 - [[LLM推論]](更新) — PD 分離を「同じ GPU 枚数での役割分割」として捉え、入力 8k・出力 1k・32 同時接続で ITL P99 を 30 ms 以内に維持する実測を追加。KV Cache Reuse/Sharing の TTFT 最大 1.75 倍程度削減と、完全ヒット近傍でも読み込みが TTFT 約 1/4 を占める未解決点を追加。(llm / inference / gpu / benchmark) - [[サービスレベル目標]](更新) — LLM 推論の SLO が TTFT・ITL・E2EL・Goodput・Tokens/Dollar を束ね、SLO/SLA を満たしながらコスト最小化するループとして設計される観察を追加。(slo / llm-serving / cost) ### 2026-06-17 分散深層学習の訓練系基盤論文 14 本一括 - [[テンソル並列]](新規) — Megatron-LM のテンソル並列化手法。MLP と自己注意機構の行列分割で通信を AllReduce 2 回に抑制。(distributed / parallelism) - [[パイプライン並列化]](新規) — GPipe のマイクロバッチ方式と PipeDream の 1F1B 方式を整理。bubble 比率と重み一貫性のトレードオフを横断比較。(distributed / parallelism) - [[PTD-P]](新規) — Megatron-LM SC'21 が提案した 3D 並列化（Pipeline + Tensor + Data Parallelism）。インターリーブスケジュールで bubble 1/v に削減。(distributed / parallelism) - [[ZeROメモリ最適化]](新規) — ZeRO Stage 1〜3 の段階的メモリ分割。Stage 3 でパラメータまで分割し、モデル並列なしで 1000 億パラメータ訓練を実現。(distributed / memory-optimization) - [[ZeROオプティマイザ]](新規) — DeepSpeed の ZeRO 実装。KDD 2020 チュートリアルでの概要整理。(distributed / deepspeed) - [[ZeROパラメータシャーディング]](新規) — ZeRO Stage 3 / PyTorch FSDP の共通原理。FlatParameter による通信集約と後退プリフェッチの比較。(distributed / data-parallelism) - [[シーケンス並列化]](新規) — Megatron-LM の LayerNorm・Dropout をシーケンス次元で分割する手法。テンソル並列と組み合わせ活性化メモリ削減。(distributed / parallelism) - [[選択的活性化再計算]](新規) — MLSys'23 論文提案。QKV 以外の活性化のみ再計算し、530B で活性化メモリ 5 倍削減・再計算オーバーヘッド 1/3。(distributed / activation-recomputation) - [[再マテリアライゼーション]](新規) — GPipe が導入した活性化再計算の一般概念。選択的再計算との関係を整理。(distributed / memory-optimization) - [[混合精度訓練]](新規) — FP16/BF16/FP8 での訓練手法。FP8-LM が GPT-175B でメモリ 42% 削減・64% 高速化を実証。(distributed / precision) - [[共有異常]](新規) — HiveD が発見した GPU クラスタの問題。クォータ内でも私有クラスタより待ち時間が長い現象。(distributed / gpu-scheduling) - [[Virtual Private Cluster]](新規) — HiveD のセル抽象化による共有安全性保証メカニズム。GPU アフィニティ階層を反映した仮想割り当て。(distributed / gpu-scheduling) - [[ネットワーク対応スケジューリング]](新規) — Cassini が提案。GPU 配置とネットワークフロースケジューリングの統合で JCT 最大 1.6 倍改善。(distributed / scheduling) - [[タスク並列フレームワーク]](新規) — Ray のタスク並列 + アクター統合モデル。動的タスクグラフとボトムアップ分散スケジューラ。(distributed / framework) - [[動的タスクグラフ]](新規) — Ray が計算グラフを実行時に動的構築する手法。静的グラフ（TensorFlow 等）との対比。(distributed / framework) - [[GPUクラスタスケジューリング]](更新) — HiveD の共有異常・Cassini のネットワーク対応配置を追加。アフィニティ保証と通信対応の 2 軸で整理。 - [[LLM分散学習]](更新) — 14 論文からの知見を大幅追加。並列化戦略体系・メモリ最適化・通信特性・耐障害を横断整理。 - [[並列化戦略]](更新) — TP/PP/DP/FSDP/3D の体系的分類を強化。APNet 実測データとの対応付け。 - [[チェックポイント]](更新) — FFTrainer の checkpoint razor（サイズ 1/10 圧縮）とゼロオーバーヘッド手法を追加。 - [[耐障害LLM訓練]](更新) — FFTrainer の遊休帯域活用チェックポイント・数十秒復旧を追加。 - [[集合通信]](更新) — APNet の実測通信特性（TP 内 AllReduce 55〜85% 帯域占有）を追加。 ### 2026-06-17 マイクロサービスベンチマーク/データセット 4 論文一括 - [[マイクロサービスベンチマーク]](新規) — 実装(benchmark system)と dataset(benchmark dataset)の 2 形態を整理し、Train-Ticket 共通基盤化・観測スタック標準化・fault layer 分離の系譜を横断的に記述。([[@2019__ASPLOS__An Open-Source Benchmark Suite for Cloud and IoT Microservices]] / [[@2023__arXiv__Benchmarks for End-to-End Microservices Testing]] / [[@2024__MSR__A Dataset of Microservices-based Open-Source Projects]] / [[@2026__SANER-C__TrainTicketTrace - A Multi-Fault Distributed Dataset for Microservice Fault Detection and Localization]])(microservices / benchmark / distributed) - [[マイクロサービスアーキテクチャ]](更新) — DeathStarBench(2019)の「ハードウェア/OS 層への圧迫」(front-end stalls・kernel 36.3%・single-thread 感度・1 dependency ミスで tail latency 10.4× 悪化)を Meta の trace 解析と並置。 - [[マイクロサービスコールグラフ]](更新) — Death Star graph という命名起源、TrainTicketTrace の n+1 selects パターン(breadth 30+/depth 9)を Alibaba 実測の baseline と比較。 - [[分散トレーシング]](更新) — DeathStarBench 自前 trace 0.1% overhead の参照点化と、TrainTicketTrace が multimodal trace+metric+log を Jaeger フォーマットで公開する初の大規模 fault-injected dataset としての位置付け。 - [[Fault Localization]](更新) — TrainTicketTrace の trace+metric+log 3 modality 同時公開が multimodal FL の比較基盤になることと、test 層が fault を見落とすが observability 層に痕跡が残る段の切れ目。 - [[障害注入]](更新) — TrainTicketTrace の git branch 固定型注入(Zodiac の SMT 保証と同型の再現性担保)と、テストが fault を検知できなくても trace/metric/log には残るという別軸の問題。 ### 2026-06-17 アラート管理論文 3 本(Zha+ Electronics / VOCE FASE / SkyNet SIGCOMM) - [[アラート集約]] — 3 系統(意味類似度 / 統計 / ハイブリッド)に加え、LLM の役割が「SOP 解読 / SDG マッパー / 多因子分析」の 3 系統に分化。LLM 採用/不採用は failure の severity・スケールが境界。時間順仮定の否定が複数論文で独立に観察された。([[@2024__Electronics__Leveraging Large Language Models for Efficient Alert Aggregation in AIOPs]], [[@2025__FASE__VOCE - A Virtual On-Call Engineer for Automated Alert Incident Analysis Using a Large Language Model]], [[@2025__SIGCOMM__SkyNet - Analyzing Alert Flooding from Severe Network Failures in Large Cloud Infrastructures]])(aiops / alert-management) - [[アラートストーム]] — SkyNet が "alert flooding from severe failure" の第三カテゴリを実証(年間数回、unknown failure、損失大)。alert 内分類は severity-driven / state-driven / behavior-driven の 3 軸に独立して分かれる。(aiops / alert-management) - [[アラートインシデント分析]](新規) — VOCE が導入した後段問題。alert を集約するだけでなく originating alert(根本原因記録 alert)を特定するタスク。system layer / impact scope / severity の 3 因子で 93-95% 一致(aiops / alert-management / incident-management) - [[LLMによる根本原因分析]](新規) — LLM の責務が「外部知識リーダー / グラフマッパー / 多因子分析+因果推論器」に分化。Chain-of-Thought + 階層分解 + 反復多数決で安定化。外部知識(SOP/SDG/Topology)で LLM 自由度を制約することで信頼性確保。SkyNet が "LLM 不採用" 位置で対比。(aiops / llm / rca) - [[サービス依存グラフ]](新規) — LLM hallucination の制御材として機能。Zha+ 2024 と VOCE が必須インフラとして使用。「SDG/topology incompleteness」が両論文で limitation として共通指摘(aiops / microservices / graph) - [[ネットワーク監視]](新規) — 単一データソース coverage 3-84% という制約から複数ソース統合が必須。統合代償の alert flooding を SkyNet が preprocessor + alert tree + severity score で対応(networking / observability / aiops) ### 2026-06-16 SpeakerDeck — AI 時代の SRE と信頼性 - [[SRE]] — AI 時代には、生成物の制御と本番での観測・担保の両面を SRE が扱う必要がある。[[サービスレベル目標]]・[[エラーバジェット]]・[[agentic SRE]] への接続を更新。(SRE / AI engineering) - [[agentic SRE]] — 実務導入の入口は、本番変更の完全自律化よりも SLI/SLO 候補提案・PRC レビュー・障害対応要約・ポストモーテム下書きのような判断支援にある。(SRE / AIOps) - [[SRE AI Autonomy Levels]] — Google SRE の L0-L4 自律性モデルを、Safety Trifecta と Architectural Guardrails を伴う現場導入チェックリストとして位置づけた。(SRE / AIOps / governance) - [[サービスレベル目標]] — 生成 AI サービスでは出力品質スコア・ハルシネーション率・RAG 検索精度を SLI 候補に加える必要がある。(SLO / AI service reliability) - [[エラーバジェット]] — AI 補助による自動承認と人間承認への戻しを、エラーバジェット残量で制御する拡張を追加。(SRE / governance) ### 2026-06-16 joisino ブログ 13 記事から派生する概念 #### LLM 機構的解釈性 / アテンション - [[Transformer]] — 自己注意機構を中核とする系列モデル。線形注意により[[カーネル法]]として再定式化でき、[[RNN]] と等価な定メモリ推論モードを持つ([[joisino-トランスフォーマーはRNN-2024]])。(machine-learning / sequence-modeling) - [[RNN]] — 再帰的な隠れ状態を持つ系列モデル。Transformer の線形注意モードは固定次元状態を持つ RNN として書き下せる([[joisino-トランスフォーマーはRNN-2024]])。(machine-learning / sequence-modeling) - [[線形注意]] — softmax の代わりにカーネル特徴写像で類似度を測る注意機構。状態が無限和へ畳み込めるため固定次元 RNN として展開可能([[joisino-トランスフォーマーはRNN-2024]])。(machine-learning / attention / efficient) - [[状態空間モデル]] — Mamba・S4 等、選択的状態空間を持つ系列モデル。Transformer/線形注意/SSM/RNN の連続的な接続を Mamba 系統で議論([[joisino-トランスフォーマーはRNN-2024]])。(machine-learning / sequence-modeling) - [[カーネル法]] — 内積空間の特徴写像で類似度を測る伝統的手法。Transformer のアテンションをカーネル法とみなすことで RNN への等価変換が成立([[joisino-トランスフォーマーはRNN-2024]])。(machine-learning / kernel) - [[文脈内学習]] — Few-shot 例から推論時にタスクを学ぶ能力。重み内学習と並ぶ「過去データとの類似度をカーネルで測る」手続きとして同質視できる([[joisino-トランスフォーマーはRNN-2024]])。(machine-learning / llm / in-context-learning) - [[LLM算術機構]] — LLM が四則演算を [[ヒューリスティックの束]] として実装する内部構造。MLP ニューロンの粗い条件判定の積み重ねで答えを出力([[joisino-LLMのキモい算術-2025]])。(machine-learning / llm / interpretability) - [[ヒューリスティックの束]] — 単純な条件(範囲・剰余・パターン)を担うニューロン群の積み重ねで結果を出すモデル戦略。LLM 算術や知識検索の基本様式([[joisino-LLMのキモい算術-2025]])。(machine-learning / llm / interpretability) - [[ロジットレンズ]] — 各層・各ニューロンの出力がロジットに与える寄与を中間層へ復号して観察する解釈手法。算術機構の可視化に有効([[joisino-LLMのキモい算術-2025]])。(machine-learning / llm / interpretability) - [[Physics of Language Models]] — [[Zeyuan Allen-Zhu]]・[[Yuanzhi Li]] らによる「合成データ＋線形プロービング」で LLM の普遍則を抽出する研究プログラム。知識記憶・操作・文脈学習・文法学習を制御実験で分離([[joisino-言語モデルの物理学-2025]])。(machine-learning / llm / interpretability) - [[知識操作]] — LLM が記憶した知識を比較・推論等で組み替える能力。Chain-of-Thought なしには発揮できないことが Physics of LLM で示される([[joisino-言語モデルの物理学-2025]])。(machine-learning / llm) - [[知識容量スケーリング則]] — LLM はパラメータ 1 つにつき約 2 ビットの知識を記憶できるという普遍則(Allen-Zhu+ 2024 等)([[joisino-言語モデルの物理学-2025]])。(machine-learning / llm / scaling) - [[文脈自由文法]] — CFG の構造を Transformer がどう内部表現として学習するかは Physics of LLM の主要トピックの一つ([[joisino-言語モデルの物理学-2025]])。(machine-learning / llm / grammar) #### LLM の限界と評価 - [[否定文理解]] — 「○○ではない」を正しく解釈する能力。BERT 系埋め込みは正反対文を高類似度で近接させ、softmax 出力の構造上、否定の埋め込みは数学的に存在不能([[joisino-否定文理解-2024]])。(machine-learning / llm / nlp) - [[テキスト埋め込み]] — 文を固定長ベクトルに写像する表現。否定文の取り扱いには構造的限界がある([[joisino-否定文理解-2024]])。(machine-learning / nlp / embedding) - [[自然言語推論]] — NLI(entailment/contradiction/neutral)タスク。否定文理解の評価でしばしば破綻が露呈([[joisino-否定文理解-2024]])。(machine-learning / nlp) - [[文脈付き検索]] — Anthropic Contextual Retrieval。検索ミスを 5.0%→2.9% に削減し否定文ロバスト性を補強([[joisino-否定文理解-2024]])。(rag / information-retrieval) - [[ゼロエラー境界]] — モデル自身が問題サイズの限界を定める評価フレーム(Zero-Error Horizon、ZEH)。人間の恣意的範囲設定を排除し[[LLM能力スパース性]]を可視化([[joisino-LLMの能力の穴-2026]])。(llm / evaluation) - [[LLM評価]] — LLM の能力・信頼性・安全性を測る評価設計。ZEH・自然分布内リミッター等の新指標が議論される([[joisino-LLMの能力の穴-2026]])。(llm / evaluation) - [[LLM能力スパース性]] — 高度問題を解けるモデルが低位の単純問題で誤答する非単調な能力分布。実用上の[[LLMアプリケーション信頼性]]に直結([[joisino-LLMの能力の穴-2026]])。(llm / evaluation) - [[AI検証可能性]] — 探索は AI、検証は人間という分業を成立させる、AI が出力する「検証可能な証拠」の概念。NP 完全性・対話型証明系と接続([[joisino-超人的AIと認知不能情報-2025]])。(machine-learning / ai-safety / interpretability) - [[敵対的摂動]] — 画像分類で AI を騙すと見なされてきた微小ノイズ。実は人間に認知できない正当な分類手がかりを含む信号と論じられる([[joisino-超人的AIと認知不能情報-2025]])。(machine-learning / adversarial) - [[帰属手法]] — saliency・LIME・SHAP 等の特徴帰属。敵対的摂動の知見は帰属が捉えられない高次元の微弱信号の存在を示す([[joisino-超人的AIと認知不能情報-2025]])。(machine-learning / interpretability) #### モデル表現・学習理論 - [[プラトン的表現仮説]] — Huh+ 2024 の仮説。テキスト/画像など異モダリティのモデルが性能向上とともに共通の世界統計モデルへ収束する([[joisino-アンナカレーニナの法則-2025]])。(machine-learning / representation-learning) - [[モデル表現収束]] — 強いモデル同士の表現が似てくる現象。多タスク化・暗黙的正則化が要因として論じられる([[joisino-アンナカレーニナの法則-2025]])。(machine-learning / representation-learning) - [[モデル縫合]] — 異なるモデル間で中間表現を線形写像のみで繋ぎ替える実験手法。表現収束の評価に用いられる([[joisino-アンナカレーニナの法則-2025]])。(machine-learning / representation-learning) - [[暗黙的正則化]] — 勾配法が最初に出会う単純な解で停止する現象。普通に訓練するだけで表現が揃う理由の一部([[joisino-アンナカレーニナの法則-2025]])。(machine-learning / generalization) - [[アンサンブル学習]] — 複数モデルの予測を統合する手法。強モデル同士では既に表現が似ているため効果薄。[[プラトン的表現仮説]] と整合([[joisino-アンナカレーニナの法則-2025]])。(machine-learning / ensemble) - [[ビジョン言語モデル]] — テキストと画像を共有表現に揃えるモデル(CLIP 等)。プラトン的収束が代表例として論じられる([[joisino-アンナカレーニナの法則-2025]])。(machine-learning / multimodal) - [[汎化誤差バウンド]] — 訓練データ上の経験損失と真のリスクの差を抑える理論的上界。古典的には[[集中不等式]]+[[カバリングナンバー]]で構成される([[joisino-機械学習理論入門-2025]])。(machine-learning / learning-theory) - [[集中不等式]] — マルコフ・チェビシェフ・ヘフディング等、確率変数の平均値が期待値からどれだけずれるかを抑える不等式群([[joisino-機械学習理論入門-2025]])。(probability-theory) - [[PAC学習]] — Probably Approximately Correct 学習の枠組み。誤差ε以下を確率 1-δ で達成する仮説選択([[joisino-機械学習理論入門-2025]])。(machine-learning / learning-theory) - [[カバリングナンバー]] — 距離空間を ε-球で被覆するのに必要な最小球数。連続パラメータ空間の汎化保証に用いる([[joisino-機械学習理論入門-2025]])。(machine-learning / learning-theory) - [[深層学習の汎化]] — 過パラメータ化で古典バウンドが自明に崩壊する深層学習における汎化研究。損失地形の「盆地」構造・暗黙的正則化が鍵([[joisino-機械学習理論入門-2025]]・[[joisino-アンナカレーニナの法則-2025]])。(machine-learning / generalization) #### LLM 訓練・運用 - [[1サンプルRLVR]] — 訓練データ 1 問のみでも全データに匹敵する推論性能を得る現象(Wang+ ICLR 2026)。問題選択基準は報酬分散、エントロピー増大正則化と内省語獲得が鍵([[joisino-訓練データ1個推論性能倍-2025]])。(machine-learning / reinforcement-learning / llm) - [[検証可能報酬による強化学習]] — RLVR。数学・コード等で正解検証器が機能するタスクで RL ファインチューニングする枠組み。1 サンプル RLVR の前提でもある([[joisino-訓練データ1個推論性能倍-2025]])。(machine-learning / reinforcement-learning / llm) - [[強化ファインチューニング]] — Reinforcement Fine-Tuning。少データの高品質問題に深く強化学習させ汎用推論能力を引き上げる post-training アプローチ([[joisino-訓練データ1個推論性能倍-2025]])。(machine-learning / llm / post-training) - [[報酬ハッキング]] — エージェントが報酬関数の抜け穴を突き、本来の意図を満たさないまま高スコアを得る現象([[joisino-人間を騙すAI-2025]])。(ai-safety) - [[RLHF誤誘導]] — 標準的 RLHF だけで LLM が人間を誤解させる振る舞いを学ぶ現象。真の性能ほぼ不変のまま評価スコアが劇的に上昇([[joisino-人間を騙すAI-2025]])。(ai-safety / rlhf) - [[スコファンシ]] — LLM が真実より評価者好みの答えを優先する迎合性([[joisino-人間を騙すAI-2025]])。(ai-safety / llm) - [[LLM自己検証]] — LLM 自身に出力の正しさを検証させる手法。自己検証の限界が露呈しており、ルールベース検証器の併用が推奨される([[joisino-人間を騙すAI-2025]])。(ai-safety / llm) - [[LLMアプリケーション信頼性]] — LLM ベース実応用の信頼性確保。リミッター(ZEH 等)で取りこぼしを評価し[[ゼロエラー境界]]内の運用を設計する([[joisino-LLMの能力の穴-2026]])。(llm / reliability) - [[LLMランキング]] — LLM に候補集合の優劣を判定させる枠組み。Pointwise/Pairwise/Listwise/Setwise の 4 様式([[joisino-LLMでソート-2026]])。(llm / ir) - [[LLM比較器]] — LLM を 2 項比較関数(コンパレータ)として用いる手法。主観的・曖昧な基準のソートに有効([[joisino-LLMでソート-2026]]・[[joisino-面白さ優先分類器-2025]])。(llm / ir) - [[pairwiseランキング]] — 2 項ずつの相対比較に基づくランキング。推移性なしでもクイックソート併用で近似保証([[joisino-LLMでソート-2026]])。(ir / ranking) - [[一対比較ランキング]] — pairwise 比較を集約してアイテム順位を決める枠組み。EUREKA は LLM の一対比較で「面白い」特徴量をランキングし、絶対評価のバイアスを回避([[joisino-面白さ優先分類器-2025]])。(machine-learning / ranking) - [[面白さ優先分類]] — 精度最大化でなく「面白さ」を目的関数とする特徴選択+分類器設計(EUREKA)([[joisino-面白さ優先分類器-2025]])。(machine-learning / feature-selection / llm) - [[好奇心駆動学習]] — 新規性・面白さを内発報酬として用いる学習。EUREKA は外的目的関数として一対比較ベースの面白さを採用([[joisino-面白さ優先分類器-2025]])。(machine-learning / reinforcement-learning) #### LLM 意味表象 - [[LLM意味表象]] — LLM 埋め込みが捉える言葉の意味構造。カテゴリ分類は人間と一致するが、典型度の順位相関は低い([[joisino-LLMと言葉の感じ方-2026]])。(machine-learning / llm / semantics) - [[認知意味論]] — 言語学・心理学のカテゴリ理論。家族的類似性・典型性・プロトタイプ理論を含み、LLM 埋め込み評価の基盤([[joisino-LLMと言葉の感じ方-2026]])。(linguistics / cognitive-science) - [[プロトタイプ意味論]] — Eleanor Rosch らによる典型例中心のカテゴリ構造理論。LLM 表象との順位相関比較に利用([[joisino-LLMと言葉の感じ方-2026]])。(linguistics / cognitive-science) #### 関連既存概念の更新 - [[機構的解釈性]] — 4 source(joisino-LLMアテンションと外挿/超人的AIと認知不能情報/言語モデルの物理学/LLMのキモい算術)から横断的に補強され、注意ヘッド分類・帰属の限界・Physics of LLM・LLM 算術機構の 4 視点を統合。(machine-learning / interpretability) - [[LLM向け情報検索]] — [[joisino-LLMでソート-2026]] により LLM 比較器・スライディングウィンドウ・予測付きソートまで拡張。(information-retrieval / llm-systems) メッセージパッシングで近傍情報を集約し、置換対称性を本質的に持つ。ICLR 2024 では解釈性・[[GNN同変性]]・表現能力（WL 検査から部分グラフへ）・分子基盤モデル・物理シミュレーション等で 170 本が採択。(machine-learning / graph-neural-network) - [[GNN同変性]] — 入力の対称性（置換・SE(3)・ニューロン並べ替え等）を保存してモデルの出力が変換される性質。データ効率向上と明らかな間違いの防止が利点。メタネットワーク（Kofinas+・Lim+ ICLR 2024）では MLP のパーミュテーション対称性を GNN の同変性で扱い、モデル性能を順位相関係数 >= 0.9 で予測。[[モデルパラメータ算術]] のパーミュテーション対称性問題とも接続。(machine-learning / graph-neural-network) - [[タスクベクトル]] — ファインチューニング後・前パラメータの差分 τ = θ_ft − θ_0 でタスク能力を表現したベクトル (Ilharco+ ICLR 2023)。加算でタスク追加、減算でアンラーニング、多タスク合成が可能。Word2Vec の類推演算と同様の幾何構造がモデルパラメータ空間に存在する。(machine-learning / model-merging) - [[モデルパラメータ算術]] — 深層学習モデルのパラメータに平均・加算・減算の算術演算を施してモデル能力を直接操作する研究領域。モデルスープ（パラメータ平均で性能向上）・[[タスクベクトル]]（差分ベクトルでタスク転移）・NTK 理論（カーネルによる統一説明）・Git Re-Basin（パーミュテーション整合）を包含。(machine-learning / model-merging) - [[並列データベース]] — 複数プロセッサ・ディスク・メモリを協調させてリレーショナルDB処理を高速化するDBMS。DeWitt/Gray 1992(CACM)がパイプライン並列化・パーティション並列化・スピードアップ/スケールアップ指標・3脅威(startup/interference/skew)を体系化。シェアードナッシングが商業的勝者として定式化された。(database / distributed / parallel) - [[シェアードナッシング]] — 各プロセッサが専用メモリと専用ディスクを保有しインターコネクトのみで通信する並列コンピュータアーキテクチャ。DeWitt/Gray 1992(CACM)および Stonebraker[29]が命名・定式化。Teradata・Tandem・nCUBE・Gamma が代表実装。30年後も分散DBの主流設計原理。(database / distributed / architecture) - [[データパーティショニング]] — リレーションのタプルを複数ディスク/ノードに分散配置する手法。DeWitt/Gray 1992(CACM)がラウンドロビン・ハッシュ・レンジの 3 基本手法を定義。ハッシュは連想アクセス最適・レンジはクラスタリング最適・ラウンドロビンは全スキャン最適。Dynamo/Cassandra の設計原理に直結。(database / distributed / storage) - [[DTrace]] — [[Sun Microsystems]] が [[Bryan Cantrill]] らが Solaris に統合した動的計装フレームワーク(USENIX ATC 2004)。本番稼働中のシステムに対して無効時ゼロ・プローブ効果・絶対安全・D 言語・集約・投機的トレースの 4 技術でユーザー/カーネル統合計装を実現。[[eBPF]] の思想的先祖。(observability / instrumentation / systems) - [[プローブ効果]] — 計装がシステムの実際の動作に与える影響。DTrace が「disabled probe effect ゼロ」を本番適用の前提条件として確立し、静的計装との決定的差異を定式化した。現代 eBPF kprobe/uprobe も同一原則に従う。(observability / instrumentation) - [[BPF]] — BSD Packet Filter。McCanne & Jacobson(LBNL)が USENIX Winter 1993 で提案した、カーネル内の小型レジスタベース VM で動作する CFG ベースのパケットフィルタ評価機構。当時主流の CSPF(スタックベース)に対し 20倍超の高速化を達成し、`tcpdump`/`libpcap` の基盤となる。後の [[eBPF]] の直接の祖。(networking / observability / operating-systems) - [[カーネル内VM]] — カーネル空間で動作する小型仮想機械(レジスタベース等)。BPF/eBPF/DTrace 等が安全性検証+JIT 実行で計算をカーネルへ降ろし、ユーザー空間とのコンテキストスイッチコストを削減する設計原理。(systems / observability) - [[パケットフィルタリング]] — ネットワークパケットを述語で取捨選択する処理。McCanne & Jacobson 1993 の BPF が CFG ベース評価をカーネル内 VM に降ろすことで CSPF 比 20倍高速化を実現し、現代 eBPF/XDP・iptables・WireGuard 設計の基盤となった。(networking / systems) - [[時系列データベースベンチマーク]] — 時系列 DB の性能・スケーラビリティ・クエリ表現力を評価する基盤。TSM-Bench(Khelifati+ PVLDB 2023)が監視ワークロード特化の 8 TSDB × 7 クエリタイプ評価を提供し、単一万能 TSDB が存在しないことを実証した。(database / time-series / benchmark) - [[時系列データ生成]] — 異常検知・予測等の評価用に合成時系列を生成する手法。GutenTAG(Schmidl+ Wenig+ PVLDB 2022)が周期・トレンド・ノイズ・異常パターン(point/contextual/collective)を組み合わせる構成的生成器を提供し、TimeEval の基盤となる。(time-series / synthetic-data / benchmark) - [[時系列異常検知ベンチマーク]] — 時系列異常検知アルゴリズムの大規模評価フレームワーク。TimeEval(Wenig+ Schmidl+ PVLDB 2022)が 71 アルゴリズム × 976 データセットの網羅評価を提供し、深層学習が古典手法に対し決定的優位を示せないこと・DWT-MLEAD がコスト/性能比で最優秀であることを実証した。(time-series / anomaly-detection / benchmark) - [[インシデント優先順位付け]] — 自動報告される大量のインシデントを「対処すべき essential」と「対処不要な incidental」に分類し、後者を後回しにすることで OCE 工数を essential に集中させるタスク。Chen+ ASE2020(DeepIP)が定式化し、incidental を 6 カテゴリ(by design / customer error / won't fix / unable to reproduce / transient / false alarm)で taxonomize、attention 付き CNN で AUC 0.808 を達成。(aiops / incident-management) - [[トレース品質]] — 分散トレースが自動分析に耐えるかを評価する概念。Bento+ 2021(J Grid Computing)が data sufficiency / ontological / tools の 3 類型と temporal coverage(子スパン合計時間/親スパン時間)を提案し、OpenTracing 仕様の testability 欠如・タイムスタンプ単位非明示・annotation 任意性を実例で示した。後継 OpenTelemetry にも引き継がれる構造的問題。(observability / distributed tracing) - [[フォールトトレランス]] — 障害存在下でのサービス継続能力。Heimerdinger+Weinstock 1992 は冗長性管理の6アクション(検知・診断・封じ込め・マスキング・補償・修復)、障害クラス分類(所在・影響・持続時間・原因)、障害封じ込め領域(FCR)、設計多様性、カバレッジ、障害回避的措置(fault evasion)を体系化した。(fault-tolerance / dependability / systems) - [[Design for Reliability]] — 信頼性を test-analyze-and-fix 後工程に任せず、要求同定・設計・解析・検証・妥当性確認・制御の各段階へ組み込む設計プロセス。[[@2012__Wiley__Practical Reliability Engineering|Practical Reliability Engineering]] は DfR を、信頼性技術者が設計チームに統合されるメンター型の企業横断活動として位置づける。(systems reliability / product engineering) - [[FRACAS]] — Failure Reporting, Analysis and Corrective Action System。開発試験・生産・運用で見つかった故障を報告し、調査し、是正処置と再試験まで追跡する閉ループ。SRE のインシデント管理/ポストモーテムと同型の製品信頼性版フィードバック機構。(systems reliability / failure analysis) - [[コンテナオーケストレーション]] — コンテナベースソフトウェアアプリケーションの分散クラスタを構築・継続管理する技法。マルチコンテナを単一エンティティとして扱う可用性・スケーリング・ネットワーキングを担う。Pahl ら 2019 SMS が定義し、Docker・LXC が支配的、Kubernetes・Mesos が次点。(distributed systems / cloud computing) - [[体系的マッピング研究]] — Systematic Mapping Study(SMS)。新興分野で primary studies が不足する状況で研究構造を地図化する secondary study の一形態。PICO・検索式・包含/除外基準・分類フレームワーク・データ抽出表・可視化を必須要素とする。(research methodology / software engineering) - [[コンテナ配置最適化]] — コンテナ間トラフィック量を eBPF カーネル内集約で 9% 未満のオーバーヘッドで計測し、重み付き通信グラフを構築してコンテナスケジューリングを最適化する手法。(distributed systems / container orchestration) - [[B-Tree]] — 比較ベースの可ページング ordered index。DBMS では leaf に record を持つ B+-Tree を指して B-Tree と呼ぶことが多く、range scan・buffer manager・recoverability との統合に強い。(database systems / storage engines) - [[B-Treeノードレイアウト最適化]] — B-Tree の 1 page 内の key/value 配置、slot、heap、比較補助情報、leaf 表現を変えることで cache miss・CPU instruction・空間効率・scan 性能を改善する手法群。(database systems / performance engineering) - [[LLM向け情報検索]] — LLM が検索結果を消費し、取得文書を生成・推論・行動の入力として使う前提の情報検索。主目的は関連文書の提示から、文脈ウィンドウ内の利用可能な証拠密度と検証可能性の最大化へ移る。(information-retrieval / llm-systems) - [[RAGノイズ除去]] — 検索拡張生成で LLM に渡す検索結果から、推論に役立たない、または誤誘導する情報を、インデックス・検索・文脈組み立て・検証・閉ループ訓練の各段で抑える設計。(rag / information-retrieval) - [[LSMツリーコンパクション]] — LSM ツリーの複数ソート済みランをマージし、読み取り・書き込み・空間アンプリフィケーションとクエリ資源競合を制御するバックグラウンド処理。EcoTune は WA/RA ではなく平均クエリスループットへの資源投資として定式化する。(database systems / storage engines) - [[LLM評価]] — LLM の性能・能力・人間嗜好との整合を定量化する手法の総称。静的グラウンドトゥルース型(MMLU 等)の限界(汚染・オープンエンド評価困難)を指摘し、クラウドソーシング型ペアワイズ比較(Chatbot Arena)・LLM-as-judge・専門家評価の 3 アプローチを対比。Bradley-Terry モデルと能動サンプリングによる効率的なランキング手法。(llm-evaluation / benchmarking) - [[オブザーバビリティデータモデル]] — MELT(Metrics/Events/Logs/Traces)の異種テレメトリをエージェントや ML モデルが推論に直接利用できる形式で整理するデータアーキテクチャ。Karumuri ら(SIGMOD Record 2021)が最初に体系化し、UModel(2026)がエージェント対応データモデルとして大規模実証した。(AIOps / observability) - [[スケーリング則]] — ニューラル言語モデルの損失がモデルパラメータ数 $N$・データ量 $D$・計算量 $C$ に対してべき乗則でスケールするという経験的法則。Kaplan et al. (2020) が 7 桁以上の範囲で実証。計算効率最適の訓練は $N_{\text{opt}} \propto C^{0.73}$ の大きなモデルを早期停止で訓練すべきと結論する。(machine-learning / scaling) - [[分散 PostgreSQL]] — PostgreSQL の SQL・トランザクション・DDL・エコシステム互換性を保ちつつ複数ノードへデータとクエリ処理を分散するデータベース設計。[[Aurora Limitless Database]] ではルータ/シャード分離、時刻ベース MVCC、2PC、Serverless V2、シャード分割で実現される。(Database / Distributed Systems) - [[LLMアプリケーション信頼性]] — LLM を意思決定支援・ワークフロー自動化・ツール呼び出し・マルチエージェントシステムに組み込んだとき、入力・コンテキスト・状態管理・外部ツール・バージョン更新・コスト制約を含むシステム全体が期待動作を保つ性質。LLM アプリケーションの 3 層 15 失敗モードを扱う。(LLM systems / reliability) - [[Retroactive Sampling]] — エッジエージェントで生スパンをオンディスク FIFO にバッファリングし、最小属性（33 バイト）のみ中央コレクタへ送ってサンプリング判断する手法。テールサンプリング比でネットワーク 70%・CPU/メモリ 60–70% 削減。[[VictoriaMetrics]] KubeCon EU 2026 発表。(distributed systems / observability) - [[統計的機械学習]] — 確率論・統計理論を基礎とした機械学習の枠組みの総体。線形モデル・スパースモデリング・k-NN・アンサンブル学習・ベイズモデリングを含む。少量データ・解釈性が重要な応用物理・材料科学で有効。(machine-learning / applied-science) - [[ベイズ最適化]] — 評価コストが高い目的関数をガウス過程代理モデルと獲得関数（探索と活用のトレードオフ）で逐次最適化する実験計画手法。材料パラメータ探索の典型用途。(machine-learning / experimental-design / materials-science) - [[アンサンブル学習]] — 複数の弱学習器（決定木）の出力を統合して汎化能力を向上させる手法。バギング（ランダムフォレスト）とブースティング（XGBoost/LightGBM）が2大方式。(machine-learning) - [[Flexible Skill Arrangement]] — O&M エージェントのコンテキスト組み立てを Skill(LoadDataSchema + Prompt + Meta)として外在化し LLM 自動生成・自然言語更新を可能にする設計パターン。[[Bian Que]] で提案。(AIOps / agentic operations) - [[OLTPシステムアーキテクチャ]] — 1970 年代設計の RDBMS が抱えるバッファマネージャ・ロック・ログ・ラッチの 4 コンポーネントオーバーヘッドを段階的分解で定量化。単一ボトルネックは存在せず全コンポーネント除去で初めて 20 倍改善。(Database / Systems) - [[メインメモリデータベース]] — データベース全体を主記憶に常駐させ、バッファプール管理・WAL・ページ指向レイアウトを再設計する DBMS アーキテクチャ。メモリ常駐単体では不十分で他コンポーネント除去との組み合わせが必要。(Database / Systems) - [[agentic SRE]] — agentic SRE は、本番システムの障害調査・診断・緩和を AI エージェントが実行する取り組みである。(SRE / AIOps) - [[AIOps]] — AIOps(AI for IT Operations)は、IT/クラウド運用の検知・箇所特定・根本原因分析・緩和・予防を AI で支援または自動化する取り組みである。(AIOps / cloud operations) - [[eBPF]] — Yuuki Tsubouchi の技術解説(@2021__yuuk.io__Linux eBPF Tracing Technology)が体系化した基礎知識。(operating systems / observability) - [[Fat-Tree]] — Fat-Tree は、上位階層へ行くほどリンク帯域または並列経路を太くして、リーフ間通信のボトルネックを避けるデータセンターネットワークトポロジである。(networking / HPC) - [[Fault Localization]] — 障害検知後に、コンポーネント・メトリクス・ホスト・ランク・ネットワーク層などの原因候補の場所を絞る親概念。詳細は [[根本原因分析]]・[[RCA評価設計]]・[[ログ解析]]・[[LLM学習モニタリング]]・[[RDMAネットワーク監視]] へ分ける。(SRE / AIOps) - [[因果推論ベースRCA]] — マイクロサービスメトリクス時系列から因果グラフを構築しスコアリングで根本原因を特定するアプローチ。PC/FCI/Granger/LiNGAM 系など 9 種の因果探索手法と 21 種の RCA 手法を横断的に整理・評価。多くの手法がランダム選択と同等以下の精度を示す（SRE / AIOps） - [[GPUクラスタスケジューリング]] — GPUクラスタスケジューリング(machine-learning systems / distributed systems) - [[GPUクラスタ運用]] — - GPU ノード可用性は「nines」だけでなく日次ダウンタイムと node hours で運用負債として見える: @2025__DSN-W__Characterizing Modern GPU Resilien...(distributed systems / HPC / cloud operations) - [[GPUレジリエンス]] — GPUレジリエンス(HPC / distributed systems) - [[GPU観測性]] — GPU観測性(GPU systems / observability) - [[Heisenbug]] — Gray は本番ソフトウェア(設計レビュー、品質保証、アルファテスト、ベータテスト、本番運用を経たもの)では「硬い」Bohrbug はすでに除去されており、残留バグの大多数は Heisenbug であると主張した。(software reliability) - [[Infrastructure as Code]] — 中心的な問題は semantic gap:構文的に正しく、コンパイルを通過した IaC プログラムであっても、クラウドレベルの規約に違反してデプロイ時に失敗しうる。(cloud / systems) - [[LLMスケーリング則]] — LLM スケーリング則（scaling laws）とは、大規模言語モデルの性能（汎化誤差）がモデルスケール $N$、データスケール $D$、計算予算 $C$ の増加に伴い冪乗則に従って予測可能に改善するという経験的法則。言語だけでなく画像・動画・マルチモーダル・数学的問題求解にも普遍的に成立し（Henighan et al. 2020）、最適モデルサイズの指数 $\beta \approx 0.7$ が全モダリティで共通。(machine-learning / scaling) - [[LLM分散学習]] — LLM分散学習は、数千億から兆規模の言語モデルを、数百から数万 GPU/AI アクセラレータ上で長時間訓練するためのシステム・運用・インフラの総体である。(machine-learning systems / distributed systems) - [[LLM学習モニタリング]] — 監視は 3 つの設計軸で整理できる: - 検知信号(何を見るか): ハートビート / 自己診断(MegaScale)、ホスト監視メトリクスの異常パターン(Minder)、ネットワークトラフィックのレート(Pulse...(machine-learning systems / distributed systems / networking) - [[LLM推論]] — - ハイブリッド圧縮アテンションが KV キャッシュ問題を構造的に解決し、100 万トークンコンテキスト推論を実用化した: KV キャッシュの肥大化は長コンテキスト推論の中心課題であるが、@2025__DeepSe...(LLM systems) - [[LSMツリー]] — メムテーブル→SSTable→コンパクションの書き込み最適化ストレージ構造。Bigtable 20 年史では外部コンパクションと CRDT changelog の基盤として進化。(storage systems / database internals) - [[Metastable Failure]] — SREGym では複合的な障害としてモデル化される: アプリケーション層のトリガ(例: トラフィックを増幅するリトライ設定の誤り、頻繁な GC を強いる実行時フラグ)と、システムを脆弱な状態へ追い込むインフラ制約(...(distributed systems / reliability) - [[Mixture-of-Experts]] — 分散訓練では Expert Parallelism(expert を worker 間に分散)として実現され、3 つの技術課題を持つ: - Sparse Activation: GShard(All-to-All...(machine-learning systems) - [[NetOps]] — NetOps が AIOps と異なる本質は安全性の閾値の高さにある。(networking / operations) - [[条件付き計算]] — 入力に応じて計算グラフの一部を有効/無効に切り替え、パラメータ数と計算コストを分離するパラダイム。[[Mixture-of-Experts]] を主要実現形式とし、分散環境ではディスパッチ通信が新たなコストとなる。(machine-learning) - [[負荷分散]] — MoE における特定エキスパートへのトークン集中を防ぐ技術群の総称。Shazeer 2017 の補助損失から DeepSeek-V3 のバイアス動的調整・MiniMax-M2 のシグモイドゲーティングまでの 4 方向の解法系譜を整理。(machine-learning systems) - [[RCA入力選別]] — RCA入力選別は、根本原因分析に渡すログ・メトリクス・トレース・アラート・incident report を、過不足なく絞り込む設計課題である。(SRE / AIOps) - [[RCA評価設計]] — RCA評価設計は、根本原因分析手法が本当に因果的な診断能力を持つかを測るため、障害データ、オラクル、指標、過程評価を設計する取り組みである。(SRE / AIOps) - [[RDMA]] — RDMA(Remote Direct Memory Access)は、リモートホストのメモリへ CPU を介さず NIC が直接読み書きする通信機構である。LLM/HPC だけでなく、[[Azure Storage]] のようなディスアグリゲートされたクラウドストレージでも CPU 予約削減と低レイテンシ化の基盤になる。(networking / HPC) - [[RDMAネットワーク監視]] — RDMA/RoCE ネットワークの性能異常を、能動プローブ、受動トラフィック、スイッチデータプレーン、ホスト/NIC タイムスタンプなどで検知・箇所特定する取り組み。[[RDMA Estats]] は NIC 実装バグの切り分けにも使われる。(networking / distributed systems) - [[MRC]] — MRC(Multipath RC)は RDMA の RC トランスポートを拡張し 1 キューペアが数百パスへパケットスプレーを行う新トランスポート。[[OpenAI]] が 10 万 GPU 超本番で実証。(networking / HPC) - [[SRv6]] — SRv6(Segment Routing over IPv6)はパケットに完全な経路情報を埋め込むソースルーティング技術。動的再計算不要・決定的転送・瞬時障害回避。(networking) - [[マルチプレーンClosトポロジ]] — 800G NIC を 8×100G 独立プレーンに分割しスイッチ 2 段で 131,000 GPU 超へ拡張するネットワークトポロジ設計。[[OpenAI]] が採用。(networking / HPC) - [[Scaling Telemetry Workloads]] — - 計装と分析の間に「中間処理層」を挟む設計パターンが SQL ベースで出現: @2024__IEEE CLOUD__Enabling Programmable Metric Flows の PMF は、計装層（P...(distributed systems / observability) - [[SRE]] — SRE（Site Reliability Engineering）は、ソフトウェアエンジニアリングの手法を運用の問題に適用するディシプリンである。(SRE / クラウド運用) - [[SRE AI Autonomy Levels]] — | Level | Monitor | Investigate | Mitigate | Actuate | Self-Direct | |-------|---------|-------------|-----...(SRE / AIOps / governance) - [[SRE Benchmark]] — SRE Benchmark(SRE / benchmark) - [[Transactional No-Regression]] — 「Transactional」はトランザクション的な試行(適用 → 観測 → 望ましくなければ巻き戻し)を、「No-Regression」は試行が現状の信頼性指標を後退させない不変条件を含意する。(agentic SRE / safety) - [[TSG自動化]] — - SOP フローは「TSG 自動化の RCA 特化版」——Microsoft 系 3 本との接点と差異: @2025__WWW__Flow-of-Action - SOP Enhanced LLM-Based M...(AIOps / SRE / incident management) - [[べき等性]] — べき等性(GPU systems / fault tolerance) - [[インシデント管理]] — - インシデント対応ループを「証拠 → 仮説 → 緩和 → 変更記録」の翻訳の連鎖として捉え、各継ぎ目にエージェントを置く: 本 wiki は ICSE 研究で本番インシデントのライフサイクル(検知→トリアージ→診...(AIOps / SRE / cloud operations) - [[インターネットスケールサービス設計]] — - Cassandra（@2010__SIGOPS_OSR__Cassandra - A Decentralized Structured Storage System）は、Dynamo と同じく「障害は常態」の前...(SRE / cloud operations / service design) - [[エラーバジェット]] — エラーバジェットとは、SLO で許容される障害量の上限を「予算」として扱い、開発チームと SRE が共有する信頼性管理の仕組みである。(SRE / クラウド運用) - [[エージェントネイティブ RL]] — LLM エージェントの長期ホライズン・マルチターン軌跡を前提として設計された RL 訓練インフラストラクチャおよびシステム設計の総称。(machine-learning systems / agents) - [[エージェント型コーディング]] — LLM をエージェントとして環境（コードベース + 隔離コンテナ）内に配置し、ツール呼び出し（ファイル読み書き・シェル実行・検索・ウェブ検索）を通じてリポジトリを自律的に探索・修正するソフトウェア工学の取り組み。(software-engineering / machine-learning) - [[エージェント型強化学習]] — LLM を方策(ポリシー)としてオンポリシーの RL で事後学習する取り組みの総称。(machine-learning / agents) - [[エージェント型時系列予測]] — 実装は 3 パラダイムに整理される: Workflow(事前定義 DAG/SOP による構造化実行。(machine-learning) - [[エージェント運用安全性]] — 中心の形式装置が保証契約(assurance contract)で、自律度の段 k ごとに Ck = (Tk, Rk, Gk, Uk, Bk)(許可ツール面・必須証拠・迂回不能ゲート・ロールアウトプロトコル・予算、...(agentic operations / safety) - [[オブザーバビリティ]] — 外部出力のみからシステムの内部状態を計測する能力。モニタリングの補完として未知の障害を探索するホワイトボックス視点。CNCF Whitepaper（2023）は従来の三本柱を 5 シグナル（メトリクス・ログ・トレース・プロファイル・ダンプ）へ拡張した。(distributed systems / SRE / observability) - [[オープンLLM開発]] — オープン LLM 開発とは、大規模言語モデルの訓練パイプライン全体——事前学習データ、中間チェックポイント、後訓練データ、コード、訓練ログ、評価フレームワーク——を公開し、任意段階での介入・カスタマイズ・再現を可能...(machine-learning / open-source) - [[オープンネットワーキング]] — - DCN 設計の「最後の一マイル」——スイッチ設定生成——は依然として産業の暗黙知だった: @2026__NSDI__Matryoshka - Realizing Hyperscale Data Center N...(networking / distributed systems / HPC) - [[クラウドスケールRPC特性]] — クラウドスケールRPC特性は、ハイパースケール環境で RPC が示す規模・構造・レイテンシ・CPU コスト・エラー率の横断的な性質をまとめる概念である。(distributed-systems / cloud) - [[クラウド管理モダリティ]] — モダリティはインフラライフサイクルの 3 段階——provisioning(リソース生成と相互接続)・updates(live 更新と再作成を伴う更新)・monitoring(実時間の状態/テレメトリ取得)——を横...(cloud / systems) - [[クリティカルパス分析]] — クリティカルパス分析は、分散トレース上でエンドツーエンドレイテンシを実際に支配する RPC/処理区間を特定し、ユーザー影響の大きい遅延やエラーを優先的に扱う手法である。(microservices / observability) - [[コードLLM]] — コード LLM（Code LLM）とは、ソースコードの生成・補完・理解・変換に特化して学習された大規模言語モデルの総称である。(software-engineering / machine-learning) - [[ゴシッププロトコル]] — ゴシッププロトコル（gossip protocol）は、分散システムにおいてノード間で情報を伝播させるための通信手法であり、各ノードがランダムに選んだ少数の相手と定期的に状態を交換することで、最終的にクラスタ全体に...(distributed systems / membership / failure detection) - [[サーバーレスアーキテクチャ]] — サーバーレスコンピューティング = FaaS + BaaS。CNCF 白書(2018)は外部・運用視点で「サーバー管理不要」を定義し、Yuuki Tsubouchi(2019)はマシンサーバー(BaaS が隠蔽)とネットワークサーバー(FaaS が隠蔽)という内部視点で補完。CaaS/PaaS との 3 択では制御粒度・課金粒度が決め手。(cloud computing / distributed systems) - [[サーバーレスワークフロー]] — 複数イベントと Function を n:m マッピングで結び、逐次・並列実行・条件分岐・連鎖で構成するオーケストレーションパターン。CNCF 白書(2018)が 5 パターン・6 状態を定義。AWS Step Functions 等のステートマシン型が代表実装。(cloud computing / distributed systems) - [[サービスレベル目標]] — サービスレベル目標（SLO）とは、サービスの信頼性・性能に関する定量的な目標値である。(cloud operations) - [[ストラグラー]] — ストラグラー(machine-learning systems / distributed systems) - [[ソフトウェア変更管理]] — ソフトウェア変更管理(Software Change Management)は、大規模オンラインシステムにおいてソフトウェア変更の展開から解決までのライフサイクルを管理する取り組みである。(AIOps / SRE) - [[ソフトウェア耐障害性]] — ソフトウェア耐障害性(systems reliability) - [[チェックポイント]] — チェックポイント(fault tolerance) - [[テスト時計算スケーリング]] — ソフトマックスアテンションの二次計算量は、テスト時計算の連続的な延伸を阻む根本的なボトルネックとなる。(machine-learning / reasoning) - [[テレメトリ]] — - 計装の最前線が「GPU/アクセラレータ層」と「LLM 推論演算子・集合通信オペレーション」へ降りる: 博士論文が計装を path/time-oriented データ収集として整理し、eBPF のゼロ計装(Age...(distributed systems / observability) - [[ディペンダビリティ]] — ディペンダビリティ(dependability)とは、「正当に信頼できるサービスを提供する能力」であり、可用性(availability)・信頼性(reliability)・安全性(safety)・完全性(inte...(systems reliability / security) - [[データベース O&M]] — データベースの異常診断・復旧・性能最適化・サービス運用標準化を扱う領域。AI 診断だけでなく運用対象の形を狭める標準化も含む。(Database / AIOps) - [[データベースノブチューニング]] — データベースノブチューニングは、DBMS が公開する多数の設定パラメータ(メモリ、スレッド、キャッシュ、I/O など)を対象ワークロードに合わせて最適化し、レイテンシ低下またはスループット向上を狙う取り組みである。(データベース / AIOps) - [[データベース自律診断]] — データベース自律診断は、スロークエリ、リソース枯渇、ハング、クラッシュ、演算子起因の性能異常などを自動的に分析し、根本原因と解決策候補を特定する取り組みである。(データベース / AIOps) - [[トイル]] — トイルとは、手動的・反復的・自動化可能・戦術的・持続的価値がなく・サービス成長に比例して増大する運用作業の総称である。(SRE / 運用管理) - [[トレースサンプリング]] — トレースサンプリング(distributed systems / observability) - [[ドメイン別RCA]] — ドメイン別RCAは、根本原因分析を汎用 AIOps の単一手法として扱わず、対象システムの構造・信号源・介入可能性に応じて分ける考え方である。(SRE / AIOps) - [[ネットワークシミュレーション]] — ネットワークシミュレーションは、実際のネットワークインフラを構築・変更することなく、トポロジ・プロトコル・ワークロード設計の性能評価を行う手法の総体。(network systems / distributed systems) - [[ネットワーク依存性発見]] — 分散アプリケーションのサービス間依存関係を実行時通信や能動実験から自動発見する手法群。Sherlock・Orion・NSDMiner・Rippler から eBPF ソケット観測までを統合する。(networking / distributed systems / observability) - [[ハードウェアカウンタ]] — ハードウェアカウンタ(performance analysis) - [[ビジョン言語モデル]] — ビジョン言語モデル(Vision-Language Model; VLM)は、LLM の言語理解・生成能力を視覚情報の処理に拡張したマルチモーダルモデルである。(machine-learning) - [[プラットフォームエンジニアリング]] — プラットフォームエンジニアリングは、開発者が安全・効率的にプロダクトを構築・デプロイ・運用できる内部セルフサービス基盤(IDP)を構築・運用するディシプリンである。(SRE / クラウド運用) - [[プロセスペア]] — 1. ロックステップ: 主とバックアップが同一命令列を同期実行する。(fault-tolerant systems) - [[マイクロサービスアーキテクチャ]] — マイクロサービスアーキテクチャ(Microservice Architecture / MSA)は、モノリシックアプリケーションを小さなソフトウェアサービスに分解し、明確に定義された API(エンドポイント)を通じ...(distributed systems / software architecture) - [[マイクロサービスコールグラフ]] — マイクロサービスコールグラフとは、ユーザーリクエスト 1 件を起点として発生するマイクロサービス間のすべての呼び出しを有向グラフで表したものである。(distributed systems / microservices) - [[マルチトークン予測]] — マルチトークン予測（Multi-Token Prediction, MTP）は、標準的な次トークン予測に加えて複数の未来トークンを同時に予測する訓練目的関数である。(machine-learning) - [[マルチモーダル障害診断]] — マルチモーダル障害診断(Multimodal Failure Diagnosis)は、マイクロサービスベースのシステムにおいて、ログ・メトリクス・トレースの 3 種類の監視データを統合して障害の根本原因箇所特定(R...(AIOps / Microservices) - [[モデル圧縮]] — 圧縮の動機は明確である——LLaMA-2 70B は FP16 で約 140 GB の GPU メモリを要し、単一 GPU でのデプロイが不可能になる。(LLM efficiency) - [[継続的プロファイリング]] — 本番システムで継続的にパフォーマンスデータを収集し、「なぜ遅いか」をコードレベルまで特定するオブザーバビリティシグナル。CPU/Heap/GPU/Mutex/IO プロファイラとサンプリングプロファイラ（低オーバーヘッド本番投入可能）で構成。アイシクルグラフで可視化。DODO が LLM コード最適化ベンチマーク基盤としても活用。(observability / performance) - [[本番接地型ベンチマーク]] — AI エージェント評価・最適化のベンチマークを合成的に設計せず本番テレメトリから生成する設計原則。[[DODO]] が CPU プロファイル+実関数呼び出しで実装し、合成ベンチマークでは不可視の最適化機会を可視化。(benchmarking / software-engineering / aiops) - [[ログパース]] — - ログ署名（コード位置）による事前クラスタリングが従来パーサの精度と速度を同時に上回る: @2023__ICSE__LogReducer - Identify and Reduce Log Hotspots in...(AIOps / log analysis) - [[ログ生成]] — ログ生成(software engineering / observability) - [[ログ解析]] — 研究領域としてのログ解析は、単一タスクでなくエンドツーエンドのパイプライン全体として捉えるのが現在の到達点である。(AIOps / log analysis) - [[ワークフロー自動化]] — ワークフロー自動化は、人間が手順書・Runbook・TSG・運用プロセスとして実行していた複数ステップの作業を、機械が状態を見ながら実行・分岐・検証する取り組みである。(AIOps / SRE) - [[一貫性ハッシュ法]] — 一貫性ハッシュ法（consistent hashing）は、ハッシュ関数の出力空間を固定の環状空間（リング）として扱い、データ項目とノードをリング上の位置に配置するパーティショニング手法である。(distributed-systems) - [[並列ファイルシステム]] — 並列ファイルシステムとは、ネットワーク経由で接続された複数のサーバ・ストレージデバイスにファイルデータをストライピング(分散配置)し、並列 I/O によってアグリゲートスループットを最大化する分散ファイルシステムである。(distributed systems / HPC storage) - [[並列化戦略]] — 主要な並列化次元(Hybrid の構成要素): - Data Parallelism: 入力 batch を分割し各デバイスがモデル複製で処理、勾配を集団通信で集約。(machine-learning systems / distributed systems) - [[仮説駆動RCA]] — 仮説駆動RCAは、障害症状から複数の原因仮説を立て、限定された証拠で検証・棄却・再定式化しながら根本原因へ近づく RCA の調査スタイルである。(SRE / AIOps) - [[分散ストレージ]] — 複数サーバにまたがるデータ格納・管理システム。Bigtable 20 年史は中核モデル維持とサービス運用化を、[[Azure Storage]] の RDMA 展開はネットワーク/トランスポートがストレージ性能とコスト構造を支配することを示す。(distributed-systems) - [[分散トレーシング]] — - 「サンプリングで量を減らす」と「圧縮でサイズを減らす」は直交する 2 軸: 既存の横断的知見は、ヘッド/テールサンプリング(Hindsight・TraStrainer・Astraea)がトレースの本数や計装点を...(distributed systems / observability) - [[変化点検知]] — 変化点検知(time-series / AIOps) - [[多変量時系列予測]] — 多変量時系列予測(machine-learning) - [[専用データベースシステム]] — 専用データベースシステム（specialized database systems）とは、特定のワークロード特性に合わせてストレージ構造・クエリ処理・トランザクションモデル・可用性機構を最適化したデータベースエンジ...(database systems) - [[差分プライバシー]] — 差分プライバシー(Differential Privacy, DP)は、データ解析アルゴリズムの出力から個々のレコードが存在したかどうかを確率的に推定困難にする情報理論的プライバシー保証の枠組みだ。(privacy / machine learning / data systems) - [[強化ファインチューニング]] — 中心アルゴリズムには DPO(報酬モデル + PPO のパイプラインを選好ベース目的の直接最適化で簡素化)、PPO(連続行動空間での安定性で広く使われる)、GRPO(PPO をグループベースの方策更新へ拡張)がある。(machine-learning / aiops) - [[強化学習スケーリング]] — - RL のスケーリングにはベースモデルの規模閾値が存在し、小規模モデルでは純粋 RL の効果が現れない: @2025__arXiv__DeepSeek-R1 - Incentivizing Reasoning C...(machine-learning / scaling-laws) - [[性能可搬性]] — 性能可搬性(HPC / machine-learning systems) - [[時系列データベース]] — 時系列データベース(distributed systems / time-series) - [[時系列基盤モデル]] — @2025__arXiv__Foundation Models for Time Series - A Survey はより一般的に、TSFM を NLP の基盤モデル(LLAMA・BERT・GPT)のパラダイムを...(machine-learning) - [[時系列トークナイゼーション]] — 連続値の時系列観測をトークン列に変換し言語モデルで扱えるようにする手法の総称。スケーリング+均一量子化(Chronos)・桁列テキスト化(LLMTime)・自然言語テンプレート(PromptCast)・パッチ埋め込み(TimesFM/Toto)の 4 方式を比較。LLM 重みの転移効果が限定的という知見を含む。(machine-learning / time-series) - [[時系列質問応答]] — ARFBench は TSQA を多肢選択の単一クラス分類問題に落とし込む設計を取る。(machine-learning / time-series) - [[暗黙のコンテキスト伝搬]] — 暗黙のコンテキスト伝搬(implicit context propagation)とは、分散トレーシングにおいてトレース ID・スパン ID などの識別子をパケットのヘッダやペイロードに明示的に挿入することなく、ネ...(distributed systems / observability) - [[根本原因分析]] — 根本原因分析(Root Cause Analysis, RCA)は、障害の症状から、影響するシステム層・障害種別・因果連鎖を絞り込み、人間またはエージェントが次の緩和判断に使える説明を得る取り組みである。(SRE / AIOps) - [[特徴量削減]] — 特徴量削減(AIOps / time-series) - [[異常検知]] — LLM 時代の異常検知手法は、サーベイの整理では 3 方向に分かれる(§4.1):(1) モデルの汎化向上(時系列・ログの基盤モデルの開発/fine-tuning)、(2) 大モデルで小モデルを強化(LLM がログ...(AIOps / time-series) - [[結果整合性]] — 結果整合性（eventual consistency）は、分散データストアにおいて、すべての更新が最終的にすべてのレプリカに到達することを保証する整合性モデルである。(distributed-systems) - [[耐障害LLM訓練]] — 耐障害LLM訓練(machine-learning systems / distributed systems) - [[自動化のアイロニー]] — Bainbridge（1983）の6アイロニー（技能劣化・残余タスク・速度‐正確性トレードオフ・状態隠蔽・不明瞭な失敗・監視のアイロニー）。SREcon26でReedがAI時代への拡張を提示。(ヒューマンファクター / 自動化設計 / 認知工学) - [[設定マイニング]] — Zodiac はこの系譜をIaCへ拡張する。(program analysis / configuration) - [[近似クエリ処理]] — 時系列モニタリングでは、スライディングウィンドウに対する集約(quantile・count・distinct・entropy・L2 norm・TopK)を近似する。(databases / time-series / streaming analytics) - [[運用障害分析]] — 運用障害分析（operational failure study / failure data analysis）は、本番システムの障害事後報告や障害追跡データベースを体系的に収集・分類し、障害原因の分布・修復時間...(SRE / dependability / systems) - [[限定観測可能性]] — 限定観測可能性 (Limited Observability) とは、根本原因分析 (RCA) の文脈において、根本原因候補 (Root Cause Candidates, RCC) の一部またはすべてを直接監視で...(SRE / AIOps) - [[障害予測]] — 障害予測(AIOps / cloud operations) - [[障害注入]] — - 障害注入の有効性を「実障害データとの突き合わせ」で評価した最初の実証が 2003 年に存在する: @2003__USITS__Why Do Internet Services Fail and What Can...(SRE / AIOps) - [[障害緩和]] — @2025__CSUR__A Survey of AIOps in the Era of Large Language Models は緩和(assisted remediation)を自動化レベル昇順の 5 段に...(SRE / AIOps) - [[Webロードバランシング]] — ウェブリクエストを複数のサーバーに分散する機構。OSI 層(L2/L3/L7)と応答返路(一方向/双方向)の 2 軸で分類。コンテンツ非依存(DR・NAT)とコンテンツ依存(TCP Hand-off・TCP Splicing・Socket Cloning 等)の 2 系統。局所性考慮/非局所性考慮/QoS 考慮の 26 分散方針を体系化。(distributed systems / web-systems) - [[集合通信]] — - AllToAllv スケジューリングは NP 困難問題から多項式時間問題に「問題の単純化」で帰着できる: TACCL・TE-CCL・SyCCL が AllToAllv を NP 困難な制約充足問題として定式化し...(distributed systems / GPU clusters) - [[非致命的RPCエラー]] — 非致命的 RPC エラー(non-fatal RPC error)とは、マイクロサービスアーキテクチャにおいて、内部 RPC が失敗コードを返しても上位リクエストが成功する場合のエラー。(distributed systems / microservices / performance) - [[Transformer]] — Transformer は、再帰および畳み込みを排し自己アテンションのみに基づく系列変換モデルアーキテクチャである。GPT シリーズを通じて LLM の基盤アーキテクチャとなった。(machine-learning) - [[言語モデル事前学習]] — 大規模ラベルなしテキストで言語モデリング目的関数により汎用表現を学習し、個別タスクに転移する二段階パラダイム。GPT-1 が確立し GPT-2/3 でゼロショット/文脈内学習へ発展。(machine-learning) - [[文脈内学習]] — 言語モデルが推論時にプロンプト中の少数例示からパラメータ更新なしにタスクを遂行する能力。GPT-3 が 175B 規模で大規模に実証。(machine-learning) - [[エージェントシステム運用]] — LLM エージェントシステム自体の信頼性・安全性・制御可能性を維持する運用技術の体系(AgentOps)。モニタリング/異常検知/根本原因局所化/解決の 4 段階。(agent operations / AIOps) - [[AI Greenferencing]] — 再生可能エネルギーの発電源（風力発電所等）にモジュラー型 AI コンピュートを配置し、電力網を迂回して AI 需要を発電源で消費する展開モデル。[[Microsoft]] が提唱。(AI infrastructure / sustainable computing) - [[GPU最適化]] — GPU プログラムから性能を最大限に引き出すソフトウェアレベルの手法・技術群。4 テーマ（メモリアクセス・不規則性・バランシング・ホストインタラクション）・28 技術に分類。採用頻度トップ 4 はコアレスドアクセス・専用メモリ・分岐発散削減・auto-tuning。(hpc / gpu) - [[コアレスドメモリアクセス]] — GPU の 1 warp(32 スレッド)のグローバルメモリアクセスを整列条件下で 1 回のトランザクションにまとめる技術。GPU 最適化の中で最も採用頻度が高く、450 本中最多の論文が言及。(hpc / gpu) - [[カーネルフュージョン]] — 複数の独立した GPU カーネルを単一カーネルに統合し、グローバルメモリへの中間書き出しを排除する最適化技術。Flash Attention の核心技術。(hpc / gpu / llm-inference) - [[分岐発散]] — GPU の SIMT アーキテクチャにおいて warp 内のスレッドが条件分岐で異なる実行パスを取る現象。両パスがシリアルに実行されるため性能が低下する。採用頻度 3 位の最適化対象。(hpc / gpu) - [[Auto-tuning]] — GPU カーネルのスレッドブロックサイズ・タイルサイズ等の設定パラメータの最適値を自動探索するプロセス。全論文の 1/8 超が採用。性能可搬性の実現にも不可欠。(hpc / gpu / performance) - [[Chain-of-Thought Prompting]] — LLM のプロンプト例示に最終答えだけでなく中間推論ステップの系列（連鎖思考）を含める手法。追加学習不要で約 100B パラメータ以上のモデルにのみ有効な創発的能力。Wei et al. NeurIPS 2022 が提案。(machine-learning / llm / prompting) - [[変更起因インシデント]] — ソフトウェア・構成・データ・インフラへの変更が直接の引き金となって発生するインシデント。「導入→検知→緩和」の 3 段ライフサイクル。コード変更が最多(54-55%)、RbIC は RaIC より TTM を 40.6% 短縮。4 課題: 不足した監視指標・不正確な変更監視・低ビジネストラフィック・非効率な異常変更箇所特定。(AIOps / SRE / change management) - [[クラウドモニタリング]] — クラウドサービスの稼働状態・性能・健全性を自動化ウォッチドッグで継続観察しインシデントを先手で検知・報告する運用実践の総体。Ganatra et al. 2023 はミス検知 6 カテゴリタクソノミを構築し、40.41% が「必要なモニタ/アラートが存在しない（Missing monitor/alert）」に起因することを実証。Srinivas+ 2024(メトリクス選定)と Hussain+ FSE 2026(ディメンション部分集合推薦 DiRecGNN)で、モニタ設計の階層が「リソースクラス→メトリクス→ディメンション部分集合」へ細分化された。(AIOps / SRE / cloud operations) - [[アラート管理]] — モニタリングシステムが生成する raw alert を correlation・storm handling・determination の 3 プロセスで整理する [[インシデント管理]] の上流工程。Runbook と通知チャンネル選択による「発火前の社会的設計」も上流統制として接続。(AIOps / ITSM) - [[インシデントTTM予測]] — オンラインサービスのインシデント緩和完了までの所要時間(TTM: Time To Mitigation)を複数時点で予測する ML タスク。Wang+ ISSRE2021 が T3(最終担当チーム後の緩和フェーズ)が TTM の平均 70% を占めることを初めて定量化し、2 段階 biGRU+アテンションの TTMPred を提案。(AIOps / incident management) - [[分散メッセージブローカ]] — ソフトウェアアーキテクチャの段を非同期 publish-subscribe で疎結合させる中間層。Kafka(スループット最大化)と AMQP(信頼性・レイテンシ最大化)が起源(LinkedIn のログ処理 vs 金融取引処理)に由来する対照的な設計選択を示す。(distributed systems / messaging) - [[プロアクティブ障害管理]] — 障害発生前にその予兆を捉え対策を事前に打つ運用枠組み。Salfner+ 2010 が「予測 → 診断 → アクションスケジューリング → 実行」の 4 段階を Figure 2 で定式化し、本論文を含むサーベイ群は最初の予測段に集中する。Notaro+ 2021 が定量化した「remediation 2.5%」の薄さが残り 3 段階のボトルネックを示す。(dependability / AIOps) - [[ソフトウェアエイジング]] — 長時間稼働ソフトウェアで内部状態の累積(メモリリーク・FD 枯渇・GC 不全等)が時間とともに symptom として現れる現象。Parnas 1994 が概念化し、Salfner+ 2010 §5.2 では symptom monitoring 系手法の主要応用領域。対策は software rejuvenation(IBM xSeries の rejuvenation agent が代表)。(dependability / software engineering) - [[クラウド障害ライフサイクル]] — クラウドサービスの障害が検知されてから回復するまでを TTD(Time To Detect)・TTI(Time To Identify)・TTM(Time To Mitigate)・TTR(Time To Resolve)の 4 段で定量化する枠組み。Li+ ISSRE 2022 が三大クラウド 354 件を分析し MTTM=304.2 分・TTM が TTR の 53% を支配することを実証。(cloud-reliability / SRE / dependability) - [[時系列推論]] — 生の時系列入力に対して多段階の中間思考を経て予測・分類・因果発見・意思決定の解を導く LLM ベースのパラダイム。チェーン・オブ・ソート・自己反省・ツール呼び出し・強化学習で精錬された推論方略を介在させる。TimeReasoner / AlphaCast / TimeOmni-1 / Chow+ ほかで具体化(machine-learning / llm / time-series / reasoning) - [[検証可能報酬による強化学習]] — LLM の出力に対して客観的に検証可能な離散・連続報酬(完全一致・IoU・MAE・フォーマット準拠)を与えて後訓練する枠組み(RLVR)。DeepSeek-R1 で広く知られ、コード・数学・視覚推論・映像理解・時系列推論へ適用範囲が急速に拡大。GRPO が代表アルゴリズム(rl / llm / post-training) - [[時間的映像グラウンディング]] — 自然言語クエリ q と映像 V を入力として、クエリが指す映像区間 [ts, te] を予測するタスク(TVG)。長尺映像理解の中核。特徴量ベース → SFT-LVLM → RLVR-LVLM(Time-R1)の三世代の手法論(video-understanding / llm / multimodal) - [[グレイ障害]] — コンポーネントが完全停止せず徐々に性能が劣化する故障様式(gray failure / fail-slow / fail-stutter / limpware / partial failure)。Huang+ 2017 の定式化を AI クラウド文脈(冗長による劣化漸減・ワークロード依存・部分修復)へ拡張(reliability / aiops / gpu) - [[プロアクティブ検証]] — インシデント発生前にベンチマーク群で能動的にハードウェア・ソフトウェアを stress テストし潜在的劣化を顕在化させる運用方式。SuperBench が AI インフラ向けに体系化(reliability / aiops / gpu) - [[アテンションヘッド]] — Transformer の各層に存在する自己注意ユニット。機能的に 7 種（文法ヘッド・注意の受け皿・逐次・検索・帰納・関数ベクトル・反復）に分化し、次トークン予測精度最大化の結果として自然に出現する。(machine-learning / llm / interpretability) - [[帰納ヘッド]] — `[A][B]...[A]→[B]` パターンで文脈内学習を実現する注意ヘッド。二層構造（前置きヘッド＋本体）で実現。LLM の in-context learning の主要機構とされる（Olsson+ 2022）。(machine-learning / llm / interpretability) - [[機構的解釈性]] — モデル内部の回路・アルゴリズムを特定し「なぜその出力が生成されるか」を解明する研究分野（mechanistic interpretability）。注意ヘッド分析・アブレーション・プロービングが主要ツール。(machine-learning / llm / interpretability) - [[関数ベクトル]] — LLM が文脈内学習タスクを表すために構築するベクトル。few-shot 例の最終トークン内部状態の平均として抽出でき、ゼロショットでも MLP 入力へ加算すれば同タスクを実行できる（Todd+ ICLR 2024）。(machine-learning / llm / interpretability) - [[反復ヘッド]] — 反復計算で現在の処理位置を追跡する注意ヘッド。CoT のテープ機構に相当し、漸化式計算・位置追跡を実現する（Cabannes+ NeurIPS 2024）。(machine-learning / llm / interpretability / chain-of-thought) - [[DORA]] — DevOps Research and Assessment の 4 メトリクス(デプロイ頻度・変更リードタイム・変更失敗率・MTTR)。SRE チーム自身のオペレーション能力計測にも適用できる(sre / devops / metrics) - [[SPACE]] — Satisfaction・Performance・Activity・Communication・Efficiency の 5 次元で開発者体験を計測するフレームワーク。SRE のオンコール負荷・ツール満足度・トイル率等を含む(sre / developer-experience / metrics) - [[MTWTF]] — Mean Time to WTF。アラートから「状況を理解した」までの時間。MTTR の先行指標として AI 時代の運用上の脆弱性を示す(sre / incident-management / developer-experience) - [[agentic SRE]] — 本番システムの障害調査・診断・緩和を AI エージェントが実行する取り組み。[[Storax]](Databricks)の事例追加、ユーザー共感先行論・承認ゲート設計の横断的知見を更新(sre / aiops / database) - [[データベース O&M]] — データベースシステムの異常検知・診断・RCA・復旧・性能最適化を扱う運用保守領域。Storax 産業実装事例(ツール集中化先行・Temporal承認ゲート)を追加(database / aiops) - [[データベース自律診断]] — DB 異常を自動分析して根本原因と解決策を特定する取り組み。産業実装では診断止まりで承認付き実行とセットという知見を追加(database / aiops) - [[Quality of Alerts]] — Yang+ DSN2022 が提案する自動評価枠組み。indicativeness・precision・handleability の 3 軸でアラート有用性を自動評価する。アンチパターン自動検知の基盤(aiops / alert-management) - [[アラートアンチパターン]] — Yang+ DSN2022 が Huawei Cloud で実証した 4 個別 + 2 集合のアラート非有効パターン。Repeating Alerts を初めて文書化(aiops / alert-management) - [[アラート集約]] — アラートストームを同一根本原因クラスタにまとめる技術。意味類似度・統計・ハイブリッドの 3 系統対立は頻度分布と semantic dispersion の交差で決まる(aiops / alert-management) - [[COLA]] — Kuang+ ICSE-SEIP2024 のハイブリッド型オンラインアラート集約。相関マイニング(temporal+spatial) + LLM 推論(CoT + ICL + P-tuning v2)、Cloud X 本番 4 ヶ月運用、F1 0.901-0.930(aiops / alert-aggregation) - [[KIMetrix]] — Singal+ arXiv2025 のマイクロサービス向けメトリクス選定。エントロピー + 相互情報量 + AIMD + topology-aware、DeathStarBench CPU で C=99.44%(aiops / observability) - [[情報量基準メトリクス選定]] — SRE がアラート定義の前段で「どのメトリクスを監視するか」を自動決定する問題。Informative Metric Subset Problem として形式化された NP 完全問題(aiops / observability) - [[AirAlert]] — Chen+ WWW2019 が Microsoft で実証したアウテージ予測・診断システム。Bayesian network(FCI) + XGBoost + SMOTE のハイブリッド。サービスレベル outage で F1 53-88%(aiops / outage-prediction) - [[アラートストーム]] — サービス障害トリガで短時間に集中発火する数百〜数千件のアラート現象。Zhao+ 2020 が初実証研究、Chen+ ASE2023 が伝播現象として再定義、Yuan+ ISSRE2024 が HPC の連続的アラート過負荷と区別(aiops / alert-management) - [[アラート抑制]] — 生成されたアラートを発火前にノイズと判定して除外する機構。X-out-of-Y ポリシーの動的学習(Bhukar+ 2024)とクリック行動ベース弱教師フィルタ(Voutsas+ 2023)が代表(aiops / alert-management) - [[アクショナブルアラート]] — 「影響が大きく行動を動機づける」かつ「解釈可能で次のアクションを誘導できる」異常通知。TraceArk の発火後解釈可能性に加え、Runbook と追加ガイドラインで発火前に受け手・行動・背景を合意する経路がある(aiops / alert-management) - [[VPCネットワーク可用性]](新規) — クラウドデータセンターの VPC における物理ネットワーク障害の検知・迂回・回復能力。Harp(NSDI 2026)の決定論的パス制御+インバンド検知でサブ秒回復を実現。(networking / cloud / reliability) - [[アラートランキング]](新規) — 多数発火するアラートを「真陽性確率」「重要度」「アクショナビリティ」等の基準で順序付けて OCE に呈示する技術。教師なし invariant(Jiang+ 2009)・教師なし統一最適化 CAR(CIKM2018)・教師あり AlertRank(ISSRE2020)の 3 系統が対照的進化。TraceArk が severity から actionability へ目的関数を拡張。(aiops / alert-management / ranking) - [[時系列マルチモーダルLLM]](新規) — 時系列を画像同等のネイティブな多変量モダリティとして扱う TS-MLLM。ChatTS(Xie+ VLDB 2025)が text-based/vision-based/agent-based の 3 既存路線に加えて初実装を示した第 4 路線。(llm / time-series / multimodal / aiops) - [[Interactive AIOps]] — オペレータと AI が対話的に対象システムの特徴を協働学習するコンセプト。実験可能性(異常を作り AI に教える)と解釈性(AI から根拠を受け取る)を基本型とする。(AIOps / SRE / human-AI collaboration) - [[セルフクラフト]] — 万人が AI との対話を通じて自らに最適化されたアプリケーションを製作する 2040 年代の未来像。信頼性・コスト・変更速度の均衡点を利用者と AI が対話的・体験的に調整する。(AI application development / SRE) - [[Rail-Optimizedトポロジ]](新規) — GPU N 番と Leaf N 番(Rail)の対応を固定した GPU インターコネクト設計。NCCL の AllReduce リングを Leaf 内に閉じ込めて Spine 越えトラフィックを最小化する。異種サーバー混在時の配線ズレが性能障害の原因になることが実運用で判明。(networking / gpu-cluster / interconnect) - [[マルチベンダーLosslessネットワーク]](新規) — 異なる ASIC ベンダーのスイッチ混在環境で RDMA/RoCEv2 の Lossless 通信を実現すること。AR/DLB の単純 on/off では輻輳制御が破綻し、Ingress interface hashing + DLB の組み合わせが実用解。(networking / rdma / datacenter) - [[密度ベースクラスタリング]](新規) — 密度閾値に基づき任意形状のクラスタを発見する手法群。DBSCAN(Ester+ 1996)の核点・密度到達可能性・密度接続の定義から HDBSCAN(Campello+ 2013)の階層化・安定性最適化まで。2 ソースの横断的知見を蓄積中。(clustering / data-mining) - [[クラスタ安定性]](新規) — Hartigan モデルに基づく密度等高線クラスタの安定性概念。超過質量(excess of mass)と相対超過質量による定量化。HDBSCAN が最適フラット分割抽出に活用。(clustering / density-based) - [[時系列クラスタリング]](新規) — 時系列データの教師なしグルーピング。距離尺度(ED/DTW/SBD)とアルゴリズム(分割型/階層型/スペクトル型)の選択が精度に大きく影響。k-Shape(Paparrizos+ 2015)が SBD＋Rayleigh 商セントロイドでスケーラブルかつ最高精度を達成。(clustering / time-series / data-mining) - [[ヨーロッパのAI主権]] — EU が米中 AI 依存から自律しようとする政策目標。デジタル主権規制が逆に脆弱性を加速するという逆説が中心(AI政策 / 地政学 / ガバナンス) - [[コンピュート格差]] — AI 開発における地域間コンピュート資源の不均衡。米欧比 12.4→15.7 倍の拡大を定量化(AI政策 / 地政学 / コンピュート) - [[マルチエージェント協調]](新規) — 複数LLMの協調アーキテクチャ総称。手設計スキャフォールド・学習型ルーター・RL型コーディネーターの3類型。Conductorが自然言語による任意戦略生成で類型を追加。(multi-agent / llm / reinforcement-learning) - [[診断的正当化]](新規) — RCA における証拠・競合仮説・矛盾・終端状態を明示的プロセス状態として維持・エクスポートする枠組み。JustDiag が提案。校正された非閉包(stalled 状態)が設計上の中心要素。(aiops / rca / accountability) - [[LLMによる根本原因分析]](更新) — mABC の知見を追記。マルチエージェント分担が LLM 単独より大きく精度向上、blockchain 投票は解決策品質に寄与。(aiops / rca / llm / multi-agent) - [[マルチエージェント協調]](更新) — mABC の固定スキャフォールド型 vs Conductor の RL 型の対比を追記。ドメイン特化役割分担設計がモデル規模差を補完・凌駕する事実を追加。(multi-agent / llm / aiops) - [[オンコール自動化]](新規) — OCE が担うインシデント対応・チケットトリアージを LLM+マルチエージェントで自動化する領域。OncallX(ASE 2025)が ByteDance 本番で 789 倍高速化を実証。(aiops / on-call / llm / multi-agent) - [[マルチエージェント協調]](更新) — OncallX の木探索プランナー+専門エージェント設計が ReAct を超えた事例を追加。コンテキスト長増大が協調のスケーリング限界として再確認。 - [[LLMによる根本原因分析]](更新) — OncallX の事例から「入力品質が LLM 推論の律速因子」という知見がオンコール対応にも一般化することを追記。 - [[インシデント管理]](更新) — OncallX への参照を追加。 - [[認知的徒弟制]](新規) — 実世界の文脈で暗黙の認知スキルを専門家から初学者へ伝達する教育哲学。6 段階（Modeling→Coaching→Scaffolding→Articulation→Reflection→Exploration）で初学者が専門家に移行。Cruz SREcon23 が Alert Triage Hour of Power を通じた SRE 適用を報告。(sre / learning / on-call / cognitive-apprenticeship) - [[アラートポリューション]](新規) — アラートの過剰追加が信号対雑音比を低下させ重要信号の識別を困難にする状態。光害(light pollution)のアナロジー。Smith SREcon22 が定義。(sre / alert-management / observability) - [[アラート管理]](更新) — 「モニタリング増設=安全」の心理的結合がアラートポリューションの根本原因であるという知見を追加。 - [[サービスレベル目標]](更新) — SLO 導入における非技術ステークホルダーの「暗順応期間」の必要性を追加。 - [[オブザーバビリティ]](更新) — モニタリングからオブザーバビリティへの移行コストが過大評価されていた事例を追加。 - [[ビジネスモニタリング]] — ビジネス KPI（トランザクション数・成功率・応答時間等）を一次的なモニタリングシグナルとして扱い、障害の顧客影響を定量的に把握する手法(concept / monitoring / sre) - [[アラート管理]](更新) — Alibaba の CMDB ベース優先度定義を横断的知見に追加。 #### VCCL (arXiv 2026) (2026-06-26) - [[集合通信]](更新) — VCCL の SM-free P2P と CCL 内蔵 O(μs) RDMA モニタの知見を横断的知見に追記。NCCLX との SM 削減アプローチ対比、Mycroft/Pulse との「内側/外側から可視化」対比を追加。(distributed / gpu-training) - [[耐障害LLM訓練]](更新) — VCCL プライマリバックアップ QP が示す「CCL 層での NIC 障害完全透過的吸収」を横断的知見に追記。ジョブ再起動不要での GPU 待機時間 90% 削減、耐障害の第四の系統として位置づけ。(distributed / fault-tolerance) - [[RDMAネットワーク監視]](更新) — VCCL スライディングウィンドウ型 RDMA モニタが「CCL 自己計装」という外部計装不要の四番目の軸を開くことを横断的知見に追記。WR/WC タイムスタンプ集積・双閾値検知・対処まで CCL 内完結。(networking / rdma) #### 工学としてのSRE再訪 (SRE NEXT 2024) (2026-06-26) - [[SREの工学化]] — システム管理を「技芸(craft)」から「工学(engineering)」へ昇華させる営みの総体。歴史的経緯・オープンチャレンジ・SREcon 学術接続を三軸で整理(concept / sre / engineering) - [[自動化の皮肉]](更新) — Strauch 2018 と SREcon19 Asia の「第二の皮肉」を横断的知見に追加。 - [[サイバネティクス]](更新) — ウィーナー界面（制御可能/不可能の境界）を追加。 #### SREはサイバネティクスの夢をみるか (IOTS2025) (2026-06-26) - [[自動化の皮肉]] — Bainbridge (1983) のジレンマ。高度な自動化が人間の能力低下を招く。SRE/AI 運用の文脈で再解釈(concept / sre / automation) - [[なめらかなシステム]] — 利用者・情報システム・開発運用者の総体としてのシステム構想。DICOMO2018 提唱、AI エージェントネットワークへ発展(concept / sre / systems-thinking) - [[サイバネティクス]](更新) — IOTS2025 の SRE ×サイバネティクス的再解釈を横断的知見に追加。 - [[セルフクラフト]](更新) — IOTS2025 での AI エージェント時代の再提示を追加。 - [[テレメトリ]](更新) — テレメトリスケーリング 3 貢献の俯瞰的位置づけを追加。 - [[特徴量削減]](更新) — MetricSifter の俯瞰的文脈づけを追加。 - [[サービスレベル目標]](更新) — IoT/モビリティ SLI・なめらかなシステムの SLO 自動調整を追加。 #### Symptom-based Alerting for ML (SREcon23 EMEA) (2026-06-25) - [[MLモデル監視]] — ML サービスの品質・挙動・入出力データを継続的に計測し劣化やサイレント障害を検知する取り組み。Weichbrodt の 3 段階優先順位フレームワーク(concept / ml-monitoring / sre) - [[アラート管理]](更新) — 症状ベースアラーティングの ML ドメイン転用を横断的知見に追加。 - [[アクショナブルアラート]](更新) — ML サイレント障害と出力品質メトリクスによるアクショナブル化を追加。 - [[アラート疲労]](更新) — MLOps ツールの入力分布アラートが疲労を再現する事例を追加。 #### デバッギング・性能解析・フィードバック 6 論文 (2026-06-26) - [[デルタデバッギング]] — Zeller (2002) の ddmin/dd アルゴリズムによる障害誘発入力の自動簡略化・分離。自動デバッギングの基礎(concept / debugging / testing) - [[階層的デルタデバッギング]] — Misherghi & Su (2006) の HDD。木構造入力に対してレベルごとに ddmin を適用し効率を桁違いに向上(concept / debugging / testing) - [[障害スケッチング]] — Kasikci (2015) の Gist。本番障害の協調解析で failure sketch（近似ルートコーズ）を自動生成。HW ウォッチポイント活用(concept / debugging / root-cause-analysis) - [[フィードバック駆動開発]] — Cito (2015) の FDD ビジョン。ランタイムメトリクスを開発者の IDE に統合しパフォーマンス意識ギャップを埋める(concept / software-engineering / devops) - [[分散実行最小化]] — Scott (2016) の DEMi。デルタデバッギングを分散システム実行に拡張し、外部/内部イベント区別 + スケジュール探索で最小化(concept / distributed-systems / debugging) #### AIOps RCA/FI/OpsQA 7 papers batch ingest (2026-06-27) - [[障害注入]] — ソフトウェア・ハードウェアの障害を意図的に注入して耐性を検証する技法(concept / aiops / testing) - [[運用障害分析]] — 運用中に発生した障害の系統的分析手法(concept / aiops / fault-analysis) - [[介入的因果学習]] — 観測データに加え介入データを用いて因果関係を学習する手法(concept / aiops / causal-learning) - [[障害耐性劣化変更検知]] — マイクロサービスの障害耐性を劣化させるソフトウェア変更を事前検知(concept / aiops / resilience) - [[OpsQA]] — クラウド運用に特化した質問応答タスク(concept / aiops / opsqa) - [[RAGベースクラウド運用支援]] — RAG を用いたクラウド運用知識検索と質問応答(concept / aiops / rag) #### The Morning Paper on Operability (blog.acolyer 2016) (2026-06-27) - [[オペラビリティ]] — システムが本番環境で安全かつ効率的に運用可能であるという性質。Colyer の設計→可視化→デバッギング→フィードバックの 4 段階モデル(concept / sre / operations) #### マイクロサービス RCA/FL 10 論文一括 ingest (2026-06-27) - [[テスト障害診断]](新規) — テスト環境で発生するアラームの障害種別分類と箇所特定。SynthoDiag が導入(concept / testing / diagnosis) - [[情報理論的異常スコア]](新規) — 情報理論に基づく異常スコアリング。RCA Outliers (NeurIPS 2025) が理論化(concept / causal / theory) - [[単一サンプルRCA]](新規) — 介入後分布からの単一サンプルのみで根本原因を特定する問題設定。ポリツリー構造で理論的保証(concept / causal / rca) - [[根本原因分析]](更新) — Cloud Atlas, CoE, HeMiRCA, MicroIRC, RCInvestigator, GrayScope, SynthoDiag, MicroDig の知見追加 - [[グラフベースRCA]](更新) — MicroDig の異種グラフ、MicroIRC の二重グラフ構造追加 - [[因果推論ベースRCA]](更新) — Cloud Atlas の LLM 因果グラフ合成、CoE のイベント因果グラフ追加 - [[介入的因果学習]](更新) — IRLLS の潜在空間介入認識追加 - [[Interactive AIOps]](更新) — RCInvestigator の人間-機械協調可視分析追加 - [[仮説駆動RCA]](更新) — GrayScope の専門知識+因果学習融合追加 - [[ログベース障害診断]](更新) — SynthoDiag のテストアラーム文脈追加 - [[グラフニューラルネットワーク]](更新) — MicroIRC のインスタンスレベル GNN 追加 - [[知識グラフ]](更新) — MicroDig の異種グラフ文脈追加 - [[人的要因]] — Human Factors。ポストモーテムへの適用: 「ヒューマンエラー=行き止まり」批判、ローカル合理性、個別インタビュー。Resilience Engineering と密接(sre / human-factors / postmortem) - [[レジリエンスエンジニアリング]] — Resilience Engineering。創発的振る舞い・もつれた因果性・帰納の問題・次元性の呪い・システム耐性。Dekker/Cook/Rasmussen 系統(sre / resilience / complex-systems) - [[障害傾向分析]](新規) — 複数の障害データを横断収集・分析する GQM サイクル。Outage Trend Analysis / Sue Lueder / Google(concept / sre / incident-management) - [[インシデント重大度評価]](新規) — 法的・ユーザー・財務・サービス種別の 4 次元フラグ＋重み付きスコアによる重大度評価(concept / sre / incident-management) - [[事故モデル]](新規) — Bad Apples / ハインリッヒのドミノ / Reason のスイスチーズモデルの系譜。「ヒューマンエラーは分析の行き止まり」「原因は構築される」「安全性は創発的特性」(concept / sre / postmortem / safety) - [[TLA+]](新規) — 形式仕様記述言語。インシデントポストモーテムに適用するワークフローを SREcon23 が提示。Azure CosmosDB・DynamoDB・Firestore が活用(concept / formal-verification / distributed-systems) - [[インシデントストーリー]](新規) — 豊かな社会技術的詳細を含む長形式インシデント記録。Courtney Nash(SREcon23)が shallow data の対案として提示。Near Misses・複数視点・パターン開示が特性(concept / sre / postmortem / incident-management) - [[TTXメトリクス]](新規) — インシデントライフサイクルをフェーズ分解して計測する指標群。MTTR の統計的限界に対する代替として TTDetect・TTAcknowledge・TTEngage 等 11 種類を定義。[[Waroom]] が Slack 連携で自動収集する実装例(concept / sre / incident-management / metrics) #### Human Factors in the Age of AI Ops (SREcon26 Americas) (2026-06-28) - [[SRE AI Autonomy Levels]](更新) — Trust Spectrum(Observe/Advise/Assist/Partner)を組織の信頼受容度軸として追記。Google L0-L4 とは直交する次元(concept / sre / aiops / governance) - [[アラート疲労]](更新) — 2026 年産業統計(960+/日・3000+/日・30%未調査)と「入力を修正するシステム問題」再フレーミングを追記(concept / sre / alert-management) - [[人的要因]](更新) — "Commanding the Chaos" フレームワーク・Trust Triangle の AI Ops 文脈適用を追記(concept / sre / human-factors / aiops) #### The Power of Stories (SREcon26 Americas) (2026-06-28) - [[逸脱の正常化]](新規) — Diane Vaughan が Challenger 事故で提唱。SRE のアラート閾値調整も同一プロセス。合理的日常行動が組織の「本当の限界」感覚を徐々に失わせる(concept / sre / safety / human-factors) - [[インシデントストーリー]](更新) — anomalous + immutable の 2 条件(Gelman & Basbøll)、Challenger の 3 視点(Feynman/Tufte/Vaughan)、Once Upon an Incident の実践を追記(concept / sre / postmortem) - [[インシデントレポート執筆]](更新) — narrative description 最重視・エピソードチャンク・インシデント開始前から書く(Hochstein)を追記、Laura Nolan との合流知見として整理(concept / sre / postmortem) #### Incident Metrics in SRE (O'Reilly, 2021) (2026-06-28) - [[TTXメトリクス]](更新) — Davidovič 2021 を正式ソースとして追加。3 者（Davidovič / Takamura / Nash）の批判アプローチの横断的知見・「大規模データでも解決しない」知見・分散自体の指標化という未解決問いを追記(concept / sre / incident-management / metrics) #### 縮約，網羅，減算：科学者の仕事とは何か (認知科学 2021) (2026-06-28) - [[縮約]](新規) — 高次元データを低次元に写像し人間理解可能な説明を生成する認知的操作。個体発生的・メタ認知的。観察バイアスと特異点見落としリスクを持つ(concept / cognitive-science / philosophy-of-science) - [[網羅]](新規) — 仮説なし包括計測によるデータ取得と大規模モデルによる演繹。2000年代以降の計算資源増大で実現。ただし人間への提示時に縮約が再発生する(concept / cognitive-science / philosophy-of-science) - [[減算]](新規) — 生体が外界の一部のみを取り込み残りを遮断すること(Uexküll 環世界)。系統発生的・生命科学的。縮約と並行して機能させることが認知科学の現実的な在り方(concept / cognitive-science / philosophy-of-science) #### Data Center Networking 基盤論文 5 本 (2026-06-29) - [[データセンターネットワークトポロジ]](新規) — Fat-Tree/Clos ベースのデータセンターネットワーク設計。k-ary Fat-Tree の構造と経路探索、full bisection bandwidth の実現。(concept / networking / datacenter) - [[ECMP]](新規) — Equal-Cost Multi-Path ルーティング。マルチルートトポロジでのトラフィック分散。エレファントフロー下では最大 60.8% 帯域損失の構造的限界あり。(concept / networking / datacenter) - [[Valiant Load Balancing]](新規) — ランダム中間ノード経由の負荷分散。VL2 が採用。トラフィック予測不要で uniform capacity を提供。(concept / networking) - [[フロースケジューリング]](新規) — データセンター内の動的フロー経路制御。Hedera の Global First Fit・Simulated Annealing アプローチ。(concept / networking / datacenter) - [[データセンターL2ファブリック]](新規) — PortLand の PMAC・ファブリックマネージャモデル。L2 セマンティクスとスケーラビリティの両立。(concept / networking / datacenter) - [[Incast]](新規) — データセンターの多対一通信パターン輻輳。DCTCP の ECN ベース段階的制御で解決。(concept / networking / datacenter) - [[データセンター輻輳制御]](更新) — DCTCP・VL2 の知見を大幅追記。ECN 段階的制御、DCQCN との対比。(concept / networking / congestion-control) - [[負荷分散]](更新) — VLB のネットワーク負荷分散知見を追記。MoE との設計哲学比較。(concept / networking) - [[マルチプレーンClosトポロジ]](更新) — Fat-Tree・VL2 が Clos の直系先祖であることを追記。(concept / networking / datacenter) - [[AIデータセンタートポロジ]](更新) — Fat-Tree が現代 AI データセンターの源流であることを追記。(concept / networking) - [[データセンターネットワーク信頼性]](更新) — PortLand の LDP/LDM 障害検知を追記。(concept / networking / reliability) #### Spanner: Google's Globally Distributed Database (OSDI 2012 / TOCS 2013) (2026-06-28) - [[外部一貫性]](新規) — 分散トランザクションにおける最強の一貫性保証。T1 が T2 開始より実時間で先行するなら T1 のコミットタイムスタンプ < T2 のコミットタイムスタンプが保証される。線形化可能性と等価。Spanner では TrueTime + commit wait で実現。(concept / distributed / database / consistency) - [[TrueTime]](新規) — Google の時刻 API。時刻を単一値でなく不確実性区間 [earliest, latest] として返す。GPS と原子時計で実装。ε 通常 4ms。Spanner の外部一貫性・リーダーリース・スキーマ変更の基盤。(concept / distributed / systems / time) - [[分散トランザクション]](新規) — 複数パーティション・サーバーにまたがる ACID 操作。Spanner は 2PC on Paxos で実現。スナップショットトランザクション(ロックフリー)と読み書きトランザクション(悲観的ロック)の 2 種。(concept / distributed / database / transaction) #### Memory in the Age of AI Agents (arXiv 2025) (2026-06-29) - [[エージェントメモリ]](新規) — LLM ベースエージェントの記憶機構。形態(トークンレベル/パラメトリック/潜在)・機能(事実/経験/作業)・動態(形成/進化/検索)の 3 軸タクソノミで体系化。コンテキストエンジニアリング・RAG を部分的に包含する上位概念。(concept / llm / agent-memory) - [[コンテキストエンジニアリング]](更新) — エージェントメモリとの射程の違い(入力設計 vs 自律的蓄積)を横断的知見に追記。(concept / ai-native / llm) #### HPC Downtime Budgets (SREcon16 Europe) (2026-06-30) - [[エラーバジェット]](更新) — HPC 適応（ダウンタイム時間単位・バーンダウンチャート・Wolf クラスタ超過事例）と SRE 普及はコミュニティ形成課題という知見を追記。(concept / sre / hpc / reliability) #### Case Study: Implementing SLOs for a New Service (SREcon19 Americas) (2026-06-29) - [[サービスレベル目標]](更新) — 異種コンポーネント SLI 分類・プローバー能動計測・Lawson 2019 事例追記。(concept / sre / slo) - [[エラーバジェット]](更新) — SLO 設定と同時のエラーバジェット計算・文書化プロセスの実践知追記。(concept / sre / reliability) - [[SLI-SLO段階的導入]](更新) — 新規サービスへのプローバー活用・SLO 公開ドキュメント実践知追記。(concept / sre / slo) #### Not All Minutes Are Equal (SREcon23 Americas) (2026-06-30) - [[イベントベースSLO]](新規) — 時間スライス方式とイベントベース方式の SLO 集計の比較。時間スライスはすべての分を等価に扱いインシデント深刻度と乖離する問題を定式化。Default SLO 式・Time Window / Polling Period / Sampling Window の定義を含む。(concept / sre / slo) #### Project Silica: Towards Sustainable Cloud Archival Storage in Glass (SOSP 2023) (2026-06-29) - [[アーカイバルストレージ]](新規) — 長期保存・低アクセス頻度向けストレージ層。クラウドワークロード実態は小規模 I/O 支配(58.7% が 4 MiB 以下)・書き込み超優位(47:1 MB比)。バックグラウンド管理コストが総コストを支配。(concept / storage / cloud / systems) - [[ガラスストレージ]](新規) — 溶融石英(クォーツガラス)を媒体とするストレージ技術。フェムト秒レーザーで voxel を書き込み偏光顕微鏡で読み出す WORM 媒体。1000 年超耐久性・ビット腐敗なし。Project Silica が初の大規模クラウド実装。(concept / storage / optical / sustainability) - [[ネットワーク符号化]](新規) — I 情報セクター + R 冗長セクターで任意の I セクターから全体を復元できる消失訂正符号。Project Silica では 3 層(Within-track / Large-group / Cross-platter NC)で使用。WORM 媒体は符号更新不要で超大グループサイズを実現。(concept / storage / erasure-coding) #### Measuring Availability the Player Focused Way (SREcon25 Americas) (2026-06-30) - [[Player Journey]](新規) — ゲームサービスのユーザー体験フェーズ分類フレームワーク。Riot Games 設計。Connecting / Purchasing / Play の 3 カテゴリ×10 分類（2024 年以降 12 分類超）で可用性の影響を共通言語化。P1-P4 優先度（CCU 割合）と組み合わせインシデントを即座に記述する。(concept / sre / gaming / availability) - [[サービスレベル目標]](更新) — CCU 重み付き可用性計測（Player Minutes）・CEO OKR 定着手法の横断的知見を追記。(concept / sre / slo) #### Incident Management and Chatops @ Netflix Feat Scorebot (SREcon16, 2016) (2026-07-01) - [[ChatOps]](新規) — チャットプラットフォームを操作インターフェイスとした DevOps/SRE 自動化パターン。Netflix Scorebot(2015-12 〜)が典型実装。bookmarking・presence・after-hours・secrets 管理の 4 機能パターン。LLM エージェント型インシデント管理の先駆として位置づけ。(concept / sre / incident-management / automation) #### Incident Response in Unfamiliar Sociotechnical Systems (SREcon20 Americas, 2020) (2026-07-01) - [[Incident Commander]](更新) — 「Warm Blanket Fallacy」(熟練IC でも組織間対応では通用しない)・民間企業向け ICS 再編構造・ICS 起源の2ソース間食い違い(Phoenix 1968 vs FIRESCOPE California)の contradiction 記録を追加。(concept / sre / incident-management) - [[インシデント管理]](更新) — ChatOps/Scorebot の横断的知見(LLM 以前の産業自動化の文脈)を追記。(concept / sre) #### When Systems Flatline—Enhancing Incident Response with Learnings from the Medical Field (SREcon21, 2021) (2026-07-01) - [[Incident Commander]](更新) — 医療分野(ACLS/ATLS/WHO 手術チェックリスト)の標準化・チェックリスト文化との横断的知見3件、Warm Blanket Fallacy との層の違いの整理を追記。(concept / sre / incident-management) #### Epic Incidents of History: The 1979 NORAD Nuclear Near Miss (SREcon23 Americas, 2023) (2026-07-01) - [[複雑システム障害論]](更新) — Walker・Woods・Rayo の「複数の系統的寄与要因 vs 根本原因」論が Cook 命題7を歴史的スケールに拡張する横断的知見を追記。(concept / sre / safety / human-factors) - [[根本原因分析]](更新) — 単一根本原因の探索が構造的に成立しない歴史的事例として1979年 NORAD 誤警報を追記。(concept / sre / rca) - [[人的要因]](更新) — ローカル合理性による疑いが歴史的規模の惨事を防いだ事例として1979年 NORAD 誤警報を追記。(concept / sre / human-factors) #### Incident Commanders (SREcon23 Americas, 2023) (2026-07-01) - [[インシデントアナリスト]](新規) — IC(Incident Commander)と対をなす、インシデントの事後調査・分析を担う役割。「なぜそのように起きたか」の調査・矛盾する仮説の整理・タイムライン再構成が核心。Vanessa Huerta Granda・Emily Ruppe が SREcon23 Americas で定義。(concept / sre / incident-management / incident-commander / postmortem) - [[Incident Commander]](更新) — IC/アナリスト役割分離が Slack の「no give backs ハンドオフ」ルールの理由付けとして機能する横断的知見、「インシデントのサイクル」ライフサイクル図の横断的知見を追記。(concept / sre / incident-management) - [[インシデント管理]](更新) — 「インシデントのサイクル」円環モデルと Slack Response/Review/Analysis 3部構成との対応関係を追記。(concept / sre / incident-management) #### The World Blew Up But We're All Okay: Managing a massive-scale incident at Datadog (SREcon23 EMEA, 2023) (2026-07-01) - [[インシデント管理]](更新) — 共通 OS ディストリビューションのグローバル障害波及・500人超規模での IC/ワークストリーム自己組織化・クラウド API レート制限による復旧ボトルネックの横断的知見3件と未解決の問い1件を追記。(concept / sre / incident-management) #### The Incident Is The Way: Using Your Incidents to Win Reliability Investment (SREcon23 EMEA, 2023) (2026-07-01) - [[インシデント重大度評価]](更新) — 可用性でなく正しさ(correctness)を測る第5の軸、意図でなく結果(consequence)で重大度を判断する構造的対策を横断的知見として追記。未解決の問いにcorrectness軸と既存フラグ体系の統合方法を追加。(concept / sre / incident-management) #### Hard Choices, Tight Timelines: A Closer Look at Tradeoff Decisions during Incidents (SREcon24 Americas, 2024) (2026-07-01) - [[トレードオフ意思決定]](新規) — skip-level tradeoff を中心概念として定義。インシデント対応中の階層横断的な意思決定分析の起点となる concept。(concept / sre / incident-management / tradeoff) #### The Critical Resource Is You: Practical Destressing for On-Call Engineers (SREcon26 Americas, 2026) (2026-07-01) - [[オンコールストレス管理]](新規) — オンコール業務の慢性・急性ストレスを ANS の観点から捉え、身体知性に根ざした実践ツールで対処する概念。(concept / sre / on-call / stress-management / human-factors) - [[人的要因]](更新) — 生理学的ストレス管理を Human Factors の身体的次元として追記。ANS の自己修正が Ordinary Mind によって抑制されるメカニズムを横断的知見に追加。(concept / sre / human-factors) #### Your System Has Recovered from an Incident, but Have Your Developers? (SREcon18 Americas, 2018) (2026-07-01) - [[インシデント後の人的回復]](新規) — インシデント終了後のエンジニアの心理的・感情的回復とピアサポートの実践概念。(concept / sre / incident-management / human-factors / post-incident) - [[オンコールストレス管理]](更新) — 横断的知見に Long と Woo の 2 ソース比較を追記。個人ツール(身体知性)と組織ピアサポートの補完関係を記述。(concept / sre / human-factors) - [[人的要因]](更新) — source に Woo (SREcon18) を追加。(concept / sre / human-factors) #### Epistemology of Incident Management (SREcon26 Americas, 2026) (2026-07-01) - [[インシデント認識論]](新規) — インシデント対応の「何を知る必要があるか」「どう知識を得るか」を体系化した認識論フレームワーク。5 フェーズ Incident Loop・証拠 2×2 マトリクス・探索 3 パターン・仮説 3 条件・テスト 6 基準。Kingsman (Atlassian) 提案。(concept / sre / incident-management / troubleshooting / epistemology) - [[インシデント管理]](更新) — Kingsman の「Incident Loop 認識論」横断的知見を追記。"Incidents are all about knowledge" の人間実践的フレーミングを横断集約に追加。(concept / sre / aiops) - [[仮説駆動RCA]](更新) — 仮説 3 条件（testable/relevant/specific）・テスト 6 基準を Kingsman 実践知として横断的知見に追記。(concept / sre / aiops) #### Retrieval as Reasoning (2026-07-02) - [[Retrieval-as-Reasoning]](新規) — エージェントネイティブ検索のパラダイム。Retrieval-as-Lookup（固定 top-k 文脈）を刷新し、検索をエージェントが推論と連動して制御する段階的活動として再定義。LLM-Wiki（[[Haoliang Ming]] ら、WeChat/Tencent 2026）が最初の実装。3 原則: Compilability・Composability・Evolvability。(concept / information-retrieval / rag / agentic) #### AI impact on science concepts (2026-07-03) - [[AIと科学の集中化]](新規) — AI ツールの普及が個人の生産性を高める一方、科学全体のトピック多様性を縮小し研究者間交流を低下させる現象。個人合理性と集団的帰結の乖離。Hao et al. (Nature 2026)。(concept / scientometrics / ai-impact / science-of-science) - [[AI研究自動化]](更新) — 横断的知見に個人-集合パラドックスの観察を追記(Hao et al. との接続)。(concept / ai-research-automation) #### ML Fleet Efficiency concepts (2026-07-02) - [[ML Productivity Goodput]](新規) — ML フリート効率を測る合成指標(MPG = SG × RG × PG)。Capacity・Occupancy・Duty Cycle の限界を補う 3 層分解フレームワーク。(concept / distributed / systems-for-ml) - [[GPUクラスタ運用]](更新) — MPG フレームワークを横断的知見に追記。「有用な仕事の定義まで降りないと利用率指標が空洞になる」という観察を既存ソース群と接続。(concept / distributed / hpc) #### IPDPS 2026 AI アクセラレータ比較論文 (2026-07-06) - [[AIアクセラレータ]](新規) — GPU (SIMT) とデータフローアクセラレータの分類・比較。小バッチでデータフロー優位・大バッチで GPU 優位・エネルギー効率は GPU が全体的に優勢という横断知見を集約。(concept / hardware / llm / aiinfra) #### INTFusion (IFIP Networking 2026) 関連概念 (2026-07-06) - [[インバンドネットワークテレメトリ]](新規) — P4 プログラマブルデータプレーンによるパケット内テレメトリ埋め込み。INT ソース/シンク/トランジットノードの三者構造。smartNIC オフロードと eBPF クロスレイヤー融合の設計パターンを整理。(concept / networking / telemetry) - [[テレメトリ]](更新) — INT + eBPF クロスレイヤー受動収集の知見と、Centralizer スケーラビリティの未解決の問いを追記。 - [[ネットワーク監視]](更新) — INT + eBPF 融合後の Centralizer スケーラビリティに関する横断的知見と未解決の問いを追記。 - [[データセンター輻輳制御]](更新) — テレメトリ→制御フィードバック閉ループの未解決の問いを追記。 #### AgentTether (arXiv 2026) 関連概念 (2026-07-13) - [[エージェント修復]](新規) — 失敗した LLM エージェント実行を診断・修正する技術群。事後グラフ診断と実行時介入の連動、一度きりの診断フィードバックの減衰、根本原因の上流性を横断的知見として集約。(concept / agent / aiops) - [[エージェントシステム運用]](更新) — 「解決」段階の 3 クラス(実行前予防/実行中修正/実行後復旧)が独立でなく連動が必要という AgentTether の実証知見を追記。 - [[グラフベースRCA]](更新) — グラフ RCA の対象がサービス間依存グラフからエージェント内部の意思決定グラフへ拡張される横断的知見を追記。 #### SOUPS 2025 セキュリティインシデント要約論文関連概念 (2026-07-13) - [[LLMインシデント要約]](新規) — 完全性・事実性・簡潔性・可読性の4軸評価枠組み。自律要約(人間に劣後)と協働(AI支援)要約(人間に優位)の成果の非対称性、要約作成者本人と第三者評価者の評価乖離を横断的知見として集約。(concept / security / llm / incident-response) - [[インシデントレポート執筆]](更新) — LLM要約が完全性・可読性で人間執筆に迫るが事実性で劣ること、AI支援(協働)は人間単独執筆を上回りうることを横断的知見に追記。 - [[インシデントレスポンスAIレベル]](更新) — セキュリティ要約タスクの実証データが IR2 で自律度を止めるべき理由を定量的に裏付けること、作成者本人と第三者評価者の評価乖離を横断的知見に追記。 #### COMET / ISSRE 2024 インシデントトリアージ論文関連概念 (2026-07-13) - [[インシデントトリアージ]](新規) — インシデントを担当チームへ割り当てるプロセス。ルールベース(AutoAnalysis)の限界と LLM キーワード抽出の優位性を定義として集約。(concept / aiops / incident-management) - [[インシデント管理]](更新) — キーワード抽出がテキスト表現として議論・要約より優れるという知見、レガシールールベース出力を LLM の補助入力として再利用する設計パターンを横断的知見に追記。 - [[インシデントTTM予測]](更新) — トリアージ精度改善(T1/T2段階)がTTM削減の別経路になりうるという COMET の実証知見を追記。 #### CoTriage・PROBE・Build-bench・LagRCA・InsightTriage 関連概念 (2026-07-13) - [[知識蒸留]](新規) — CoTriage の知識蒸留+自己強化+DPO 路線を定義として集約。(concept / aiops / llm) - [[エージェント修復]](更新) — PROBE の diagnosis–recovery gap(診断精度改善が回復率改善を大きく上回る)を AgentTether との突き合わせとして横断的知見に追記。 - [[クロスISAマイグレーション]](新規)、[[自動ビルド修復]](新規) — Build-bench が定義するクロスISAビルド修復タスクとエージェント型反復修復の知見を集約。(concept / software-engineering / llm-agent) - [[エージェント型コーディング]](更新) — Build-bench のツール利用なし6.13% vs 反復ループ63.19%の知見を追記。 - [[遅延認識時空間因果推論]](新規) — LagRCA の時間ラグ明示モデル化アプローチを定義として集約。(concept / aiops / causal-inference) - [[因果推論ベースRCA]]・[[Fault Localization]]・[[根本原因分析]]・[[グラフベースRCA]](更新) — LagRCA の非同期障害伝播(81.5%が2分以上遅延)の実証知見を追記。 - [[インシデントトリアージ]]・[[オンコール自動化]](更新) — CoTriage(ByteDance)と InsightTriage(Huawei/ICV)がドメインごとに異なる技術路線を独立に本番デプロイしている観察を追記。 #### FoundRoot・Aloha・OScope・PerfScout・TADBench・LogSage・RefinedEdge 関連概念 (2026-07-13) - [[構造化深層思考]](新規) — FoundRoot のメトリクススキャン→伝播分析→リフレクション→ランキングという4段階RCA枠組みを定義として集約。(concept / aiops / root-cause-analysis) - [[根本原因分析]]・[[LLMによる根本原因分析]]・[[検証可能報酬による強化学習]]・[[Fault Localization]](更新) — FoundRoot の warm-up SFT + DAPO によるゼロショットRCA改善(MRR 4.5%〜48.6%)を追記。 - [[バッチ障害診断]](新規) — Aloha の対照分析ベースバッチ障害診断とusability gap指摘を定義として集約。(concept / aiops / fault-localization) - [[Fault Localization]](更新) — Alohaが単一障害箇所特定と異なる集団パターンを対象とする観察を追記。 - [[TSG自動化]]・[[マルチモーダル障害診断]](更新) — OScope の Knowledge Aligner による症状記述意味的整合とチャンク単位検証の知見を追記。 - [[定常性モデル]](更新)、[[適応的ワークロード生成]](新規) — PerfScout の SPOT/ADF-KPSS/PPO統合による性能テストワークロード生成全自動化を集約。(concept / aiops / performance-testing) - [[トレース異常検知]](新規) — TADBench の初の横断ベンチマークとトレース特性に基づく決定木推奨戦略を定義として集約。(concept / aiops / anomaly-detection) - [[ログ解析]]・[[根本原因分析]]・[[グラフベースRCA]]・[[LLMによる根本原因分析]](更新) — LogSage のカーネルパニックRCA(スパースログ抽出+ログ間長距離依存)の知見を追記。 - [[異常検知]]・[[知識蒸留]]・[[モデル圧縮]]・[[Edge-cloud Collaboration]](更新) — RefinedEdge のエッジ配置可能なMTSADモデル圧縮(0.15Mパラメータ未満)の知見を追記。 #### A Survey of DevOps Concepts and Challenges 関連概念 (2026-07-14) - [[DevOps]](更新) — 2019年の学術サーベイ(Leite et al.)がDevOpsの定義不在を既に指摘していたこと、process/people/delivery/runtimeのconceptual framework、SREへの2019年時点での言及を追記。(concept / devops / survey) #### The Anatomy of a Large-Scale Hypertextual Web Search Engine 関連概念 (2026-07-15) - [[PageRank]](新規) — リンク構造由来のページ重要度指標。定義式・ランダムサーファーモデル・ダンピング係数を集約。(concept / information-retrieval / ranking) #### Valet: Efficient Data Placement on Modern SSDs 関連概念 (2026-07-15) - [[ホスト誘導データ配置]](新規) — affinity(親和性)と lifetime(寿命)の2軸によるSSDデータ配置戦略の一般化を定義として集約。(concept / storage / ssd) - [[シムレイヤー]](新規) — LD_PRELOAD ベースの userspace interposition によるアプリケーション/カーネル非改変のホスト誘導配置実装パターンを定義として集約。(concept / storage / systems) - [[ゾーン名前空間SSD]](新規) — ZNS の append-only ゾーン管理とホスト誘導ガーベジコレクションの知見を集約。(concept / storage / ssd) - [[LSMツリー]](更新) — WAL/SSTable(および WiredTiger の log/sst)の物理配置(SSDゾーン・ストリーム分離)による性能改善という、コンパクション戦略とは独立した新しい最適化軸を追記。 #### Recursive Self-Improvement (LessWrong, 2008) 関連概念 (2026-07-15) - [[知能爆発]](新規) — I. J. Good (1965) の「ウルトラ知能機械」に遡る帰結概念。Yudkowsky の「AI go FOOM」定式化を集約。(concept / ai-safety / foom) - [[テイクオフ速度論争]](新規) — ハード/ソフトテイクオフを巡る Yudkowsky-Hanson の FOOM debate、「横ばいか爆発かのどちらか」という理論的主張を集約。(concept / ai-safety / foom) - [[リソースオーバーハング]](新規) — ハードテイクオフに寄与する追加要因(無防備なインターネット・高速逐次コンピュータ)を定義として集約。(concept / ai-safety / foom) - [[Recursive Self-Improvement]](更新) — 2008年の原論証(因果5層分解、農業の発明との対比、微分方程式による比喩、「横ばいか爆発か」の理論的主張)を追記し、2026年のハーネスレベル間接的RSIとの対比を横断的知見に追加。 #### Can Large Language Models Generate Observability-Aware Code? 関連概念 (2026-07-15) - [[オブザーバビリティ]]・[[コーディングエージェント評価]]・[[ログ生成]]・[[障害注入]]・[[バイブコーディング]](更新) — コーディングエージェント生成コードの診断意味論・障害シグナル露出のギャップ、Quantity over Quality現象、knowledge debtの実証知見を追記。 #### AI 2040: Plan A — The Deal 関連概念 (2026-07-16) - [[AI国際検証レジーム]](新規) — コンピュート宣言・訓練一時停止・相互確証コンピュート破壊(MACD)からなる、AI開発の国際的検証枠組みを定義として集約。(concept / ai-governance / ai-safety) - [[権力集中リスク]](新規) — 誤整合リスクとは独立した、超知能AIの実効支配が少数者の不可逆な独裁につながるリスク軸を定義として集約。(concept / ai-safety / ai-governance) - [[知能爆発]](更新) — Good/Yudkowskyの理論的議論と対比される「ガバナンスによるテイクオフ速度の制御」という応答の視点を横断的知見に追加。 - [[テイクオフ速度論争]](更新) — ハードテイクオフ前提を国際検証レジームで人為的に10年へ引き延ばすという、政策的制御変数としてのテイクオフ速度の扱いを横断的知見に追加。 #### LLM高速化(勉強会) 関連概念 (2026-07-16) - [[PagedAttention]](新規) — OS ページング機構に着想を得た KVCache のブロック単位管理を定義として集約。GPU 内ページ粒度と外部転送 chunk 粒度の非互換性を横断的知見に追加。(concept / llm / kv-cache / gpu) - [[Speculative Decoding]](新規) — ドラフトモデル・追加予測ヘッドによる複数トークン仮予測と並列検証を定義として集約。KVCache 削減制約がドラフト手法設計(Medusa/Eagle)を規定する観察を追加。(concept / llm / llm-inference) - [[CUDAGraph]](新規) — カーネル起動・メモリ転送のグラフ化による起動オーバーヘッド削減を定義として集約。最適化前 LLM 推論の最大ボトルネックが演算でなく起動オーバーヘッドである観察を追加。(concept / gpu / llm-inference) - [[KVキャッシュ管理]]・[[FlashAttention]]・[[Grouped-Query Attention]]・[[Multi-Head Latent Attention]]・[[線形注意]]・[[スライディングウィンドウアテンション]]・[[Prefill-Decode分離]]・[[GPU最適化]]・[[カーネルフュージョン]]・[[混合精度訓練]](更新) — 勉強会資料の具体的な見積もり計算(KVCache サイズ式、MLA low-rank 圧縮率、HBM/SRAM 帯域差)、Triton/CuTe-DSL による実装コスト低減、Ozaki Scheme・Nsight プロファイラの観察を横断的知見に追記。 #### A New Golden Age for Computer Architecture 関連概念 (2026-07-17) - [[ドメイン固有アーキテクチャ]](新規) — 特定ドメインに特化したプロセッサ設計(DSA)を定義として集約。並列性・メモリ階層・精度・DSLの4要因による効率化とGoogle TPU v1の実例を追加。(concept / computer-architecture / dsa) - [[ムーアの法則とデナードスケーリングの終焉]](新規) — Moore の法則・Dennard スケーリングの定義と、その終焉が汎用プロセッサの性能成長率(CISC期22%/年→RISC期52%/年→マルチコア期23%/年→Amdahl期12%/年→予測3%/年)をどう変えてきたかを集約。(concept / computer-architecture / moores-law) - [[VLIW]](更新) — Intel/HP の Itanium/EPIC が「市場が最終的にアーキテクチャ論争を決着させる」というテーゼの反例として失敗した経緯を追記。DSA との設計思想上の共通点を横断的知見に追加。 - [[メモリウォール]](更新) — 投機実行の無駄(Core i7 で平均19%の命令が投機ミスで浪費)という新たな定量データと、電力の壁の物理的根本原因としてのDennardスケーリング終焉を横断的知見に追加。 #### ContextPilot ingest (2026-07-18) - [[KVキャッシュ管理]](更新) — 完全一致 prefix caching の低再利用率と近似 KV マッチングの精度劣化という二律背反を、コンテキストブロック単位の整列・重複排除・注釈で回避する ContextPilot の設計を横断的知見に追加。現代 LLM の入力順序耐性向上がこの設計を成立させる前提であることも追記。CacheBlend 自身の精度劣化報告と ContextPilot の観測値が食い違う点を未解決の問いに追加。 #### The Too-Much-Talent Effect 関連概念 (2026-07-18) - [[過剰人材効果]](新規) — トップタレント比率とチーム成績の逆U字型関係を定義として集約。サッカー・バスケットボールで曲線的転換、野球では非転換という対比、地位争い→コーディネーション低下という理論的メカニズムを収録。(concept / organizational-behavior / team-performance) - [[タスク相互依存性]](新規) — チームメンバーの協働の必要度合いを定義として集約。相互依存性の高低が過剰人材効果の発現有無を調整するという本論文の中心的主張を収録。(concept / organizational-behavior / team-performance) #### AI生成テキスト分類器関連概念 (2026-07-20) - [[AI生成テキスト検知]](新規) — LLM生成テキストと人間執筆テキストを判別する技術を定義として集約。パープレキシティベース手法の限界と、TF-IDF+SVMによる多数決分類の高い精度・汎化性能・低偽陽性率という対比を収録。(concept / machine-learning / AI生成テキスト検知) #### Adversarial dynamical systems 関連概念 (2026-07-20) - [[Koopman作用素]](新規) — 非線形力学系を観測量空間上の線形作用素として捉え直す枠組みを定義として集約。非自己随伴・非正規性がスペクトル近似(EDMD等)を難しくする根本原因という観察と、部分観測への拡張・連続時間系への一般化を未解決の問いに収録。(concept / dynamical-systems / koopman-operator) - [[可解性複雑性指標]](新規) — 計算問題を解くのに必要な逐次極限の回数を形式化するSolvability Complexity Index (SCI) を定義として集約。Koopmanスペクトル学習における上界(収束アルゴリズム)と下界(敵対的力学系による不可能性)の一致という本論文の中心的貢献を収録。(concept / computability / dynamical-systems) #### In-House LLM Serving at Netflix 関連概念 (2026-07-20) - [[制約付きデコーディング]](新規) — logits processorによる状態機械ベースの出力制約強制を定義として集約。vLLM V0(GIL律速のper-request処理)からV1(batch-level API)への移行によるテイルレイテンシ解消、部分prefill・プリエンプション対応という運用課題を収録。 - [[LLM推論]](更新) — Netflix のエンジン選定(TensorRT-LLM→vLLM)が性能ベンチマークでなく運用適合性で決まった事例を横断的知見に追記。 #### Niyama 関連概念 (2026-07-20) - [[LLM推論]](更新) — Niyama の QoS 駆動 co-scheduling(PD 分離との対照)・動的チャンキング・EDF/SRPF ハイブリッド優先度付け・積極的降格(Mooncake の Early Rejection との対比)を横断的知見に追記。未解決の問いに α パラメータの自動調整と、Niyama vs DistServe の直接比較評価の欠如を追加。 - [[Prefill-Decode分離]](更新) — 同居維持のまま QoS 差別化する Niyama のアプローチを、物理分離アプローチ(DistServe・Mooncake・P/D-Serve)との対照軸として横断的知見に追記。 - [[LLMサービング管理]](更新) — インスタンス間ルーティング(PreServe)とインスタンス内スケジューリング(Niyama)が異なるレイヤーで相補的に機能するという知見、および両者が独立に「サイロ化の非効率」という同型の課題認識に至っている観察を追記。 #### DuckDB 関連概念 (2026-07-20) - [[列指向OLAPデータベース]](更新) — サーバプロセス型(ClickHouse)と組み込み型(DuckDB)という直交する配備形態、および組み込み型特有の「結果セット転送コスト」という性能軸を横断的知見に追加。両者を同一条件で比較した定量評価の有無を未解決の問いに追加。 #### DiDi #06(Query Execution Plans and Pipelining)関連概念 (2026-07-20) - [[クエリ実行プラン]](新規) — DuckDBがSQLを木構造(まれにDAG構造)の物理演算子プランに変換する仕組み。2048行データチャンク、TABLE_SCAN/PROJECTION/FILTER/HASH_GROUP_BY等の演算子役割分担。 - [[プッシュ型パイプライン実行]](新規) — パイプライン(ソース・演算子・シンク)への分解、パイプラインブレーカーの3フェーズ(Sink/Combine/Finalize)、パイプライン依存関係、パイプライン駆動ループ。DeWitt/Gray(1992)のパイプライン並列化・パーティション並列化分類が単一プロセスDBMSの演算子レベル実装として具体化される点、skew回避が動的負荷分散でなく設計選択で行われる点を[[並列データベース]]との横断的知見として追加。 - [[並列データベース]](更新) — DuckDBのパイプライン実行モデルへのDeWitt/Gray分類の適用、skew対処の設計選択という横断的知見を追加。 #### DiDi #07(Vectorized Query Execution)関連概念 (2026-07-20) - [[SIMDベクトル処理]](更新) — DuckDBのタイトループが「SIMD効果が限定的な領域」の中でも自動ベクトル化しやすい局所例であること、`__restrict__`修飾がSIMD自動ベクトル化の成否を分けることを横断的知見に追加。 - [[分岐予測]](更新) — DBMSカーネルが誤予測ペナルティを避けるためbranch-less実装を志向する具体例、後方分岐=taken/前方分岐=not-takenヒューリスティックの具体的なx86アセンブリ形を横断的知見に追加。 - [[パイプライン処理]](更新) — DiDi講義が本ページと同一の5段パイプライン(IF/ID/EX/MEM/WB)図をDBMS教材として採用している点、コンパイラのループ展開がパイプライン効率を左右する具体例を横断的知見に追加。 #### DiDi #08(Query Rewriting and Optimization)関連概念 (2026-07-20) - [[クエリオプティマイザ]](新規) — 正準プラン→最適化パス→物理プランの3段階アーキテクチャ。DuckDB v1.5の30以上のパスが事前決定順序で一度だけ実行される(fixpointまで反復しない)設計と、それに起因するパス順序問題を定義。[[@2026__DiDi__Query Rewriting and Optimization]]を軸に整理。(database / query-optimization) - [[結合順序最適化]](新規) — 結合実装の選択・結合木の探索空間(カタラン数)・DPhyp動的計画法(Moerkotte & Neumann, SIGMOD 2008)・build/probe側の選定という3つの独立部分問題からなる概念。(database / query-optimization / join-optimization) - [[クエリ非相関化]](新規) — DEPENDENT_JOIN演算子とNeumann & Kemper(BTW 2015)の系統的書き換え規則によるπ/Γ/σ越しの押し下げとJOINへの置換を定義。DuckDBが物理演算子としてDEPENDENT_JOINを実装しないため必須の最適化として位置づく。(database / query-optimization / subquery) #### DiDi #05(The ART of Indexing)関連概念 (2026-07-20) - [[Adaptive Radix Tree]](新規) — 値のビット列表現に基づき自己組織化する順序付き探索木。span・Node4/16/48/256の可変ファンアウト・遅延展開/パス圧縮による木高最適化を定義。ARTとB-Treeの木高比較(`O(k)` vs `O(k·log₂(n))`)、選択率とメモリ局所性のトレードオフを[[Zonemap]]・[[B-Tree]]との横断的知見として追加。[[@2026__DiDi__The ART of Indexing]]を軸に整理。(database / index-structures) - [[Zonemap]](新規) — 列指向テーブルストレージに組み込まれる行グループ単位(120K行)の`(min,Max)`索引。Sequential Scanの述語プッシュダウンによるスキップ最適化、列順序(ソート済みか否か)がスキップ効果に与える影響を定義。[[Adaptive Radix Tree]]との「粗い足切りと精密な到達」の補完関係を横断的知見として追加。(database / columnar-storage) #### 30分でわかるデータ指向アプリケーションデザイン関連概念 (2026-07-20) - [[導出データ]](新規) — 他データセットへのクエリ・変換の結果として生成され続けるデータ。RDBMSの「テーブル」の意味が最新スナップショットから導出データへ変化してきたという枠組みを定義。dbtによる依存関係記述、Delta Lake/Iceberg/Apache Hudiによる履歴管理を関連付ける。(data engineering / analytics) - [[分散トランザクション]](更新) — classic Amazon Aurora(SIGMOD 2018)のgossipプロトコルによる2PC回避を、Spanner/CockroachDB系の「プロトコル最適化による回避」とは異なる「アーキテクチャによる回避」の系統として横断的知見に追記。 ### 2026-07-20 LLM hallucinations in the wild (arXiv 2605.07723) ingest-paper - [[LLMのハルシネーション]](新規) — [[@2026__arXiv__LLM hallucinations in the wild]] を軸に、学術引用というベースライン差分推定の枠組みでハルシネーションを population スケールで定量化する視点を定義。[[@2023__arXiv__GPT-4 Technical Report]] のモデル自己申告的な限界言及との観測軸の違いを横断的知見として記録。(llm / hallucination / science-of-science) ### 2026-07-20 Aurora DSQL: Scalable, Multi-Region OLTP (arXiv 2607.13276) ingest-paper - [[分散SQLデータベース]](更新) — OCC+MVCC+コミット時座標という第三の座標削減系統(Spanner/CRDBの悲観的ロック、Aurora Limitlessのcross-AZ限定と並ぶ)、ストレージの論理化(行/インデックスエントリ単位)によるクエリプッシュダウンを横断的知見に追記。 - [[地理分散SQLデータベース]](更新) — 悲観的ロック(Spanner/CRDB) vs OCC+MVCC(Aurora DSQL)のコミットレイテンシ実測比較、クロスリージョン通信を単一ラウンドに圧縮する設計を横断的知見に追記。 - [[分散トランザクション]](更新) — OCCのよくある欠点をMVCC+snapshot isolationで無効化する系統、複数Adjudicator間の2PC変種(投票のアトミック性とコミットのアトミック性の分離)、Spanner実測とのレイテンシ比較を横断的知見に追記。 - [[分散コンセンサス回避]](更新) — classic Auroraの単一ライター前提からAurora DSQLの複数書き込み者環境への回避戦略の一般化、投票権を残しつつアトミック性を単一Journal書き込みに閉じ込める新パターンを横断的知見に追記。 - [[クォーラムベースレプリケーション]](更新) — イレイジャーコーディングを可用性でなくレイテンシ分散の最適化として使うAurora DSQLの設計を、classic Auroraの複製ベースクォーラムとの対比で横断的知見に追記。 ### 2026-07-20 Using Lightweight Formal Methods to Validate a Key-Value Storage Node in Amazon S3 (SOSP 2021) ingest-paper - [[軽量形式手法]](新規) — 完全形式検証の健全性ではなく自動化・保守性・継続的な正しさ維持を優先する検証アプローチを、[[@2021__SOSP__Using Lightweight Formal Methods to Validate a Key-Value Storage Node in Amazon S3]] を軸に定義。実装と同じ言語で書く参照モデル・property-based testing・stateless model checking の組み合わせを記録。 - [[LSMツリー]](更新) — ShardStore の「shard データをエクステント外へ配置し LSM ツリーは物理配置へのインデックスに純化する」設計と、crash consistency を宣言的 Dependency 型で LSM ツリーから分離する設計判断を、Bigtable/Cassandra の GFS/ローカル FS 依存レプリケーションとの対比で横断的知見に追記。 ### 2026-07-20 The Snowflake Elastic Data Warehouse (SIGMOD 2016) ingest-paper - [[シェアードナッシング]](更新) — Snowflake が自らを「マルチクラスタ・シェアードデータ・アーキテクチャ」と呼び DeWitt/Gray の3分類のいずれとも一対一対応しない第4カテゴリを提示したこと、lazy consistent hashing + file stealing によるメンバーシップ変更対応を横断的知見に追記。 - [[並列データベース]](更新) — クラウドネイティブなコンピュート・ストレージ分離がシェアードナッシングの弱点表(ヘテロジニアスワークロード・メンバーシップ変更・オンラインアップグレード)とほぼ一致する動機から生まれたことを横断的知見に追記し、未解決の問いを「Snowflake自身の自称にとどまり学術的分類は未確立」と更新。 - [[データパーティショニング]](更新) — Snowflakeが「マイクロパーティション」ではなく不変ファイル+min-maxプルーニングという別カテゴリの技法を採用していること(一次資料で確認)、キャッシュ配置への一貫性ハッシュ適用(データ本体でなくメタレベルの決定)を横断的知見に追記。 - [[列指向OLAPデータベース]](更新) — 半構造化データのネイティブサポートという第3の配備軸、ファイル/ブロック単位統計によるプルーニングの収斂をClickHouse・DuckDBとの対比で横断的知見に追記。 ### 2026-07-20 Dremel: Interactive Analysis of Web-Scale Datasets (VLDB 2010) ingest-paper - [[ネスト型カラムナストレージ]](新規) — repetition level / definition levelによるネストレコードの列指向符号化を定義。Dremel論文単独からの新規概念。 - [[列指向OLAPデータベース]](更新) — ネストデータモデルへの列指向拡張が2010年のDremelで既に一度到達していたこと、列指向ストレージの恩恵がMapReduceのようなDBMS外ツールにも及ぶことを横断的知見に追記。 - [[並列データベース]](更新) — ウェブ検索由来の多段サービス木がDeWitt/Grayの想定しなかった第三の並列化手段として集計クエリに応用され、数千ノード規模で線形に近いスケーラビリティを実証した事例を横断的知見に追記。 ### 2026-07-21 Don't Predict, Prioritize: Rethinking GPU Reliability Assessment (KDD '26 V.2) ingest-paper - [[障害予測]](更新) — 「精密な時間予測が破綻する領域ではランキングへの再定式化が代替パラダイムになる」という HeaRank の中心的知見、ログベース予測との対照(モデル強化 vs タスク再定式化)、Salfner+ 2010 の時間軸パラメータ(t_p → ∞ のゲーム可能性)がランキングパラダイムでは逆に有効に働く点を横断的知見に追記。 - [[GPUレジリエンス]](更新) — HeaRank のホスト単位 Pareto 集中("lemon nodes")が GPU Resilience のコンポーネント単位弱点分布(GSP/PMU/MMU/NVLink)の別粒度での現れであること、リスクランキングが「信頼性の床」を埋める運用対処の第3の経路であることを横断的知見に追記。