fold-k4-from-2026-06-08-to-2026-06-14-n16

Level-4 fold of 16 log entries spanning 2026-06-08 to 2026-06-14. Dominant themes: LLM のスケーリング則と推論能力の基礎理論、変更起因インシデントの定量分析と緩和設計、オブザーバビリティデータ管理とマイクロサービス RCA の体系化。 ## Child Entries | Date | Op | Title | Page | Summary (extractive) | |---|---|---|---|---| | 2026-06-14 | ingest-paper | How to Manage Change-Induced Incidents | [[@2023__ISSRE__How to Manage Change-Induced Incidents]] | RbIC（即時原因除去前の回復）を選択できれば TTM を 40.6% 短縮——緩和プロセス選択自体が TTM を律速するという新しい介入軸を定式化 | | 2026-06-14 | ingest-paper | An Empirical Study on Change-induced Incidents | [[@2023__ICSE-SEIP__An Empirical Study on Change-induced Incidents of Online Service Systems]] | Ant Group 実証で変更起因インシデントの TTD 75 パーセンタイルが通常の 26.8 倍長い——変更直後の監視設計の欠陥が「検知の遅延」として定量化 | | 2026-06-14 | ingest-paper | Towards Observability Data Management at Scale | [[@2021__SIGMOD Record__Towards Observability Data Management at Scale]] | Slack 実測でクエリの 97% 超が 24h 未満データを対象。「リアルタイム/履歴の分離」をアーキテクチャ原則として裏付けた最初の産業論文。MELT 4 型分類の初出 | | 2026-06-14 | ingest-paper | A Survey on Observability of Distributed Edge & Container-Based Microservices | [[@2022__IEEE ACCESS__A Survey on Observability of Distributed Edge & Container-Based Microservices]] | 「モニタリング vs オブザーバビリティ」は代替でなく補完関係。三本柱とゴールデンシグナルの 2022 年体系化。統合プラットフォームの不在が最大未解決課題 | | 2026-06-14 | ingest-paper | Chain-of-Thought Prompting Elicits Reasoning | [[@2022__NeurIPS__Chain-of-Thought Prompting Elicits Reasoning in Large Language Models]] | 連鎖思考推論は約 100B パラメータ以上で現れる創発的能力であり、少数例示で微調整なしに算術・常識・記号推論の SOTA を更新 | | 2026-06-14 | ingest-paper | Scaling Laws for Autoregressive Generative Modeling | [[@2020__arXiv__Scaling Laws for Autoregressive Generative Modeling]] | スケーリング則は言語以外の全モダリティに普遍的に成立し、最適モデルサイズの指数が画像・動画・マルチモーダル・数学問題を横断して一定 | | 2026-06-14 | ingest-paper | Scaling Laws for Neural Language Models | [[@2020__arXiv__Scaling Laws for Neural Language Models]] | 損失はモデルサイズ N・データ D・計算量 C すべてにべき乗則でスケールし、アーキテクチャ詳細への依存は小さい | | 2026-06-14 | ingest-paper | DeepSeekMath | [[@2024__arXiv__DeepSeekMath - Pushing the Limits of Mathematical Reasoning in Open Language Models]] | GRPO の初出論文。ドメイン特化コーパス構築から継続事前学習、GRPO による RL への 3 段パイプラインが DeepSeek-R1 以降の設計思想の起点 | | 2026-06-13 | ingest-paper | From Detection to Recovery (504 GPUs) | [[@2026__arXiv__From Detection to Recovery - Operational Analysis on LLM Pre-training with 504 GPUs]] | LLM 事前学習の復旧は障害検知だけで決まらず、チェックポイント・NFS/RPC キュー・ギャングスケジューリング・予備ノード占有・自動リトライ停止条件が一体で律速 | | 2026-06-13 | ingest-paper | Empowering Azure Storage with RDMA | [[@2023__NSDI__Empowering Azure Storage with RDMA]] | RDMA は LLM/HPC 向けだけでなくディスアグリゲートされたクラウドストレージの基盤。異世代 NIC・異種スイッチ・PFC/DCQCN・フェイルオーバー容量計画が本番価値を左右 | | 2026-06-12 | ingest-paper | Aurora PostgreSQL Limitless Database | [[@2026__SIGMOD Companion__Aurora PostgreSQL Limitless Database - Building a Highly Scalable OLTP Database]] | OLTP 水平スケールを PostgreSQL 互換性を残したまま、ルータ/シャード分離・時刻ベース MVCC・lead shard 付き 2PC・Serverless V2 で実現 | | 2026-06-12 | ingest-paper | Anomaly detection and root-cause identification in microservices: a survey | [[@2026__Cluster Computing__Anomaly detection and root-cause identification in microservices - a survey]] | 障害種別に合う信号源選別・依存グラフ・評価ベンチ・説明可能性の同時設計が課題。性能集計はデータセット・故障種別・指標の不統一により手法間優劣は慎重に読む必要あり | | 2026-06-11 | ingest-paper | RCAgent | [[@2024__CIKM__RCAgent - Cloud Root Cause Analysis by Autonomous Agents with Tool-Augmented Large Language Models]] | RCA エージェントの性能は LLM 推論力でなく行動空間設計で決まる。SQL/SLS 直接ツール置換が Invalid Rate 70.94% に崩壊し入力選別がデータ量だけでなく行動空間の設計問題と示す | | 2026-06-10 | ingest-paper | A System-Level Taxonomy of Failure Modes in LLM Applications | [[@2026__IEEE CAI__A System-Level Taxonomy of Failure Modes in Large Language Model Applications]] | LLM アプリケーションの信頼性は幻覚に閉じず、ツール/API・マルチエージェント通信・バージョン更新・コスト制約をまたぐシステム失敗として分類が必要 | | 2026-06-10 | ingest-paper | Twenty Years of Bigtable | [[@2026__SIGMOD Companion__Twenty Years of Bigtable]] | Bigtable 20 年史は「中核モデル維持+周辺追加」で長寿命化が成り立つことを示す。律速はデータ分割からメタデータ管理・運用標準化へ移行 | | 2026-06-08 | ingest | VictoriaMetrics KubeCon EU 2026 — Retroactive Sampling | [[@2026__VictoriaMetrics Blog__KubeCon EU 2026 Retroactive Sampling]] | エッジ 33 バイト + FIFO バッファのレトロアクティブサンプリングが、テールサンプリング比でネットワーク 70%・CPU/メモリ 60-70% を削減 | ## Key Outcomes - Kaplan+(2020) と Henighan+(2020) の二つのスケーリング則論文がべき乗則の普遍性(言語・画像・動画・数学)と Chinchilla 以前の計算最適配分理論の原点を確立。CoT(Wei+ 2022) が約 100B パラメータ閾値での創発的推論を実証し、DeepSeekMath が GRPO の初出として後続 RL パイプラインの設計思想を確定 (2026-06-14 Scaling Laws 2 本, CoT, DeepSeekMath) - 変更起因インシデントの定量分析が二本同時に入り、Ant Group の TTD 75 パーセンタイルが通常比 26.8 倍長い(Wu+ 2023)ことと、RbIC 選択で TTM 40.6% 短縮可能(Zhao+ 2023)なことが対をなして変更直後の監視・緩和設計の欠陥を立体的に定量化 (2026-06-14 Change-Induced Incidents 2 本) - Slack 実測でクエリ 97% 超が 24h 未満データを対象とし、MELT 4 型分類を初出として産業オブザーバビリティの「リアルタイム/履歴分離」原則を裏付けた (2026-06-14 Towards Observability Data Management) - Lablup の 504 GPU 運用分析が、LLM 訓練の復旧律速はチェックポイント・NFS キュー・ギャングスケジューリング・予備ノード占有の一体問題であることを示し、前バッチの大規模 GPU 障害管理体系を小中規模視点で補完 (2026-06-13 From Detection to Recovery) - Azure Storage の RDMA リージョン内展開が、異世代 NIC・PFC/DCQCN・フェイルオーバー容量計画の実運用課題を記録。LLM/HPC 向けだけでなくストレージ基盤としての RDMA の位置づけを確立 (2026-06-13 Empowering Azure Storage) - RCAgent の SQL/SLS 直接ツール置換が Invalid Rate 70.94% に崩壊し、agentic SRE の入力選別がデータ量だけでなく行動空間設計の問題であることを実証 (2026-06-11 RCAgent) - LLM アプリケーションの障害分類がシステムレベルに拡張され、意味的オブザーバビリティと検証レイヤーが運用設計の中核と位置づけられた (2026-06-10 Failure Modes Taxonomy) ## Cross-entry Themes - **スケーリング則と創発能力の理論基盤が一巡**: Kaplan+ のべき乗則(2026-06-14)、Henighan+ のモダリティ普遍性(2026-06-14)、CoT の 100B 閾値(2026-06-14)、DeepSeekMath の GRPO(2026-06-14)が、LLM の理論的基盤を「なぜスケールするか」から「どうスケールを活かすか」まで wiki に層化 - **変更起因インシデントの検知と緩和が独立して定量化**: Wu+(2023, Ant Group) が検知遅延を TTD 比 26.8 倍で、Zhao+(2023) が緩和プロセス選択を TTM 40.6% 短縮で、それぞれ独立に変更起因インシデントの構造的問題を定量。両者を合わせて「変更直後の監視強化 + 緩和戦略の早期選択」が介入軸として浮上 (2026-06-14 Change-Induced 2 本) - **エージェント型 RCA の行動空間設計が律速要因として収束**: RCAgent(2026-06-11) の Invalid Rate 崩壊と LLM Failure Modes Taxonomy(2026-06-10) のシステムレベル分類が、「推論力よりも何を見せ何を行動させるか」を RCA エージェント設計の核心として裏づけ - **オブザーバビリティデータの設計・管理が独立テーマとして確立**: MELT 4 型分類(Karumuri+ 2021)、三本柱+ゴールデンシグナル(Usman+ 2022)、レトロアクティブサンプリング(VictoriaMetrics 2026)が、観測データの分類・保存・量制御を一つの設計空間として結合 ## Contradictions or Corrections - None detected. ## Child Pages - [[@2023__ISSRE__How to Manage Change-Induced Incidents - Lessons from the Study of Incident Life Cycle]] - [[@2023__ICSE-SEIP__An Empirical Study on Change-induced Incidents of Online Service Systems]] - [[@2021__SIGMOD Record__Towards Observability Data Management at Scale]] - [[@2022__IEEE ACCESS__A Survey on Observability of Distributed Edge & Container-Based Microservices]] - [[@2022__NeurIPS__Chain-of-Thought Prompting Elicits Reasoning in Large Language Models]] - [[@2020__arXiv__Scaling Laws for Autoregressive Generative Modeling]] - [[@2020__arXiv__Scaling Laws for Neural Language Models]] - [[@2024__arXiv__DeepSeekMath - Pushing the Limits of Mathematical Reasoning in Open Language Models]] - [[@2026__arXiv__From Detection to Recovery - Operational Analysis on LLM Pre-training with 504 GPUs]] - [[@2023__NSDI__Empowering Azure Storage with RDMA]] - [[@2026__SIGMOD Companion__Aurora PostgreSQL Limitless Database - Building a Highly Scalable OLTP Database]] - [[@2026__Cluster Computing__Anomaly detection and root-cause identification in microservices - a survey]] - [[@2024__CIKM__RCAgent - Cloud Root Cause Analysis by Autonomous Agents with Tool-Augmented Large Language Models]] - [[@2026__IEEE CAI__A System-Level Taxonomy of Failure Modes in Large Language Model Applications]] - [[@2026__SIGMOD Companion__Twenty Years of Bigtable]] - [[@2026__VictoriaMetrics Blog__KubeCon EU 2026 Retroactive Sampling]] - [[RCAgent]] - [[Aurora Limitless Database]] - [[Retroactive Sampling]] - [[VictoriaTraces]] - [[RDMA Estats]] - [[Azure Storage]] - [[Chain-of-Thought Prompting]] - [[スケーリング則]] - [[LLMスケーリング則]] - [[変更起因インシデント]] - [[インシデントTTM予測]] - [[LLMアプリケーション信頼性]] - [[分散 PostgreSQL]] - [[オブザーバビリティデータモデル]] - [[GRPO]] - [[Backend.AI]] - [[Sokovan]] ## Related - [[DragonScale Memory]] - fold-operator spec - [[log]] - source entries - [[index]] - vault catalog