# Operation Log
Navigation: [[index]] | [[hot]] | [[overview]]
追記式。新規エントリは**先頭**に追加する。過去エントリは編集しない。
エントリ形式: `## [YYYY-MM-DD] operation | Title`
直近の参照: `grep "^## \[" wiki/log.md | head -10`
---
## [2026-06-03] ingest-paper | SAKURAONE: An Open Ethernet-Based AI HPC System and Its Observed Workload Dynamics in a Single-Tenant LLM Development Environment
- Source: `.raw/papers/arxiv-2604.13600.pdf`(Konishi+, [[SAKURA Internet]] Research Center, MLSys 2026 採録 / arXiv:2604.13600, v1 2026-04-15 / v2 2026-04-16, cs.DC/cs.NI, 15p)。fetch-paper-pdf.sh で取得(初回 429、サンドボックス無効化で再取得)、書誌は arXiv abs を WebFetch で裏取り(MLSys 2026 採録・著者 3 名 equal contribution を確認)。
- Summary: [[2026__MLSys2026__SAKURAONE - An Open Ethernet-Based AI HPC System]]
- Pages created: [[Fumikazu Konishi]], [[SAKURAONE]], [[SONiC]], [[オープンネットワーキング]], [[GPUクラスタ運用]]
- Pages updated: [[Yuuki Tsubouchi]], [[Hirofumi Tsuruta]], [[SAKURA Internet]], [[LLM分散学習]], [[並列化戦略]], [[index]], [[hot]], [[sources/_index]], [[entities/_index]], [[concepts/_index]]
- Key insight: vault 所有者 [[Yuuki Tsubouchi]] の共著・本 wiki 初の HPC/open networking 一次論文。SONiC + RoCEv2 のフルオープン 800 GbE が NVIDIA Eos(InfiniBand)比 time-to-train 1.02–1.26× を達成し、mid-scale(800 GPU)単一テナント LLM 開発のワークロード動態(small-job が件数支配・large-job が GPU 時間支配、cancellation 73.5%、CPT→fine-tuning フェーズ遷移、21 fault の 42.9% が GPU 起因)を telemetry から定量化。MFU 38–41% の規模非依存性・hardware 起因 dominant の連続性を [[LLM分散学習]]/[[並列化戦略]] の hyperscale ソースと突き合わせた。
## [2026-06-03] ingest-paper | MegaScale: Scaling Large Language Model Training to More Than 10,000 GPUs
- Source: `.raw/papers/nsdi24-jiang-ziheng.pdf`(Jiang+, [[ByteDance]]/[[Peking University]], NSDI '24, 2024-04-16, 16p)、スライド `.raw/papers/nsdi24-slides-jiang-ziheng.pdf`(17p)。USENIX 発表ページ(usenix.org/conference/nsdi24/presentation/jiang-ziheng)は WebFetch が 403 のため curl(User-Agent 付き)で HTML 取得 → 論文/スライド PDF の直リンクを抽出。論文 PDF は fetch-paper-pdf.sh、スライド PDF は curl で取得し pdftotext 抽出。
- Summary: [[2024__NSDI__MegaScale - Scaling Large Language Model Training to More Than 10,000 GPUs]]
- Pages created: [[MegaScale]], [[ByteDance]], [[Megatron-LM]], [[Ziheng Jiang]], [[Xin Jin]], [[Xin Liu]]
- Pages updated: [[LLM分散学習]], [[並列化戦略]], [[index]], [[hot]], [[sources/_index]], [[entities/_index]]
- Key insight: 直前に入れた LLM 訓練サーベイ([[2026__Vicinagearth__Efficient Training of Large Language Models on Distributed Infrastructures - A Survey]])の taxonomy を本番システムで裏取りする ML systems クラスタ初の一次論文。サーベイの「数万 GPU で MFU 38〜41%」に対し MegaScale は 12,288 GPU で 55.2%(Megatron-LM 比 1.34×)を実測し、Efficiency 軸は宿命でなく algorithm-system co-design 問題であることを確定。Reliability 軸は数週間本番 run で 100 回超の自動復旧という具体形を与え、§5 の straggler 診断(単一 GPU benchmark では不可視・distributed timeline trace で起因特定)が本番サービス AIOps([[Fault Localization]]/[[分散トレーシング]])と同型の distributed-view 課題であることを横断的知見化。
- Note: concept は新設せず既存 [[LLM分散学習]]/[[並列化戦略]] を seed→developing に充填(規約 §8)。[[Peking University]] は既存ページを温存し参照のみ。
## [2026-06-03] ingest-paper | Efficient Training of Large Language Models on Distributed Infrastructures: A Survey
- Source: `.raw/papers/arxiv-2407.20018.pdf`(Duan+, arXiv:2407.20018, 2024-07-29 投稿, 42p; 正式出版は論文誌 Vicinagearth Vol.3 Issue 1 Article 38, Springer, 2026-06-01, DOI:10.1007/s44336-026-00038-z。書誌は Crossref API で確定、Springer 本体は認証リダイレクトのため未取得)
- Summary: [[2026__Vicinagearth__Efficient Training of Large Language Models on Distributed Infrastructures - A Survey]]
- Pages created: [[LLM分散学習]], [[並列化戦略]], [[Mixture-of-Experts]], [[Shanghai AI Laboratory]], [[Jiangfei Duan]], [[Peng Sun]]
- Pages updated: [[index]], [[hot]], [[concepts/_index]], [[entities/_index]], [[sources/_index]]
- Key insight: 本 wiki 初の LLM 訓練インフラ・別ドメイン。SER(Scalability/Efficiency/Reliability)の 3 軸とインフラ/並列化/最適化/fault tolerance の 4 層で AIOps/SRE/時系列とは独立した ML systems クラスタを新設。§8 fault tolerance の anomaly detection/failure analysis が運用 observability と語彙を共有する点を弱い接点として明示。
- Process note: 42p の大作のため本文(行158–2165)を 4 区間に分割し並行サブエージェントで精読・構造化してから統合。引用システムは数百あるが entity は中核(主所属・主要著者)に絞った。
## [2026-06-03] ingest-paper | Scaling Telemetry Workloads in Cloud Applications: Techniques for Instrumentation, Storage, and Mining
- Source: `.raw/papers/kyoto-djohk00908.pdf`([[Yuuki Tsubouchi]] の京都大学博士学位論文, 2025-03, 112p; 京都大学学術情報リポジトリの DSpace REST API `/server/api/core/bitstreams/<uuid>/content` から PDF を curl で取得・pdftotext で抽出。フロントエンドの `/bitstreams/<uuid>/download` は SPA shell HTML を返すため REST API content endpoint を使用)
- Summary: [[2025__Kyoto University__Scaling Telemetry Workloads in Cloud Applications - Techniques for Instrumentation, Storage, and Mining]]
- Pages created: [[HeteroTSDB]], [[go-conntracer-bpf]], [[Mackerel]], [[Hatena]], [[Kyoto University]], [[Ryosuke Matsumoto]], [[テレメトリ]], [[時系列データベース]], [[分散トレーシング]]
- Pages updated: [[Yuuki Tsubouchi]], [[特徴量削減]], [[Fault Localization]], [[index]], [[hot]], [[sources/_index]], [[entities/_index]], [[concepts/_index]]
- Key insight: 既取り込みの [[MetricSifter]](mining 層)の足元に、本論文が instrumentation 層([[分散トレーシング]]: in-kernel flow bundling)と storage 層([[時系列データベース]]: [[HeteroTSDB]])を補い、[[テレメトリ]]を 3 層の枠組みとして wiki に確立。§6.2 の設計指針「データ削減は文脈が豊富な両端(instrumentation・mining)で、storage は context 非依存に」が、MetricSifter の [[特徴量削減]] と LLM エージェントの telemetry 過剰消費病理を貫く「情報を絞る」骨格を収集の最上流まで一般化する。future direction の LLM failure snapshot が [[Bits AI SRE]]/[[根本原因分析]] に接続。
- Note: 既存 [[Yuuki Tsubouchi]] の「2023 年博士号取得」記述と本論文表紙の「March, 2025」が食い違う。一次資料(本論文)に合わせ年を明示しない記述へ修正し、note callout で差異を明記。
## [2026-06-03] ingest-paper | MetricSifter: Feature Reduction of Multivariate Time Series Data for Efficient Fault Localization in Cloud Applications
- Source: `.raw/papers/ieee-10462133-metricsifter.pdf`(IEEE Access vol.12, pp.37398–37417, DOI:10.1109/ACCESS.2024.3374334; 著者 [[Yuuki Tsubouchi]]・[[Hirofumi Tsuruta]]([[SAKURA Internet]] Research Center); IEEE stamp PDF を curl で取得・pdftotext で 20p 抽出、書誌/abstract は IEEE メタデータ JSON で裏取り)
- Summary: [[2024__IEEE Access__MetricSifter - Feature Reduction of Multivariate Time Series Data for Efficient Fault Localization in Cloud Applications]]
- Pages created: [[Yuuki Tsubouchi]], [[Hirofumi Tsuruta]], [[SAKURA Internet]], [[MetricSifter]], [[Meltria]], [[Sock Shop]], [[PyRCA]], [[Fault Localization]], [[特徴量削減]], [[変化点検知]]
- Pages updated: [[根本原因分析]], [[AIOps]], [[Train-Ticket]], [[index]], [[hot]], [[sources/_index]], [[entities/_index]], [[concepts/_index]]
- Key insight: MetricSifter(pre-LLM, 2024)が示す「無関係メトリクス $M_C$ がノイズとして localization を阻害する」課題は、後年 LLM エージェント([[Bits AI SRE]]/[[AIOpsLab]] §3.6)が観測した「telemetry 過剰消費で性能が落ちる」病理と同型。情報を絞ってから診断する骨格が手法世代を超えて連続する。本 wiki 初の vault 所有者自身の論文。
## [2026-06-03] ingest-paper | Falcon-X: A Time Series Foundation Model for Heterogeneous Multivariate Modeling
- Source: `.raw/papers/arxiv-2605.27286.pdf`(arXiv:2605.27286v1 [cs.LG], 投稿 2026-05-26; 著者 Yiding Liu ほか計8名, [[Ant International]](連絡先 @ant-intl.com、正式所属表記なし); PDF 31p を fetch-paper-pdf.sh で取得、abstract/書誌は arXiv abs で裏取り)
- Summary: [[2026__arXiv__Falcon-X - A Time Series Foundation Model for Heterogeneous Multivariate Modeling]]
- Pages created: [[Falcon-X]], [[Ant International]], [[Chronos-2]], [[GIFT-Eval]], [[fev-bench]], [[多変量時系列予測]]
- Pages updated: [[時系列基盤モデル]], [[index]], [[hot]], [[sources/_index]], [[entities/_index]], [[concepts/_index]]
- Key insight: TSFM 2 ソース目。Toto の「観測データ特化」に対し Falcon-X は「異種多変量の cross-variate モデリング」を主眼に、変量を latent prototype 空間へ decouple し differential attention で正負の依存を表現。raw-space group attention([[Chronos-2]])の semantic collapse を批判。GIFT-Eval で全体最高だが SRE 下流タスクは未評価。
## [2026-06-03] ingest-paper | This Time is Different: An Observability Perspective on Time Series Foundation Models
- Source: `.raw/papers/arxiv-2505.14766.pdf`(arXiv:2505.14766 v2, NeurIPS 2025 poster; 著者 Ben Cohen, Emaad Khwaja ほか計19名, Datadog AI Research / Carnegie Mellon University; PDF 38p を fetch-paper-pdf.sh で取得、abstract/書誌は arXiv abs + NeurIPS poster page で裏取り)
- Summary: [[2025__NeurIPS2025__This Time is Different - An Observability Perspective on Time Series Foundation Models]]
- Pages created: [[Toto]], [[BOOM]], [[Ameet Talwalkar]], [[Carnegie Mellon University]], [[時系列基盤モデル]]
- Pages updated: [[Datadog]], [[index]], [[hot]], [[sources/_index]], [[entities/_index]], [[concepts/_index]]
- Key insight: wiki 初の純 ML(時系列予測)ソースで、これまでの AIOps/SRE エージェント系列とは別軸。ただし出所は [[Datadog]] で 3 例目——SRE エージェント([[Bits AI SRE]])の足元にある**観測 telemetry の予測モデル層**として接続する。観測データ(observability metrics)が一般時系列と統計的に異なる(KPSS・skew・spectral entropy・flat spots 等が極端、§4.3)ことを定量化し、専用 decoder-only アーキテクチャ(patch-based causal scaling・proportional factorized attention 11:1・Student-T mixture head・composite robust loss)で zero-shot SOTA を達成。事前学習 2.36 兆点(43% が Datadog 匿名観測メトリクス)。[[BOOM]] で CRPS 次点比12.4%・MASE 13.1% 改善、GIFT-Eval(Rank 5.495)・LSF でも SOTA。重み/コード/データを Apache 2.0 公開。
- 判断: 著者19名中 entity 化は senior author の [[Ameet Talwalkar]](CMU、被参照価値高)と所属 [[Carnegie Mellon University]] のみに絞り、残る著者は source に記録(取捨選択は機能)。concept は精度の合う [[時系列基盤モデル]] 1 件を新設し `structures/時系列基盤モデル - MOC` に一方向リンク。1 ソース目のため横断的知見は薄く、未解決の問い(汎用 TSFM が観測データで苦戦する原因の切り分け等)を充実させた。
## [2026-06-03] ingest | Building Bits AI SRE: Autonomous Incident Investigation Agent
- Source: `.raw/articles/building-bits-ai-sre-2026-06-03.md`(datadoghq.com/blog/building-bits-ai-sre, fetched 2026-06-03; 著者 Daniel Shan, Tristan Ratchford; WebFetch で取得、defuddle はサンドボックス網制限で不可)
- Summary: [[2026__Datadog__Building Bits AI SRE - Autonomous Incident Investigation Agent]]
- Pages created: [[Datadog]], [[Bits AI SRE]], [[根本原因分析]]
- Pages updated: [[agentic SRE]], [[SRE Benchmark]], [[AIOps]], [[index]], [[hot]], [[sources/_index]], [[entities/_index]], [[concepts/_index]]
- Key insight: 産業界 2 例目の一次情報。[[Google]] が全 SRE ライフサイクル+自律緩和(L2/L3)を語るのに対し、[[Bits AI SRE]] は**調査・RCA 段に特化**(緩和は将来の specialist agent 統合に委ねる)。AIOps 4-level taxonomy で唯一 concept 未作成だった **RCA(第 3 段)** を [[根本原因分析]] として新設。骨格は hypothesis-driven investigation(全 telemetry 一括要約でなく仮説検証の反復)・causal relationship focus(初期版の 12+ tool call による context overload を回避)・recursive depth(sub-hypothesis 分解で深掘り)。これは学術ベンチが観測した「情報を取りすぎる病理」([[AIOpsLab]] §3.6・[[SREGym]] greedy・[[MicroRemed]] 過剰 probing)を産業実装が製品設計の出発点として明示回避したもの。評価は実インシデント再生+LLM judge で [[Google]] の continuous eval と同骨格、TTR 最大 95% 減を主張。
- 判断: 著者 2 名(Daniel Shan・Tristan Ratchford)はブログ著者で他ソースと交差せず被参照価値が低いため person entity を作らず source に記録。entity は組織 [[Datadog]] と製品 [[Bits AI SRE]] のみ。RCA は taxonomy のギャップを埋める cross-cutting concept として新設(既存 [[障害緩和]]/[[障害予測]] と並ぶ)。
## [2026-06-03] ingest | AI in SRE: How Google is Engineering the Future of Reliable Operations
- Source: `.raw/articles/ai-engineering-reliable-operations-2026-06-03.md`(sre.google, fetched 2026-06-03; 著者 Ioannis Papapanagiotou, Stevan Malesevic, Chris Heiser, Ruslan Meshenberg; defuddle はサンドボックス網制限で不可、WebFetch で取得)
- Summary: [[2026__GoogleSRE__AI in SRE - Engineering the Future of Reliable Operations]]
- Pages created: [[SRE AI Autonomy Levels]], [[Google]], [[AI Operator]], [[Actus]], [[Detectr]], [[Model Context Protocol]]
- Pages updated: [[agentic SRE]], [[Transactional No-Regression]], [[SRE Benchmark]], [[AIOps]], [[障害予測]], [[index]], [[hot]], [[sources/_index]], [[entities/_index]], [[concepts/_index]]
- Key insight: 本 wiki 初の産業界・本番運用一次情報。学術ベンチがエージェントの**タスク成功率**で測るのに対し、Google は **SRE AI Autonomy Levels(L0–L4)** という権限委譲の段階で AI-Ops を統治する(直交軸)。推論([[AI Operator]])と actuation([[Actus]]: dry-run・Red Button)の分離は [[Transactional No-Regression]] の産業実装に相当。LLM-as-a-Judge と Bronze/Silver/Gold 評価が産業の continuous eval として登場。「L2/L3 自律緩和を本番稼働」の主張は学術ベンチの能力天井(6 割前後・5〜20 step saturate)とテンションがあり [[agentic SRE]] に contradiction callout を設置。
- 判断: 著者 4 名は一次情報での被参照価値が低い(他ソースと交差しない産業著者)ため person entity を作らず source に記録。Google 社内システムは architecturally 重要な [[AI Operator]] / [[Actus]] / [[Detectr]] と標準 [[Model Context Protocol]] のみ entity 化し、AI Alert/InvD/IRMA/Antigravity CLI/Production Agent は source 本文に記述。
## [2026-06-03] ingest-paper | MicroRemed: Benchmarking LLMs in Microservices Remediation
- Source: `.raw/papers/arxiv-2511.01166.pdf`(arXiv:2511.01166v1 [cs.CL], 2025-11-03; PKU/Alibaba/Tsinghua; code: github.com/LLM4AIOps/MicroRemed)
- Summary: [[2025__arXiv__MicroRemed - Benchmarking LLMs in Microservices Remediation]]
- Pages created: [[MicroRemed]], [[ThinkRemed]], [[Ansible]], [[Train-Ticket]], [[Online-Boutique]], [[Lingzhe Zhang]], [[Tong Jia]], [[Peking University]], [[Alibaba Group]], [[障害緩和]]
- Pages updated: [[AIOps]], [[agentic SRE]], [[SRE Benchmark]], [[index]], [[hot]], [[sources/_index]], [[entities/_index]], [[concepts/_index]]
- Key insight: AIOps 4-level taxonomy の最上位 Mitigation を「診断レポート→実行可能 Ansible playbook の生成(E2E-MR)」として切り出した初の専門ベンチ。ThinkRemed の ablation が reflection > probe・過剰 probing の害を示し、[[Stratus]]・[[SREGym]] の「反復と反省が緩和の鍵」と独立に一致。chaos injection を緩和評価に積極採用する点で SREGym と立場が分岐。
## [2026-06-03] ingest-paper | PAGER: Proactive Monitoring Agent for Enterprise AI Assistant
- Source: `.raw/papers/aaai2026-pager.pdf`(AAAI-26 デモ, pp. 41574–41576; CAIS 2026 デモ; DOI:10.1609/aaai.v40i48.42344; OJS galley 46305)
- Summary: [[2026__AAAI__PAGER - Proactive Monitoring Agent for Enterprise AI Assistant]]
- Pages created: [[PAGER]], [[Adobe Experience Platform]], [[Adobe]], [[Yunyao Li]], [[障害予測]]
- Pages updated: [[AIOps]], [[index]], [[hot]], [[sources/_index]], [[entities/_index]], [[concepts/_index]]
- Key insight: reactive 一色だった wiki に proactive な[[障害予測]]の軸を追加。PAGER は予測を古典 random forest、LLM を説明・対話インターフェース層に限定するハイブリッド構成。
## [2026-06-03] ingest | STRATUS: A Multi-agent System for Autonomous Reliability Engineering of Modern Clouds
- Source: `.raw/articles/stratus-neurips2025-poster-116834-2026-06-03.md`(NeurIPS 2025 poster; arXiv:2506.02009、OpenReview fYW1PKawwJ)
- Summary: [[2025__NeurIPS2025__STRATUS - A Multi-agent System for Autonomous Reliability Engineering of Modern Clouds]]
- Pages created: [[2025__NeurIPS2025__STRATUS - A Multi-agent System for Autonomous Reliability Engineering of Modern Clouds]], [[Transactional No-Regression]], [[Saurabh Jha]]
- Pages updated: [[Stratus]], [[agentic SRE]], [[SRE Benchmark]], [[AIOpsLab]], [[ITBench]], [[Yinfang Chen]], [[Tianyin Xu]], [[index]], [[hot]]
- Key insight: これまで [[SREGym]] 経由の二次情報([[Stratus]] entity)でしか持っていなかった STRATUS を一次論文に格上げ。SREGym が観測した「undo-and-retry が最強の緩和を生む」は、一次論文が安全仕様 [[Transactional No-Regression]] (TNR) として形式化したものと符合。AIOpsLab・ITBench 両ベンチで SOTA を 1.5 倍上回ると主張し、複数ベンチ横断評価が標準化しつつある(ベンチ作者 [[Saurabh Jha]] がエージェント共著者でもある)。
## [2026-06-03] ingest-paper | AIOpsLab: A Holistic Framework to Evaluate AI Agents for Enabling Autonomous Clouds
- Source: `.raw/papers/arxiv-2501.06706.pdf`(MLSys 2025; arXiv:2501.06706v1, 2025-01-12)
- Summary: [[2025__MLSys2025__AIOpsLab - A Holistic Framework to Evaluate AI Agents for Enabling Autonomous Clouds]]
- Pages created: [[Yinfang Chen]], [[Minghua Ma]], [[Microsoft]], [[DeathStarBench]], [[ChaosMesh]], [[AIOps]]
- Pages updated: [[AIOpsLab]], [[University of Illinois Urbana-Champaign]], [[SRE Benchmark]], [[agentic SRE]], [[index]], [[hot]], [[sources/_index]], [[entities/_index]], [[concepts/_index]]
- Key insight: AIOpsLab(2025)は障害を detection/localization/RCA/mitigation の 4 サブ問題に分解して個別採点し、application/virtualization 層中心。後続 SREGym(2026)はこれを end-to-end 評価+層横断 fault+noise で乗り越える。両者は AgentOps/agentic SRE と別名で同じ営みを指し、独立に「エージェントが最初の仮説に固執し telemetry を取りすぎる」失敗を観測。
- Contradiction: SREGym 由来の「AIOpsLab は ReAct ループを要求/非 ReAct は移植必要」は一次論文(get_action のみ要求、任意 framework 可)と食い違い。[[AIOpsLab]] に callout 設置。
## [2026-06-03] ingest-paper | SREGym: A Live Benchmark for AI SRE Agents with High-Fidelity Failure Scenarios
- Source: `.raw/papers/arxiv-2605.07161.pdf`(arXiv:2605.07161v2, 2026-05-13)
- Summary: [[2026__arXiv__SREGym - A Live Benchmark for AI SRE Agents with High-Fidelity Failure Scenarios]]
- Pages created: [[SREGym]], [[Stratus]], [[AIOpsLab]], [[ITBench]], [[Tianyin Xu]], [[University of Illinois Urbana-Champaign]], [[agentic SRE]], [[SRE Benchmark]], [[Metastable Failure]]
- Pages updated: [[index]], [[hot]], [[sources/_index]], [[entities/_index]], [[concepts/_index]]
- Key insight: 高忠実度の SRE ベンチは noise・低位層(OS/hardware)fault・metastable/concurrent/correlated の障害モードを区別軸に置く。フロンティアエージェントはアプリ層には強いが、これら新障害で E2E が 60%→18–28% に崩れ、greedy approach で最初の異常に固着する。
## [2026-06-02] init | LLM wiki レイヤー初期化
- Type: setup
- mode=generic、transport=filesystem(GUI バイナリ誤検出回避のため manual_override で固定)
- 作成: `.raw/`、`wiki/{sources,entities,concepts,questions,meta}/`、`.vault-meta/{mode,transport}.json`
- helper コピー: `scripts/{wiki-mode.py,wiki-lock.sh,detect-transport.sh}`
- スコープ: 新規ソースのみ。既存 papers/・research/・structures/ は ingest しない。