# Concepts Index Navigation: [[index]] | [[entities/_index]] | [[sources/_index]] 複数ソースを横断して抽出した概念ページの一覧。各 concept は定義・関連実体/ソースへのリンク・関連 `structures/*.MOC.md` への一方向参照に加え、**横断的知見**(複数ソースを並べて初めて見える観察)と**未解決の問い**(次に調べるべき問い)の 2 節を持ち、ingest のたびに更新する(規約は [[conventions]] §8)。 --- - [[agentic SRE]] — AI エージェントが本番障害を診断・緩和する営み(SRE / AIOps) - [[SRE Benchmark]] — AI SRE エージェントを評価するライブ環境ベースの評価基盤(SRE / benchmark) - [[Transactional No-Regression]] — agentic SRE の安全仕様(TNR)。安全に巻き戻せる試行で緩和を改善(agentic SRE / safety) - [[Metastable Failure]] — トリガ除去後も回復しない自己持続的な輻輳崩壊(distributed systems / reliability) - [[AIOps]] — IT 運用タスクを AI で自動化する営み(detection/localization/RCA/mitigation の 4-level taxonomy・AgentOps)(AIOps / cloud operations) - [[障害予測]] — 障害が業務に影響する前に予測し予防する proactive な営み(reactive な AIOps の対極)(AIOps / cloud operations) - [[障害緩和]] — 診断結果から復旧アクションを実行しシステムを健全状態へ戻す保守ライフサイクルの最終段(AIOps の 4-level taxonomy 最上位 Mitigation)(SRE / AIOps) - [[SRE AI Autonomy Levels]] — 本番運用への AI 自律度を L0–L4 で段階化する Google の統治フレームワーク(SRE / AIOps / governance) - [[根本原因分析]] — 障害の根本原因(system 層・fault 種別・因果連鎖)を判定する AIOps 4-level 第 3 段。hypothesis-driven investigation が中心設計(SRE / AIOps) - [[時系列基盤モデル]] — 多ドメイン時系列で事前学習し zero-shot 予測する基盤モデル(TSFM)。観測データは統計的特性が異なり専用設計を要する(machine-learning / time-series) - [[多変量時系列予測]] — 変量間の依存(相乗的・拮抗的)を活用して複数系列を同時予測するタスク。TSFM の cross-variate 方式(flatten/factorized/group/prototype routing)を横断集約(machine-learning / time-series) - [[Fault Localization]] — failure 検知後に fault の発生源(root fault metrics/component)を telemetry から特定する AIOps 4-level 第 2 段。統計手法と LLM エージェントの対比(SRE / AIOps) - [[特徴量削減]] — fault localization の前処理として無関係メトリクスを減らす営み(normality/redundancy reduction)。過剰削減と過少削減のトレードオフ(AIOps / time-series) - [[変化点検知]] — 時系列の統計的性質の変化点を特定するタスク(anomaly detection と区別)。normal 窓の事前指定が不要(time-series / AIOps) - [[テレメトリ]] — システムの挙動・性能データを自動収集・分析する営み。instrumentation/storage/mining の 3 層と time/path-oriented データ(distributed systems / observability) - [[時系列データベース]] — metrics を取り込み・保持・クエリする DBMS(TSDB)。TSDA vs TSDBMS、tiering、インデックス構造のトレードオフ(distributed systems / time-series) - [[分散トレーシング]] — コンポーネント間 network call を捕捉し call graph を構築する営み。socket-based 手法の 4 系統(time-oriented でなく path-oriented)(distributed systems / observability) - [[LLM分散学習]] — 大規模 LLM を数万 GPU で訓練する営みとシステム総体。SER(Scalability/Efficiency/Reliability)の 3 軸とインフラ/並列化/最適化/fault tolerance の 4 層(machine-learning systems / distributed systems) - [[並列化戦略]] — LLM の計算/メモリ/通信を複数デバイスに分割する方式。data/tensor/pipeline/sequence/expert の hybrid・auto・heterogeneous の 3 系統(machine-learning systems / distributed systems) - [[Mixture-of-Experts]] — FFN を sparsely activated に置換する Transformer 変種(MoE)。expert parallelism の sparse activation/通信/load balance(machine-learning systems) - [[オープンネットワーキング]] — NOS を ASIC から切り離す vendor-neutral fabric。SONiC/SAI/RoCEv2 が InfiniBand 代替となる条件と cross-layer チューニングの代償(networking / HPC) - [[GPUクラスタ運用]] — AI ワークロードの scheduling・監視・障害対応とワークロード動態(job 分布・cancellation・フェーズ遷移・fault landscape)(distributed systems / HPC)