# Entities Index Navigation: [[index]] | [[concepts/_index]] | [[sources/_index]] ソースに登場する実体(人物・組織・システム・データセット・プロジェクト)ページの一覧。 --- ## Product / System - [[SAKURAONE]] — SAKURA Internet の 800 GPU(100×H100)オープン Ethernet AI–HPC クラスタ(SONiC+RoCEv2 の 800 GbE、TOP500 HPL 49 位・トップ 100 唯一のフルオープン networking stack) - [[SONiC]] — オープンソースの network OS。SAI で switching ASIC を抽象化(RoCEv2 の lossless Ethernet を提供、SAKURAONE 採用) - [[MegaScale]] — ByteDance/PKU の 10,000 GPU 超 LLM 訓練本番システム(175B を 12,288 GPU・55.2% MFU、Megatron-LM 基盤) - [[Megatron-LM]] — NVIDIA の SOTA OSS LLM 訓練フレームワーク(3D parallelism、MegaScale の基盤兼ベースライン) - [[SREGym]] — AI SRE エージェント向けの高忠実度ライブベンチマーク兼フレームワーク - [[Stratus]] — multi-agent の SRE エージェント(undo-and-retry 機構) - [[AIOpsLab]] — 自律クラウド向け AIOps エージェント評価フレームワーク(AgentOps を提唱、SREGym の先行ベンチマーク) - [[ITBench]] — 多様な IT 自動化タスクの AI エージェント評価ベンチマーク(先行ベンチマーク) - [[ChaosMesh]] — Kubernetes 向け chaos engineering / fault injection ツール(AIOpsLab が symptomatic fault 注入に統合) - [[PAGER]] — enterprise AI assistant 向けの proactive な障害予測・説明・対話支援エージェント(Adobe) - [[Adobe Experience Platform]] — Adobe の大規模 customer data platform(PAGER の対象運用環境) - [[MicroRemed]] — end-to-end microservice remediation を評価する初の live ベンチマーク(PKU/Alibaba) - [[ThinkRemed]] — SRE 的反復推論を模す microservice remediation の multi-agent フレームワーク(MicroRemed の reference 手法) - [[Ansible]] — 宣言的・agentless な IT 自動化フレームワーク(MicroRemed の緩和アクション出力形式) - [[AI Operator]] — Google の自律 first-responder agent(並列調査・L2/L3 稼働、推論を [[Actus]] と分離) - [[Actus]] — Google の actuation 統一 control plane 兼 safety gateway(dry-run・"Red Button") - [[Detectr]] — Google の Gemini 駆動 outage 検知プラットフォーム(user feedback を一次シグナル化) - [[Model Context Protocol]] — AI エージェントとツール接続を標準化するオープン仕様(MCP、Production Agent/A2A) - [[Bits AI SRE]] — Datadog の自律インシデント調査・RCA エージェント(hypothesis-driven、調査・RCA 段に特化) - [[Toto]] — Datadog の観測データ特化 zero-shot 時系列予測基盤モデル(151M、decoder-only) - [[Falcon-X]] — Ant International の異種多変量向け encoder-only 時系列基盤モデル(591M、latent prototype routing) - [[Chronos-2]] — group attention で多変量・in-context learning を可能にした時系列基盤モデル(Falcon-X の主要比較対象) - [[MetricSifter]] — fault localization 前処理の feature reduction フレームワーク(change point detection + KDE、教師なし・multivariate、SAKURA Internet) - [[PyRCA]] — metric-based root cause analysis ライブラリ(MetricSifter の合成データ生成器兼 FL ベースライン、Salesforce) - [[HeteroTSDB]] — 異種 KVS を TTL ベースで階層 tiering する TSDA(memory-KVS + disk-KVS、KairosDB 比 3.98 倍 ingestion、Mackerel に実投入) - [[go-conntracer-bpf]] — in-kernel flow bundling を実装した eBPF ネットワーク flow tracer の Go ライブラリ(博士論文 Chapter 3 の社会実装) - [[Mackerel]] — Hatena の SaaS サーバ監視サービス。HeteroTSDB の本番採用先(mackerel.io) ## Repository / Dataset - [[DeathStarBench]] — microservice ベンチマークスイート(AIOpsLab・SREGym 双方の testbed) - [[Train-Ticket]] — 鉄道予約題材の大規模 microservice benchmark(MicroRemed の最難環境、Zhou+ 2018) - [[Online-Boutique]] — Google の cloud-first microservices デモ(= microservices-demo、MicroRemed 採用) - [[Sock Shop]] — 靴下販売題材の microservice benchmark(MetricSifter の empirical study、7 microservices、Weaveworks) - [[Meltria]] — microservices の障害データセット生成基盤(MetricSifter の empirical データ作成、github.com/ai4sre/meltria) - [[BOOM]] — 実運用 telemetry のみで構成した観測時系列予測 benchmark(2,807系列・約3.5億点、Datadog) - [[GIFT-Eval]] — 汎用時系列予測モデル評価の benchmark(15 univariate + 8 multivariate、7 ドメイン、144K 系列) - [[fev-bench]] — 現実的な時系列予測 benchmark(100 タスク、観測系 BOOMLET= BOOM 部分集合を含む) ## Person - [[Tianyin Xu]] — SREGym の最終著者(UIUC) - [[Yinfang Chen]] — AIOpsLab・SREGym・STRATUS の第一/共著者(UIUC) - [[Saurabh Jha]] — ITBench 主導著者・STRATUS 共著者(IBM Research) - [[Minghua Ma]] — AIOpsLab corresponding author(Microsoft、AIOps 研究を多数主導) - [[Yunyao Li]] — PAGER のシニア著者(Adobe、enterprise AI assistant 研究) - [[Lingzhe Zhang]] — MicroRemed 等の第一著者(PKU、AIOps/LLM for SRE を多作) - [[Tong Jia]] — MicroRemed corresponding author(PKU、AIOps 研究を主導) - [[Ameet Talwalkar]] — Toto 論文の senior author(CMU 兼 Datadog) - [[Yuuki Tsubouchi]] — MetricSifter 筆頭著者・博士論文著者・SAKURAONE 共著者・本 vault 所有者(SAKURA Internet Research Center、元 Hatena SRE) - [[Hirofumi Tsuruta]] — MetricSifter 第 2 著者・SAKURAONE 共著者(SAKURA Internet Research Center、機械学習) - [[Fumikazu Konishi]] — SAKURAONE 論文の筆頭著者・corresponding author(SAKURA Internet Research Center) - [[Ryosuke Matsumoto]] — Transtracer / socket-based tracing 論文の共著者(博士論文 Chapter 3 の基) - [[Jiangfei Duan]] — LLM 訓練システムサーベイの筆頭著者(Shanghai AI Lab / CUHK) - [[Peng Sun]] — LLM 訓練システムサーベイの corresponding author(Shanghai AI Lab) - [[Ziheng Jiang]] — MegaScale 論文の筆頭著者(ByteDance、equal contribution) - [[Xin Jin]] — MegaScale 論文の責任著者(Peking University) - [[Xin Liu]] — MegaScale 論文の責任著者(ByteDance) ## Organization - [[University of Illinois Urbana-Champaign]] — SRE/AIOps エージェント評価研究の主要機関(SREGym・AIOpsLab) - [[Microsoft]] — AIOpsLab の主要所属(AIOps/incident management 研究拠点) - [[Adobe]] — Adobe Experience Platform と PAGER を擁する企業 - [[Peking University]] — MicroRemed の主所属(AIOps/LLM for SRE 研究拠点) - [[Alibaba Group]] — MicroRemed の共同所属、Qwen3 シリーズの開発元 - [[Google]] — SRE 発祥企業。AI-Ops を Cloud/Ads/YouTube/Search の本番に展開(本 wiki 初の産業界一次情報) - [[Datadog]] — observability/監視 SaaS ベンダ。自律 SRE エージェント Bits AI SRE・時系列基盤モデル Toto を開発(産業界 2 例目) - [[Carnegie Mellon University]] — Toto 論文に Datadog AI Research と共同参加した大学 - [[Shanghai AI Laboratory]] — LLM 訓練システムサーベイの主所属。InternLM/InternEvo を擁する中国の AI 研究機関 - [[ByteDance]] — 10,000 GPU 超 AI クラスタで LLM を訓練する企業。MegaScale の開発・運用主体(veScale OSS) - [[Ant International]] — 時系列基盤モデル Falcon-X を開発した企業組織(連絡先 @ant-intl.com) - [[SAKURA Internet]] — 日本のクラウド事業者。SAKURA Internet Research Center を擁し MetricSifter を生んだ - [[Hatena]] — 監視 SaaS Mackerel を運営する日本企業。Yuuki Tsubouchi の元勤務先(2013–2018, SRE) - [[Kyoto University]] — Yuuki Tsubouchi に博士号(情報学)を授与した大学。本博士論文の発行機関