# Entities Index
Navigation: [[index]] | [[concepts/_index]] | [[sources/_index]]
ソースに登場する実体(人物・組織・システム・データセット・プロジェクト)ページの一覧。
---
## Product / System
- [[SAKURAONE]] — SAKURA Internet の 800 GPU(100×H100)オープン Ethernet AI–HPC クラスタ(SONiC+RoCEv2 の 800 GbE、TOP500 HPL 49 位・トップ 100 唯一のフルオープン networking stack)
- [[SONiC]] — オープンソースの network OS。SAI で switching ASIC を抽象化(RoCEv2 の lossless Ethernet を提供、SAKURAONE 採用)
- [[MegaScale]] — ByteDance/PKU の 10,000 GPU 超 LLM 訓練本番システム(175B を 12,288 GPU・55.2% MFU、Megatron-LM 基盤)
- [[Megatron-LM]] — NVIDIA の SOTA OSS LLM 訓練フレームワーク(3D parallelism、MegaScale の基盤兼ベースライン)
- [[SREGym]] — AI SRE エージェント向けの高忠実度ライブベンチマーク兼フレームワーク
- [[Stratus]] — multi-agent の SRE エージェント(undo-and-retry 機構)
- [[AIOpsLab]] — 自律クラウド向け AIOps エージェント評価フレームワーク(AgentOps を提唱、SREGym の先行ベンチマーク)
- [[ITBench]] — 多様な IT 自動化タスクの AI エージェント評価ベンチマーク(先行ベンチマーク)
- [[ChaosMesh]] — Kubernetes 向け chaos engineering / fault injection ツール(AIOpsLab が symptomatic fault 注入に統合)
- [[PAGER]] — enterprise AI assistant 向けの proactive な障害予測・説明・対話支援エージェント(Adobe)
- [[Adobe Experience Platform]] — Adobe の大規模 customer data platform(PAGER の対象運用環境)
- [[MicroRemed]] — end-to-end microservice remediation を評価する初の live ベンチマーク(PKU/Alibaba)
- [[ThinkRemed]] — SRE 的反復推論を模す microservice remediation の multi-agent フレームワーク(MicroRemed の reference 手法)
- [[Ansible]] — 宣言的・agentless な IT 自動化フレームワーク(MicroRemed の緩和アクション出力形式)
- [[AI Operator]] — Google の自律 first-responder agent(並列調査・L2/L3 稼働、推論を [[Actus]] と分離)
- [[Actus]] — Google の actuation 統一 control plane 兼 safety gateway(dry-run・"Red Button")
- [[Detectr]] — Google の Gemini 駆動 outage 検知プラットフォーム(user feedback を一次シグナル化)
- [[Model Context Protocol]] — AI エージェントとツール接続を標準化するオープン仕様(MCP、Production Agent/A2A)
- [[Bits AI SRE]] — Datadog の自律インシデント調査・RCA エージェント(hypothesis-driven、調査・RCA 段に特化)
- [[Toto]] — Datadog の観測データ特化 zero-shot 時系列予測基盤モデル(151M、decoder-only)
- [[Falcon-X]] — Ant International の異種多変量向け encoder-only 時系列基盤モデル(591M、latent prototype routing)
- [[Chronos-2]] — group attention で多変量・in-context learning を可能にした時系列基盤モデル(Falcon-X の主要比較対象)
- [[MetricSifter]] — fault localization 前処理の feature reduction フレームワーク(change point detection + KDE、教師なし・multivariate、SAKURA Internet)
- [[PyRCA]] — metric-based root cause analysis ライブラリ(MetricSifter の合成データ生成器兼 FL ベースライン、Salesforce)
- [[HeteroTSDB]] — 異種 KVS を TTL ベースで階層 tiering する TSDA(memory-KVS + disk-KVS、KairosDB 比 3.98 倍 ingestion、Mackerel に実投入)
- [[go-conntracer-bpf]] — in-kernel flow bundling を実装した eBPF ネットワーク flow tracer の Go ライブラリ(博士論文 Chapter 3 の社会実装)
- [[Mackerel]] — Hatena の SaaS サーバ監視サービス。HeteroTSDB の本番採用先(mackerel.io)
## Repository / Dataset
- [[DeathStarBench]] — microservice ベンチマークスイート(AIOpsLab・SREGym 双方の testbed)
- [[Train-Ticket]] — 鉄道予約題材の大規模 microservice benchmark(MicroRemed の最難環境、Zhou+ 2018)
- [[Online-Boutique]] — Google の cloud-first microservices デモ(= microservices-demo、MicroRemed 採用)
- [[Sock Shop]] — 靴下販売題材の microservice benchmark(MetricSifter の empirical study、7 microservices、Weaveworks)
- [[Meltria]] — microservices の障害データセット生成基盤(MetricSifter の empirical データ作成、github.com/ai4sre/meltria)
- [[BOOM]] — 実運用 telemetry のみで構成した観測時系列予測 benchmark(2,807系列・約3.5億点、Datadog)
- [[GIFT-Eval]] — 汎用時系列予測モデル評価の benchmark(15 univariate + 8 multivariate、7 ドメイン、144K 系列)
- [[fev-bench]] — 現実的な時系列予測 benchmark(100 タスク、観測系 BOOMLET= BOOM 部分集合を含む)
## Person
- [[Tianyin Xu]] — SREGym の最終著者(UIUC)
- [[Yinfang Chen]] — AIOpsLab・SREGym・STRATUS の第一/共著者(UIUC)
- [[Saurabh Jha]] — ITBench 主導著者・STRATUS 共著者(IBM Research)
- [[Minghua Ma]] — AIOpsLab corresponding author(Microsoft、AIOps 研究を多数主導)
- [[Yunyao Li]] — PAGER のシニア著者(Adobe、enterprise AI assistant 研究)
- [[Lingzhe Zhang]] — MicroRemed 等の第一著者(PKU、AIOps/LLM for SRE を多作)
- [[Tong Jia]] — MicroRemed corresponding author(PKU、AIOps 研究を主導)
- [[Ameet Talwalkar]] — Toto 論文の senior author(CMU 兼 Datadog)
- [[Yuuki Tsubouchi]] — MetricSifter 筆頭著者・博士論文著者・SAKURAONE 共著者・本 vault 所有者(SAKURA Internet Research Center、元 Hatena SRE)
- [[Hirofumi Tsuruta]] — MetricSifter 第 2 著者・SAKURAONE 共著者(SAKURA Internet Research Center、機械学習)
- [[Fumikazu Konishi]] — SAKURAONE 論文の筆頭著者・corresponding author(SAKURA Internet Research Center)
- [[Ryosuke Matsumoto]] — Transtracer / socket-based tracing 論文の共著者(博士論文 Chapter 3 の基)
- [[Jiangfei Duan]] — LLM 訓練システムサーベイの筆頭著者(Shanghai AI Lab / CUHK)
- [[Peng Sun]] — LLM 訓練システムサーベイの corresponding author(Shanghai AI Lab)
- [[Ziheng Jiang]] — MegaScale 論文の筆頭著者(ByteDance、equal contribution)
- [[Xin Jin]] — MegaScale 論文の責任著者(Peking University)
- [[Xin Liu]] — MegaScale 論文の責任著者(ByteDance)
## Organization
- [[University of Illinois Urbana-Champaign]] — SRE/AIOps エージェント評価研究の主要機関(SREGym・AIOpsLab)
- [[Microsoft]] — AIOpsLab の主要所属(AIOps/incident management 研究拠点)
- [[Adobe]] — Adobe Experience Platform と PAGER を擁する企業
- [[Peking University]] — MicroRemed の主所属(AIOps/LLM for SRE 研究拠点)
- [[Alibaba Group]] — MicroRemed の共同所属、Qwen3 シリーズの開発元
- [[Google]] — SRE 発祥企業。AI-Ops を Cloud/Ads/YouTube/Search の本番に展開(本 wiki 初の産業界一次情報)
- [[Datadog]] — observability/監視 SaaS ベンダ。自律 SRE エージェント Bits AI SRE・時系列基盤モデル Toto を開発(産業界 2 例目)
- [[Carnegie Mellon University]] — Toto 論文に Datadog AI Research と共同参加した大学
- [[Shanghai AI Laboratory]] — LLM 訓練システムサーベイの主所属。InternLM/InternEvo を擁する中国の AI 研究機関
- [[ByteDance]] — 10,000 GPU 超 AI クラスタで LLM を訓練する企業。MegaScale の開発・運用主体(veScale OSS)
- [[Ant International]] — 時系列基盤モデル Falcon-X を開発した企業組織(連絡先 @ant-intl.com)
- [[SAKURA Internet]] — 日本のクラウド事業者。SAKURA Internet Research Center を擁し MetricSifter を生んだ
- [[Hatena]] — 監視 SaaS Mackerel を運営する日本企業。Yuuki Tsubouchi の元勤務先(2013–2018, SRE)
- [[Kyoto University]] — Yuuki Tsubouchi に博士号(情報学)を授与した大学。本博士論文の発行機関