# マイクロサービスベンチマーク
## 定義
マイクロサービスアーキテクチャを採用した複数のサービスから構成される実装と、その実装に対する負荷・テスト・障害シナリオの組をパッケージ化し、後続研究が同一条件で比較可能にする評価資産。**実装(benchmark system)** と **データセット(benchmark dataset)** の 2 形態がある。前者は [[DeathStarBench]]・[[Train-Ticket]]・[[eShopOnContainers]]・[[Sock Shop]]・[[Online-Boutique]] のように deploy 可能な microservices system 一式、後者は trace・metric・log を fault-injected/clean ペアで提供する **TrainTicketTrace** や **LO2-microservice-data** のような事前収集データ。(Source: [[@2019__ASPLOS__An Open-Source Benchmark Suite for Cloud and IoT Microservices]] / [[@2023__arXiv__Benchmarks for End-to-End Microservices Testing]] / [[@2026__SANER-C__TrainTicketTrace - A Multi-Fault Distributed Dataset for Microservice Fault Detection and Localization]])
## 横断的知見
- **規模差で評価の質が変わる**: 既存の単層 cloud benchmark([[Cloudsuite]]・[[TailBench]]・µSuite)は 1-3 層に限定され、cascading QoS 違反や network 輻輳のような **at-scale 効果** を捕捉できない([[@2019__ASPLOS__An Open-Source Benchmark Suite for Cloud and IoT Microservices]])。一方 10 services 規模の Sock Shop・Online-Boutique では本番の依存ウェブを模擬できず、Train-Ticket(42-50 services)が microservice RCA の de facto baseline になりつつある(Source: [[@2025__arXiv__Rethinking the Evaluation of Microservice RCA with a Fault Propagation-Aware Benchmark]] と [[@2026__SANER-C__TrainTicketTrace - A Multi-Fault Distributed Dataset for Microservice Fault Detection and Localization]] の Train-Ticket 重視は一貫)。
- **Train-Ticket が複数論文の中央ベンチマーク**: 本 vault が ingest した 4 本の microservice benchmark 論文のうち、3 本([[@2023__arXiv__Benchmarks for End-to-End Microservices Testing]] / [[@2024__MSR__A Dataset of Microservices-based Open-Source Projects]] / [[@2026__SANER-C__TrainTicketTrace - A Multi-Fault Distributed Dataset for Microservice Fault Detection and Localization]])が Train-Ticket を中心に置き、残る 1 本(DeathStarBench)が比較対象として競合する。これは microservice テスト・dataset・fault localization の各研究で **Train-Ticket が共通基盤化** したことを示す。
- **fault injection と benchmark の分離が顕在**: 古典的 benchmark(DeathStarBench)は性能特性の測定が主目的で fault injection は含まない。一方 microservice の SRE/AIOps 評価では fault が必須のため、後続研究([[AIOpsLab]]・[[SREGym]]・[[MicroRemed]]・[[RCAEval]]・TrainTicketTrace)が DeathStarBench・Train-Ticket に **fault layer を追加** する形で発展した。**TrainTicketTrace は fault layer を dataset として固定化**(Source: [[@2026__SANER-C__TrainTicketTrace - A Multi-Fault Distributed Dataset for Microservice Fault Detection and Localization]])することで、deployment コストなしに評価可能にした点で進展。
- **EvoMaster + OpenTelemetry が現代的な標準セット**: 自前 distributed tracing([[@2019__ASPLOS__An Open-Source Benchmark Suite for Cloud and IoT Microservices]] の Thrift timing interface)→ Selenium + Gatling([[@2023__arXiv__Benchmarks for End-to-End Microservices Testing]])→ [[EvoMaster]] + [[OpenTelemetry]] + [[Jaeger]] + [[Prometheus]]([[@2026__SANER-C__TrainTicketTrace - A Multi-Fault Distributed Dataset for Microservice Fault Detection and Localization]])と、観測スタックが標準化された。
- **OSS-MS dataset と benchmark system は補完関係**: [[@2024__MSR__A Dataset of Microservices-based Open-Source Projects]] は 378 件の **生の OSS-MS** を整理し、benchmark system 選定の母集団を可視化した。例えば Train-Ticket は 42 microservices で全 OSS-MS の Top 3 以内に位置し、taskcluster(50 services)・dojot/docker-compose(36)など Train-Ticket より大きい OSS-MS も存在することが分かる(Source: [[@2024__MSR__A Dataset of Microservices-based Open-Source Projects]] Appendix Table 1)。Benchmark 選定の議論を「sample 数の主張」から「dataset 内位置の主張」に格上げできる。
- **fault が自動検出されないことが共通の壁**: [[@2026__SANER-C__TrainTicketTrace - A Multi-Fault Distributed Dataset for Microservice Fault Detection and Localization]] は EvoMaster の生成 test がいずれの seeded fault も検知できなかったと報告。Smith+ の Selenium テストも同様に fault 検出ではなく functional regression のみが目的。すなわち **「テスト一式 ≠ fault detection ベンチマーク」**。前者は coverage を、後者は trace/metric/log での anomaly localization を測る。両者は別問題で、benchmark の設計目的を明示することが評価妥当性を左右する(Source: [[@2026__SANER-C__TrainTicketTrace - A Multi-Fault Distributed Dataset for Microservice Fault Detection and Localization]] Section V.C)。
## 未解決の問い
- 50 services 超の OSS-MS(taskcluster、xpresso 等)を fault-injection ベンチマークに昇格させた研究はまだ存在しないか? 拡張優先順位はどうか?
- Train-Ticket fault dataset と LO2 dataset の **trace formats** に互換性はあるか? 共通の anomaly detection 評価 framework を作るには何が必要か?
- DeathStarBench の Social Network/Media と Train-Ticket の dependency graph は **どの程度トポロジが似ているか**? 一方の fault dataset が他方に転移可能か?
- 生成テスト(EvoMaster)が fault を捕まえないという事実は、テスト ≠ fault localization の境界を示す。**trace/metric/log を入力とする fault detection** に特化した benchmark protocol(評価指標・前処理・ラベル付与のガイドライン)はどう設計すべきか?
- [[@2024__MSR__A Dataset of Microservices-based Open-Source Projects]] の OSS-MS から自動で fault-injection benchmark を生成する pipeline は構築できるか? chaos engineering tool(chaos-mesh 等)との接続点は?
- マイクロサービスベンチマークの **時間的妥当性**(deprecate される)を保証する更新 protocol はあるか? Smith+ の Train-Ticket 1.0.0 vs. TrainTicketTrace の fork 版での差分は何を示唆するか?
## 関連
- 関連 source(原典系): [[@2019__ASPLOS__An Open-Source Benchmark Suite for Cloud and IoT Microservices]](DeathStarBench)・[[@2023__arXiv__Benchmarks for End-to-End Microservices Testing]](Smith+)・[[@2024__MSR__A Dataset of Microservices-based Open-Source Projects]](OSS-MS 378)・[[@2026__SANER-C__TrainTicketTrace - A Multi-Fault Distributed Dataset for Microservice Fault Detection and Localization]]
- 関連 source(SRE/AIOps benchmark): [[@2025__MLSys2025__AIOpsLab - A Holistic Framework to Evaluate AI Agents for Enabling Autonomous Clouds]] / [[@2025__arXiv__MicroRemed - Benchmarking LLMs in Microservices Remediation]] / [[@2025__WWW Companion__RCAEval - A Benchmark for Root Cause Analysis of Microservice Systems with Telemetry Data]] / [[@2025__arXiv__Rethinking the Evaluation of Microservice RCA with a Fault Propagation-Aware Benchmark]] / [[@2026__arXiv__SREGym - A Live Benchmark for AI SRE Agents with High-Fidelity Failure Scenarios]]
- 関連 entity(代表的 MS system): [[DeathStarBench]] / [[Train-Ticket]] / [[eShopOnContainers]] / [[Sock Shop]] / [[Online-Boutique]]
- 関連 entity(評価基盤): [[EvoMaster]] / [[OpenTelemetry]] / [[Jaeger]] / [[Prometheus]] / [[World of Code]]
- 関連 concept: [[マイクロサービスアーキテクチャ]] / [[マイクロサービスコールグラフ]] / [[本番接地型ベンチマーク]] / [[Fault Localization]] / [[障害注入]] / [[分散トレーシング]]
- 関連 MOC: [[AIOps - Failure Detection - MOC]] / [[SRE - MOC]] / [[LLM4SRE - MOC]]
## 出典
- [[@2019__ASPLOS__An Open-Source Benchmark Suite for Cloud and IoT Microservices]]
- [[@2023__arXiv__Benchmarks for End-to-End Microservices Testing]]
- [[@2024__MSR__A Dataset of Microservices-based Open-Source Projects]]
- [[@2026__SANER-C__TrainTicketTrace - A Multi-Fault Distributed Dataset for Microservice Fault Detection and Localization]]