# 並列データベース ## 定義 並列データベース(Parallel Database System)とは、複数のプロセッサ・ディスク・メモリを協調させてリレーショナルデータベースの処理を高速化するデータベース管理システムである。[[David DeWitt]] と [[Jim Gray]] が [[@1992__CACM__Parallel Database Systems The Future of High Performance Database Systems]](CACM 1992)で体系化した概念であり、リレーショナルモデルの**均一データストリーム**という特性が演算子を自然に並列化可能にするという洞察に基づく。並列化の形態として**パイプライン並列化**(演算子連鎖による並列)と**パーティション並列化**(データ分割による複製演算子の同時実行)の 2 種がある。後者がより大きなスピードアップとスケールアップの機会を提供する。 ## 横断的知見 - **シェアードナッシングが 1992 年に既に事実上の勝者と判定されていた**: DeWitt と Gray は 3 種アーキテクチャ(シェアードメモリ・シェアードディスク・シェアードナッシング)を比較し、シェアードメモリは 32 プロセッサ程度が上限・シェアードディスクはページ交換でネットワーク逼迫、と結論した。30 年後の分散データベース(Bigtable・Dynamo・BigQuery・Snowflake)がいずれもシェアードナッシングを採用している事実と一致する。(Source: [[@1992__CACM__Parallel Database Systems The Future of High Performance Database Systems]], [[@2006__OSDI__Bigtable - A Distributed Storage System for Structured Data]], [[@2007__SOSP__Dynamo - Amazon's Highly Available Key-value Store]]) - **スケールアップ指標はクラウドデータベース時代の設計目標と直結する**: 1992 年の「N 倍ハードウェアで N 倍大きな問題を同じ時間で」というスケールアップ定義は、現代の Aurora Limitless Database([[@2026__SIGMOD Companion__Aurora PostgreSQL Limitless Database - Building a Highly Scalable OLTP Database]])のスケールアウト OLTP 設計目標と本質的に同一である。30 年の技術進歩にもかかわらず測定の軸は変わっていない。(Source: [[@1992__CACM__Parallel Database Systems The Future of High Performance Database Systems]], [[@2026__SIGMOD Companion__Aurora PostgreSQL Limitless Database - Building a Highly Scalable OLTP Database]]) - **startup/interference/skew の 3 脅威はクラウドスケール分散システムにも適用される**: 1992 年に定式化された線形スピードアップを阻む 3 要因は、GPU 分散訓練のストラグラー問題(skew)・RDMA ネットワーク輻輳(interference)・ジョブ起動オーバーヘッド(startup)として現代システムでも再現する。語彙は同一で対象が変わった。(Source: [[@1992__CACM__Parallel Database Systems The Future of High Performance Database Systems]]) - **並列リレーショナル演算子は 2023 年の Monarch スケール監視 DB にも受け継がれる**: Adams+ VLDB 2020 の Monarch は、並列 SQL クエリによるプラネットスケール集約を設計の柱としており、DeWitt/Gray が示した「均一演算子の自然な並列化」の延長線上にある。(Source: [[@1992__CACM__Parallel Database Systems The Future of High Performance Database Systems]]) ## 未解決の問い - **バッチ OLTP 混在問題は 30 年後にどう解決されたか**: DeWitt/Gray が 1992 年時点で未解決とした「大規模分析クエリとリアルタイム OLTP の同時実行」は HTAP(Hybrid Transactional/Analytical Processing)として現在も研究が続く。Aurora Limitless はこの課題をどの程度解決しているか - **クラウドネイティブ分離アーキテクチャとの関係**: Snowflake・BigQuery・Redshift に代表される「コンピュート・ストレージ分離」はシェアードナッシングのどのカテゴリに収まるか(DeWitt/Gray の分類はオブジェクトストレージを想定していない) - **データ歪み対策の現状**: DeWitt/Gray が未解決課題とした「高度に歪んだデータ分布への対応」は現代の分散クエリエンジンでどこまで自動化されているか ## 関連 - ソース: [[@1992__CACM__Parallel Database Systems The Future of High Performance Database Systems]] - 概念: [[シェアードナッシング]] / [[データパーティショニング]] / [[専用データベースシステム]] / [[OLTPシステムアーキテクチャ]] / [[分散ストレージ]] / [[分散 PostgreSQL]] - エンティティ: [[David DeWitt]] / [[Jim Gray]] / [[Teradata]] / [[Tandem Computers]] / [[University of Wisconsin]] ## 出典 - [[@1992__CACM__Parallel Database Systems The Future of High Performance Database Systems]](並列データベースの基礎概念を体系化した原典)