シェアードナッシング - yuuk1's Digital Garden

# シェアードナッシング ## 定義シェアードナッシング（Shared-Nothing）アーキテクチャとは、各プロセッサが専用のプライベートメモリと専用ディスクを保有し、プロセッサ間の通信は高速インターコネクトネットワークのみを通じて行う並列コンピュータ設計である。[[David DeWitt]] と [[Jim Gray]] が [[@1992__CACM__Parallel Database Systems The Future of High Performance Database Systems]]（CACM 1992）において、シェアードメモリ・シェアードディスクとの対比で定式化した。論文が引用する Stonebraker [29] が命名した。各ノードが「何も共有しない（nothing shared）」ことにより、共有リソースへの干渉（interference）を最小化し、数百〜数千プロセッサへの線形スケールを可能にする。各プロセッサはリモートデータへアクセスする際、そのデータを管理するプロセッサへメッセージを送り、フィルタリング済みデータのみを受け取る。生のディスクアクセスはローカルで行われ、ネットワーク上を流れるのは「絞り込まれた（reduced）データ」のみである。代表的商用実装: Teradata（1978〜）・Tandem NonStop SQL・nCUBE。研究システム: Gamma・Arbre・Bubba。 --- ## 3 アーキテクチャの比較 | アーキテクチャ | メモリ | ディスク | スケーラビリティ（1992 年時点） | |---|---|---|---| | シェアードメモリ | 共有 | 共有 | 〜32 プロセッサが上限 | | シェアードディスク | 専用 | 共有 | 数千ディスク・プロセッサへ理論拡張可能だが共有アクセス時にページ競合 | | **シェアードナッシング** | **専用** | **専用** | **数百〜数千プロセッサへの線形スケール実証済み** | シェアードメモリは干渉が少なくコーディングが容易だが、グローバルメモリのバンド幅が全プロセッサの帯域幅の合計を満たす必要があり、インターコネクト設計が極めて困難。シェアードディスクは読み取り専用 DB と更新競合のない用途では有効だが、書き込みがあるとキャッシュフラッシュとページ交換でネットワークを逼迫させる。 --- ## 横断的知見 - **シェアードナッシングはクラウド分散データベースの設計原理として 30 年後も支配的**: DeWitt/Gray が 1992 年に商業的勝者と断言したシェアードナッシングは、Bigtable（2006）・Dynamo（2007）・Cassandra（2010）・Snowflake・BigQuery のいずれも採用する。特に Cassandra は DeWitt/Gray の論文が実装例として挙げた Dynamo 型ハッシュパーティショニングと Bigtable 型データモデルを融合した。(Source: [[@1992__CACM__Parallel Database Systems The Future of High Performance Database Systems]], [[@2006__OSDI__Bigtable - A Distributed Storage System for Structured Data]], [[@2007__SOSP__Dynamo - Amazon's Highly Available Key-value Store]], [[@2010__SIGOPS_OSR__Cassandra - A Decentralized Structured Storage System]]) - **シェアードナッシングはソフトウェアの複雑さをハードウェアの単純さと交換する**: 論文は「shared-nothing architectures actually simplify the software implementation」と断言した。SQL の標準化（ANSI/ISO）のおかげで、ユニプロセッサ向けの SQL アプリケーションをシェアードナッシングマシン上でそのまま並列実行できる。これは shared-memory / shared-disk での再設計コストと対照的。(Source: [[@1992__CACM__Parallel Database Systems The Future of High Performance Database Systems]]) - **Aurora Limitless のシャード設計はシェアードナッシングの直接の後継**: [[@2026__SIGMOD Companion__Aurora PostgreSQL Limitless Database - Building a Highly Scalable OLTP Database]] のルータ/シャード分離・シャード間 2PC は、DeWitt/Gray が定義したシェアードナッシング上の分散 OLTP の現代実装である。ただし DeWitt/Gray はオブジェクトストレージ（S3 等）によるコンピュート・ストレージ分離を想定していなかった点が大きな差異。(Source: [[@1992__CACM__Parallel Database Systems The Future of High Performance Database Systems]], [[@2026__SIGMOD Companion__Aurora PostgreSQL Limitless Database - Building a Highly Scalable OLTP Database]]) - **Grosch の法則の崩壊がシェアードナッシング普及の物理的条件だった**: DeWitt/Gray はコモディティ CPU ($250/MIPS) と RAM ($100/MB) の低価格化が Grosch の法則（大型計算機ほど費用対効果が高い）を無効化したと論じた。現代のクラウドでは GPU/AI アクセラレータが同様のコモディティ化過程にある。(Source: [[@1992__CACM__Parallel Database Systems The Future of High Performance Database Systems]]) - **Snowflake は自らを「シェアードナッシング」とも「シェアードディスク」とも呼ばず、新語「マルチクラスタ・シェアードデータ・アーキテクチャ」を導入した**: [[@2016__SIGMOD__The Snowflake Elastic Data Warehouse]] は、シェアードナッシングの4つの弱点（ヘテロジニアスなワークロード・メンバーシップ変更・オンラインアップグレードの困難さに加え、ノード障害が「例外」ではなく「常態」であるクラウド特有の事情）を明示的な動機として、コンピュート（Snowflake 独自のシェアードナッシングエンジン）とストレージ（S3）を疎結合な2つのサービスへ分離した。各コンピュートノード（worker node）はローカルディスクに一貫性ハッシュベースのキャッシュを持つ点で純粋なシェアードディスクとも異なり、DeWitt/Gray の3分類のどれにも一対一で対応しない第4のアーキテクチャとして提示されている。(Source: [[@1992__CACM__Parallel Database Systems The Future of High Performance Database Systems]], [[@2016__SIGMOD__The Snowflake Elastic Data Warehouse]]) - **「メンバーシップ変更時の大規模データ再配置」という DeWitt/Gray 以来の弱点に対し、Snowflake は lazy な一貫性ハッシュと file stealing で正面から解を与えた**: DeWitt/Gray はシェアードナッシングの実務上の課題として明示していないが、後続研究（Aurora Limitless 等）が繰り返し直面する「ノード集合変化時のデータシャッフルコスト」に対し、Snowflake はキャッシュ内容を即座に再配置せず LRU 置換に委ねる lazy consistent hashing、およびストラグラーノードに負荷を追加しない file stealing という2つの独立した機構で対処した。(Source: [[@2016__SIGMOD__The Snowflake Elastic Data Warehouse]]) ## 未解決の問い - **「マルチクラスタ・シェアードデータ・アーキテクチャ」は学術的な4分類として定着するか**: Snowflake 論文（SIGMOD 2016）は自らの造語を提示したのみで、DeWitt/Gray の3分類（シェアードメモリ・シェアードディスク・シェアードナッシング）を正式に拡張する学術的な分類提案ではない。Aurora Limitless 等の他のストレージ・コンピュート分離システムも同じ「第4のカテゴリ」に属すると言えるか、それとも各システムが独自の折衷点を持つため単一カテゴリに収まらないか - **シェアードナッシングと RDMA の組合せ**: [[RDMA]] を採用した高速ネットワーク（InfiniBand・RoCE）はシェアードナッシングの「メッセージパッシングのみ」という前提を変える。CPU を介さないリモートメモリ直接アクセスはシェアードメモリとシェアードナッシングの境界を曖昧にするか ## 関連 - ソース: [[@1992__CACM__Parallel Database Systems The Future of High Performance Database Systems]] / [[@2016__SIGMOD__The Snowflake Elastic Data Warehouse]] - 概念: [[並列データベース]] / [[データパーティショニング]] / [[専用データベースシステム]] / [[分散ストレージ]] / [[RDMA]] / [[分散 PostgreSQL]] - エンティティ: [[David DeWitt]] / [[Jim Gray]] / [[Teradata]] / [[Tandem Computers]] / [[University of Wisconsin]] / [[Snowflake Computing]] ## 出典 - [[@1992__CACM__Parallel Database Systems The Future of High Performance Database Systems]]（シェアードナッシングを並列 DB アーキテクチャとして体系的に論じた原典。Teradata・Tandem・Gamma の比較を含む） - [[@2016__SIGMOD__The Snowflake Elastic Data Warehouse]]（ストレージ・コンピュート分離による第4のアーキテクチャ「マルチクラスタ・シェアードデータ」を提示した産業論文）