2019__arXiv__The Lustre Storage Architecture

## Memo ## Memo with LLM ### 論文情報 - **論文のタイトル**: The Lustre Storage Architecture - **著者と所属**: Peter J. Braam (Cluster File Systems, Inc. / University of Oxford) - **カンファレンス/ジャーナル名**: arXiv プレプリント (cs.OS) - **発表年**: 2019（アーキテクチャ設計自体は2001〜2005年） ### 論文概要「Lustre Book」と呼ばれるこの技術文書は、HPCクラスタ向けの並列分散ファイルシステムであるLustreのアーキテクチャを包括的に記述したものである。2001〜2005年にかけて、DOE（米国エネルギー省）や各種ユーザーの要件に基づいて設計された機能群を詳述しており、2019年時点でのその実装状況についても言及している。全4部・40章からなる仕様書・設計書であり、ネットワーク層・オブジェクトストレージ・メタデータ・ロック管理・リカバリ・セキュリティ・QoSに至る全コンポーネントを網羅している。 ### 詳細解説 #### 問題設定大規模なHPC（高性能計算）クラスタでは、数千ノードのクライアントが同時に並列I/Oを行う。このスケールにおいて求められる要件は以下の通りである： - 単一の名前空間による POSIX セマンティクスの提供 - 数百GB/sに及ぶ集約帯域幅 - メタデータのスケーラビリティ（ファイル作成レート等） - 障害からの自動回復従来のNFSやSMBは中央集権的なアーキテクチャのため、大規模環境でのスケールアウトが困難であった。Lustreはこれを解決するために、メタデータと実データを完全に分離したオブジェクトベースの設計を採用している。 #### 提案手法 ##### アーキテクチャ ![[Pasted image 20260404184018.png|500]] Lustreは以下の主要コンポーネントから構成される： 1. **Metadata Server (MDS) / Metadata Target (MDT)** - ファイル名・ディレクトリ・パーミッション・ファイルレイアウトを管理 - データI/Oには関与せず、パス解決とパーミション確認のみを担当 - これによりI/Oスケーラビリティのボトルネックを回避 2. **Object Storage Server (OSS) / Object Storage Target (OST)** - 実ファイルデータをオブジェクトとして管理 - 通常1台のOSSが2〜8台のOSTを担当 - クライアントは並列に複数OSTへ直接アクセス 3. **Lustre Client** - POSIXセマンティクスを維持しながら、MDS/OSSへ直接RPCを発行 - クライアントサイドキャッシュ（メタデータ・データの両方）を実装 4. **Lustre Network (LNet)** - InfiniBand (native verbs)・OmniPath・RoCE・iWARPなど複数のネットワーク相互接続を抽象化 - RDMA対応によるスループット向上とCPU負荷軽減 - Multi-Rail機能（v2.10以降）による複数NICの帯域集約 5. **Lustre Distributed Lock Manager (LDLM)** - OpenVMSスタイルの分散ロックマネージャ - メタデータロック（ファイル所有権・パーミッション・レイアウト等を保護） - データロック（OST単位のバイト範囲エクステントロック） - スケーラブルな並列アクセスを実現 ##### アルゴリズム/手法の詳細 **ファイルストライピング**: データはOSTオブジェクト群にラウンドロビン方式でストライピングされる（RAID 0類似）。各ファイルに対して独自のストライプパラメータ（ストライプカウント、ストライプサイズ）を設定可能。 **リクエスト処理スタック**: サンディア国立研究所のPortals v3をベースとしたスケーラブルなメッセージパッシング層を採用。マルチRPCをサポートする柔軟なリクエスト処理層も含む。 **リカバリ機構**: MDS/OSSはアクティブ/パッシブペアとして構成され、透過的なフェイルオーバーをサポート。連続するマイナーバージョン間のバージョン相互運用性により、サービス中断なしのアップグレードが可能。 ##### 実装上の工夫 - **Data-on-Metadata (DoM)**: 小ファイルをMDT上に直接格納することでI/Oオーバーヘッドを削減 - **Progressive File Layout (PFL)**: ファイルの領域ごとに異なるレイアウトパラメータを指定可能 - **File Level Redundancy (FLR)**: 複数の重複レイアウトによるRAID 0+1相当の冗長性 - **Distributed Namespace Environment (DNE)**: ストライプディレクトリを用いて複数MDT間でメタデータを分散 #### 新規性既存の並列ファイルシステム（GPFS等）が採用するブロックベース設計と比較して、Lustreはオブジェクトベース設計を採用することで： - メタデータサーバをI/Oパスから完全に排除し、スケーラビリティを大幅に向上 - クライアントからOSTへの直接アクセスにより、サーバを介した帯域制限を回避 - Portals v3ベースのネットワーク層により[[RDMA]]ネットワークへの適応性を確保 #### 実験設定本文書はアーキテクチャ仕様書であり、実験論文ではない。当時（2001〜2005年）の実装はDOE（米国エネルギー省）の Accelerated Strategic Computing Initiative Path Forward プロジェクトの一環として、Hewlett-Packard・Intelと共同で実施された。 #### 実験結果本書は設計仕様書であるため、定量的な実験結果は含まない。実際の運用実績については別論文（e.g., 2025年TOS論文「Lustre Unveiled」）を参照のこと。 #### 考察 - **結果の解釈**: 2001〜2005年に設計された機能の多くが2019年時点で実装完了しており、アーキテクチャ設計の先見性を示す。一部の機能（例: Sandia国立研究所との共同で設計されたQoS）は設計通りに実装されなかった。 - **優位性の根拠**: メタデータとデータの完全分離という設計判断が、エクサスケール時代においても有効であり続けている（2024年時点でTop500の60%以上がLustreを採用）。 - **限界と例外**: 文書の作成時期（2001〜2005年）と公開時期（2019年）にギャップがあり、一部の記述は実際の実装と乖離している可能性がある。 #### 強み (Strengths) - Lustreファイルシステムの設計原則・アーキテクチャを一次資料として詳述した唯一の包括的文書である - オブジェクトベース設計の採用によるメタデータボトルネックの排除という核心的な設計思想が明確に記述されている - ネットワーク層（LNet/Portals）からアプリケーション層（POSIX I/F）まで、全スタックを網羅している - DOEとのHPC実環境ユースケースに基づく実践的な要件定義が含まれている #### 弱点・課題 (Weaknesses / Limitations) - 実験的な評価データが含まれておらず、性能の定量的な裏付けがない - 設計時（2001〜2005年）と実装の間に乖離が生じている部分がある（特にQoS周り） - 技術文書であるため、従来の研究論文と異なる構成となっており、比較研究には不向き - 現代のNVM・CXL・Disaggregated Storageへの対応は記述されていない ## Abstract 「Lustreブック」と呼ばれることも多いこの長大な文書は、2001年から2005年にかけて、様々なユーザーの要件に従って構築されたLustreファイルシステムアーキテクチャの詳細な概略を含んでいる。2019年現在、ほとんどの機能は実装済みであるが、一部は最近になって実装されたものであり、また一部は別の方針に基づいて実装されたものである。