サーバ・インフラを支える技術

[［24時間365日］サーバ/インフラを支える技術 ……スケーラビリティ、ハイパフォーマンス、省力運用：書籍案内｜技術評論社](https://gihyo.jp/book/2008/978-4-7741-3566-3) ## 概要一度スタートしたサービスは止めたくない，というのはWebに携わる開発者や担当者に共通する意識ではないでしょうか。しかし，サービスの成長にともない，サーバの増強，ハードウェア/ネットワークの障害対応，複数サーバの同期と管理などが不可欠となり，24時間365日止まらないサービス，稼動し続けるサーバ/ネットワークインフラを設計・構築・運用するには，数々のテクニックが必要です。本書では，Webシステムのスケールアウトを念頭に，負荷分散システムの構築＆高可用の実現，パフォーマンスチューニング，そして手間を極力抑えた運用術という三つのテーマをまとめて解説します。 ## 目次 1章　サーバ/インフラ構築入門 ……冗長化/負荷分散の基本 1.1　冗長化の基本冗長化とは冗長化の本質 (1)障害を想定する (2)予備の機材を準備する (3)運用体制の整備 ……障害発生の際，予備機材に切り替えるルータが故障した場合の対応コールドスタンバイ Webサーバが故障した場合の対応ホットスタンバイフェイルオーバ VIP IPアドレスの引き継ぎ障害を検出する ……ヘルスチェック Webサーバのヘルスチェックルータのヘルスチェック Active/Backup構成を作ってみる IPアドレスを引き継ぐしくみサーバを有効活用したい ……負荷分散へ 1.2　Webサーバを冗長化する ……DNSラウンドロビン DNSラウンドロビン DNSラウンドロビンの冗長構成例もっと楽にシステムを拡張したい ……ロードバランサへ 1.3　Webサーバを冗長化する ……IPVSでロードバランサ DNSラウンドロビンとロードバランサの違い IPVS ……Linuxでロードバランサロードバランサの種類とIPVSの機能スケジューリングアルゴリズム IPVSを使う ipvsadm keepalived ロードバランサを構築する Webサーバの設定 keepalivedを起動する負荷分散を確認する冗長構成を確認する L4スイッチとL7スイッチ ◎Column　L7スイッチと柔軟な設定 L4スイッチのNAT構成とDSR構成同じサブネットのサーバを負荷分散する場合の注意 ◎Column　LinuxベースのL7スイッチ 1.4　ルータやロードバランサの冗長化ロードバランサの冗長化冗長化プロトコルVRRP VRRPのしくみ VRRPパケット仮想ルータID プライオリティプリエンプティブモード仮想MACアドレス keepalivedの実装上の問題 gratuitous ARP（GARP）の遅延送出 keepalivedを冗長化する VIPの確認 VRRPの動作確認 VRRPインスタンスを分離する VRRPインスタンスを同期する keepalivedの応用 2章　ワンランク上のサーバ/インフラの構築 ……冗長化，負荷分散，高性能の追求 2.1　リバースプロキシの導入 ……Apacheモジュールリバースプロキシ入門 HTTPリクエストの内容に応じたシステムの動作の制御 IPアドレスを用いた制御 User-Agentによる制御 URLの書き換えシステム全体のメモリ使用効率の向上例：動的ページにおけるリクエストの詳細 Webサーバが応答するデータのバッファリングの役割 HTTPのKeep-Alive 例：メモリ消費とKeep-Aliveのオン/オフ Apacheモジュールを利用した処理の制御リバースプロキシの導入の判断リバースプロキシの導入 Apache 2.2を使う workerでhttpdを起動 httpd.confの設定最大プロセス/スレッド数の設定 Keep-Aliveの設定必要なモジュールのロード RewriteRuleを設定一歩進んだRewriteRuleの設定例特定ホストからのリクエストを禁止ロボットからのリクエストに対してはキャッシュサーバを経由させる mod_proxy_balancerで複数ホストへの分散 mod_proxy_balancerの利用例 2.2　キャッシュサーバの導入 ……Squid，memcached キャッシュサーバの導入 HTTPとキャッシュ Live HTTP Headersで知るキャッシュの効果 Squidキャッシュサーバ Squidでリバースプロキシ Squidは何をキャッシュするのか Squidの設定例 memcachedによるキャッシュ 2.3　MySQLのレプリケーション ……障害から短時間で復旧する DBサーバが止まったら？ DBサーバが停止するケース短時間で復旧する方法 MySQLのレプリケーション機能の特徴と注意点シングルマスタ，マルチスレーブ非同期のデータコピーレプリケーションされるデータの内容レプリケーションのしくみスレーブのI/OスレッドとSQLスレッドバイナリログとリレーログポジション情報レプリケーション構成を作るまでレプリケーションの条件 my.cnf レプリケーション用ユーザの作成レプリケーション開始時に必要なデータレプリケーションの開始マスタ，スレーブのmy.cnfの比較スレーブの動作開始＆確認レプリケーションの状況確認マスタの状況確認スレーブの状況確認 2.4　MySQLのスレーブ＋内部ロードバランサの活用例 MySQLのスレーブの活用方法スレーブ参照複数のスレーブに分散する方法スレーブ参照をロードバランサ経由で行う方法概略図内部ロードバランサの設定 MySQLスレーブの設定スレーブ参照のロードバランスを体験内部ロードバランサの注意点 ……分散方法はDSRにする 2.5　高速で軽量なストレージサーバの選択ストレージサーバの必要性ストレージサーバは単一故障点になりやすいストレージサーバはボトルネックになりやすい理想的なストレージサーバ負荷を軽くする工夫 HTTPをストレージプロトコルとして利用する軽量なWebサーバの選択 HTTPを利用するメリット残る課題 ◎Column　小さくて軽いWebサーバの選択 3章　止まらないインフラを目指すさらなる工夫 ……DNSサーバ，ストレージサーバ，ネットワーク 3.1　DNSサーバの冗長化 DNSサーバの冗長化の重要性レゾルバライブラリを利用した冗長化と，問題レゾルバライブラリの問題点性能低下の危険性 ……メールサーバの例 DNS障害の影響は大きいサーバファームにおけるDNSの冗長化 VRRPを利用した構成 DNSサーバの負荷分散まとめ 3.2　ストレージサーバの冗長化 ……DRBDでミラーリングストレージサーバの故障対策ストレージサーバの同期は困難 DRBD DRBDの構成 DRBDの設定と起動 DRBDのマスタサーバを起動する DRBDのバックアップサーバを起動する DRBDのフェイルオーバ手動で切り替える keepalivedの設定 keepalivedをdaemontoolsで制御する NFSサーバをフェイルオーバする際の注意点バックアップの必要性 3.3　ネットワークの冗長化 ……Bondingドライバ，RSTP L1/L2構成要素の冗長化故障するポイントリンクの冗長化とBondingドライバ Bondingドライバスイッチの冗長化リンク故障時の動作スイッチ故障時の動作スイッチ間接続の故障時の動作スイッチの増設さらなる冗長化を目指して RSTP ブリッジの優先順位とルートブリッジ RSTPにおけるポートの役割 RSTPの動作おわりに 3.4　VLANの導入 ……ネットワークを柔軟にするサーバファームにおける柔軟性の高いネットワーク VLANの導入がもたらすメリットを考えるスイッチの有効利用故障したサーバの復旧体制 ……1台の代替機を活用したい 1台の代替機による復旧と，VLANの使いどころ VLANの基本 VLANの種類ポートVLAN タグVLAN サーバファームでの利用 VLANを使わない場合の構成ポートVLANを利用した構成タグVLANを利用した構成複雑なVLAN構成でも物理構成はシンプルさが鍵 4章　性能向上，チューニング ……Linux単一ホスト，Apache，MySQL 4.1　Linux単一ホストの負荷を見極める単一ホストの性能を引き出すために性能とは何か，負荷とは何かを知る推測するな，計測せよボトルネック見極め作業の基本的な流れロードアベレージを見る CPU，I/Oのいずれがボトルネックかを探る CPU負荷が高い場合 I/O負荷が高い場合負荷とは何か二種類の負荷マルチタスクOSと負荷負荷の正体を知る＝カーネルの動作を知るプロセススケジューリングとプロセスの状態プロセスの状態遷移の具体例プロセスの状態遷移のまとめロードアベレージに換算される待ち状態ロードアベレージが報告する負荷の正体 ◎Column　プロセスの状態をツールで見る ……ps ロードアベレージ計算のカーネルのコードを見るロードアベレージの次はCPU使用率とI/O待ち率 sarでCPU使用率，I/O待ち率を見る CPUのユーザモードとシステムモード I/Oバウンドな場合のsar マルチCPUとCPU使用率 CPU使用率の計算はどのように行われているかプロセスアカウンティングのカーネルコードを見るスレッドとプロセスカーネル内部におけるプロセスとスレッド psとスレッド LinuxThreadsとNPTL ps，sar，vmstatの使い方 ps ……プロセスが持つ情報を出力する VSZとRSS ……仮想メモリと物理メモリの指標 TIMEはCPU使用時間ブロッキングとビジーループの違いをpsで見る sar ……OSが報告する各種指標を参照する sar -u ……CPU使用率を見る sar -q ……ロードアベレージを見る sar -r ……メモリの利用状況を見る I/O負荷軽減とページキャッシュページキャッシュによるI/O負荷の軽減効果ページキャッシュは一度readしてから sar -W ……スワップ発生状況を見る vmstat ……仮想メモリ関連情報を参照する OSのチューニングとは負荷の原因を知り，それを取り除くこと 4.2　Apacheのチューニング Webサーバのチューニング Webサーバがボトルネック？ Apacheの並行処理とMPM preforkとworker，プロセスとスレッドプログラミングモデルから見たマルチプロセス/マルチスレッドの違いパフォーマンスの観点で見たマルチプロセス/マルチスレッドの違い 1クライアントに対して1プロセス/スレッド httpd.confの設定 Apacheの安全弁MaxClients preforkの場合親子でメモリを共有するコピーオンライトコピーオンライトで共有しているメモリサイズを調べる MaxRequestsPerChild workerの場合過負荷でMaxClientsを変更する，その前に Keep-Alive Apache以外の選択肢の検討 lighttpd 4.3　MySQLのチューニングのツボ MySQLチューニングのツボチューニングの切り口での分類 (1)サーバサイド (2)サーバサイド以外 (3)周辺システム本節でこれから扱う内容メモリ関係のパラメータチューニングバッファの種類 ……チューニングの際の注意点(1) 割り当て過ぎない ……チューニングの際の注意点(2) メモリ関連のパラメータメモリ関連のチェックツール ……mymemcheck 5章　省力運用 ……安定したサービスへ向けて 5.1　サービスの稼働監視 ……Nagios 安定したサービス運営と，サービスの稼働監視稼働監視の種類 (1)死活状態の監視 (2)負荷状態の監視 (3)稼働率の計測 Nagiosの概要 Nagiosのインストール Nagiosの設定設定ファイル host ……ホストの設定 service ……サービスの定義 command ……コマンド定義 contactとcontactgroup ……通知先と通知先グループ設定のテスト Web管理画面 Nagiosの基本的な使い方ホストとサービスの定義通知応用的な使い方稼働率の測定独自プラグインおわりに 5.2　サーバリソースのモニタリング ……Ganglia サーバリソースのモニタリングモニタリングの目的モニタリングのツールの検討 Ganglia - 大量ノード向けのグラフ化ツール Apacheプロセスの状態をグラフ化 Gangliaにグラフを追加する方法実際に複合グラフを追加してみるそのほかのカスタムグラフ 5.3　サーバ管理の効率化 ……Puppet 効率的なサーバ管理を実現するツールPuppet Puppetの概要 Puppetの設定ノードの定義クラスの定義設定の反映設定ファイルの書き方リソースの定義リソースサーバごとの設定の微調整リソース間の依存関係テンプレートによるマニフェストの定義動作ログの通知運用自動設定管理ツールの功罪 5.4　デーモンの稼働管理 ……daemontools デーモンが異常終了してしまったら daemontools daemontoolsを使う理由デーモンになるための条件 ……フォアグラウンドで動作するデーモンの管理方法デーモンの新規作成デーモンの開始デーモンの停止，再開，再起動デーモンの削除シグナル送信 keepalived ……runファイルの例(1) 自作の監視スクリプト ……runファイルの例(2) daemontoolsのTips 依存するサービスの起動順序の制御便利シェル関数 5.5　ネットワークブートの活用 ……PXE，initramfs ネットワークブートネットワークブートの特徴と利点ネットワークブートの動作 ……PXE ネットワークブートの活用例ロードバランサ DBサーバ/ファイルサーバメンテナンス用ブートイメージネットワークブートを構成するために initramfsの共通化と役割の識別ディスクレス構成にする際に考慮すべき点 5.6　リモートメンテナンス ……メンテナンス回線，シリアルコンソール，IPMI 楽々リモートログインネットワークトラブルに備えてメンテナンス回線スイッチのトラブルに対する備えシリアルコンソールシリアルコンソールの実現 IPMI IPMIでできること IPMIを使うにはおわりに 5.7　Webサーバのログの扱い ……syslog，syslog-ng，cron，rotatelogs Webサーバのログの集約・収集集約と収集ログの集約 ……syslogとsyslog-ng syslogを使ったログの集約 syslog-ng ログの収集 Apacheログのローテート ……cronとrotatelogs ログサーバの役割と構成おわりに 6章　あのサービスの舞台裏 ……自律的なインフラへ，ダイナミックなシステムへ 6.1　はてなのなかみはてなのインフラスケーラビリティと安定性リバースプロキシ DB ファイルサーバ運用効率の向上キックスタートによるインストールパッケージ管理とPuppet サーバの管理と監視 Capistranoによるデプロイ電源効率・リソース利用率の向上 1Aあたりのパフォーマンスを重視する 1台あたりのサーバ能力をできるだけ使い切る不要なパーツは載せない自律的なインフラに向けて 6.2　DSASのなかみ DSASとは DSASの特徴一つのシステムに複数のサイトを収容 OSSで構築どこが切れても止まらないネットワークサーバ増設が簡単故障時の復旧が簡単システム構成の詳細 Bondingドライバを利用する理由 DRBDをフェイルオーバする際の注意点 SSLアクセラレータヘルスチェック機能の拡張簡単で安全に運用できるロードバランサセッションデータの取り扱い memcached repcached DSASの今後 Appendix mymemcheck（4.3節） apache-status（5.2節） ganglia.patch（5.2節）