[[博士課程中間発表]]以来の総まとめの発表となる。 ## スライド ![[okabelab_meeting_202301.pdf]] ## アウトライン - 研究題目 - 分散アプリケーションの高信頼化のための
運用技術に関する研究 - 分散アプリケーションの可観測性向上のための運用データの収集と分析の自動化に関する研究 - クラウドの可観測性向上のための運用データの収集と分析の自動化に関する研究 - クラウド型アプリケーションの可観測性向上のためのデータの収集と分析に関する研究 - クラウド型アプリケーションの高信頼化のための可観測性向上に関する研究 - クラウド型アプリケーションの高信頼化のための
可観測性に関する研究 - クラウド型アプリケーションにおける
運用データの計測・ 保存・認知の効率化に関する研究 - クラウド型アプリケーションの可観測性向上における計測・保存・認知負荷に関する研究 - クラウド型アプリケーションの内部状態の計測・保存・認知負荷に関する研究 - クラウド型アプリケーションの可観測性の負荷削減に関する研究 - クラウド型アプリケーションの可観測性に関する研究 - クラウドの高可観測性化に向けた計測・保存・解析の負荷低減に関する研究 - クラウド型アプリケーションの可観測性の実現を阻害する観測負荷に関する研究 - クラウド型アプリケーションの可観測性実現における計測・保存・解析の負荷に関する研究 - クラウド型アプリケーションの観測システムにおける計測・保存・解析の負荷に関する研究 - Studies on Load of Measurement, Storage, and Analysis in Observation Systems for Cloud Applications - オンチップメモリに不揮発メモリを利用した低電力システム設計手法に関する研究 - 序論 - クラウドコンピューティングの信頼性の現在 - 信頼性と複雑化 - クラウド型アプリケーションの構成複雑化 - オニオンモデル - 本研究では、オペレーターによる手動制御に着目する - クラウド型アプリケーションの[[Observability|可観測性]] - 制御のためにシステムの内部状態の観測が必要 - 追加のコードやテストなしに、運用データを通じて、内部状態を理解できる能力を高める必要がある - 運用データの種別 - 時間的情報と空間的情報 - メトリクス、ログ、トレース、イベント、プロファイル... - CPU利用率、エラーログ、要求の伝搬経路 - 運用データの取得と保存のためのシステム - 運用データ専用のデータベース - オペレーター向けの視覚化・警報ツール - 参考文献 - [[2018__CLOUD__Reviewing Cloud Monitoring - Towards Cloud Resource Profiling|Hauser+, CLOUD2018]] - 統計・機械学習に基づく可観測性の向上 - 統計・機械学習の技術を用いて、探索的に運用データを解析することにより、運用データから有用な情報を得る - オペレーターに対して、障害検知、故障箇所の特定、回復を支援する - 次元の負荷(次元の呪い)が大きくなる - 数値の時系列データとネットワーク通信の依存を使う研究 - [[コールグラフを使用するAIOps Fault Localization論文]] - 研究課題 - 可観測性向上のために必要な運用データ量が増大している - 観測システムと被観測システムのそれぞれの計算機資源に対する負荷と、オペレーターの認知負荷が増大 - オペレーターが増大した運用データからシステムの内部状態を理解するための認知負荷の増大 - 運用データを保存するストレージへのオーバヘッド - 観測対象に与える運用データ取得のためのオーバヘッド - 特に障害発生時には、オペレーターは短時間での状況認識、判断、および行動が求められる - - ~~障害対応時に、迅速に故障箇所を特定するために、計算機が時空間データを学習することにより、自動で故障箇所を推論する。 - ~~そのためには、できる限り多くの時系列データを収集可能 - ~~依存関係を低負荷で収集可能 - ~~多くのデータが入力されることを時空間~~ - そこで、「計測・保存・認知」負荷に対処するために、時間・空間のそれぞれの実用上の課題を克服した上で、時空間の運用データを学習し、運用データ量に対して、問題空間を小さくする手法を提案する - ただし、実運用上のかに、計算機資源とシステム管理者に追加の負荷をかけずに、オーバヘッドを削減できるか? - ただし、広範囲での実用の観点から、計装が容易なデータを対象とする - 時間:OS・ミドルウェアが提供するメトリクス(数値の時系列) - [[メトリクスの分類 - ワークロードとリソース]] - 空間:構成要素間のネットワーク通信の依存関係(グラフ) - 研究課題の構造整理 | | 時間(時系列) | 空間(グラフ) | | -------------- | -------------------------------------------------------------------------- | ------------------------------------------------------------------------ | | 観測システム | 系列が多い 5~60秒に一度更新 ○ | グラフ構造 ノード数は系列に比べて少ない ノードまたはエッジの増減は少ない | | 被観測システム | 広く普及しているためオーバヘッドを小さくするためのテクニックが知られている | 普及中のため、どの程度のオーバヘッドがあるかは不明 | - 研究課題1 非観測システムの計算機資源使用の効率化(空間) - ネットワーク通信の依存関係取得の効率化 - - 研究課題2 観測システムの計算機資源使用の効率化(時間) - 時系列データの収集の高効率化 - 多数の時系列の高頻度書き込み - 研究課題3 メトリクスの問題空間の縮小 - 障害の故障箇所ごとに、異常パターンや故障の伝搬経路は異なる - そのため、どのメトリクスが有用・不要かは事前には不明 - メトリクスの有用な - 既存手法で用いられる - 結論 - 学術的貢献 - 運用データの収集と自動解析を同時にとりあげ、はじめて提案した点にある - 統合的に扱うことがどうよいのか? - 哲学的意義 - 変化していくシステムをどう捉えるか - 自然 - 人間社会 - コンピュータシステム - 中央集権的に管理されている前提での - 新規の「知」の発見 - 学術全体の位置づけがわかる程度の一般性をもつ - 今後の課題 - メトリクスとネットワーク通信依存以外の種別の運用データの増大に対する計測・保存・認知負荷の課題を発見する。 - 博士課程の感想 - 社会人博士 - 可観測性のための運用データ「計測・保存」分野は、産業界での発展が著しく、新しいソフトウェアが登場・普及していく - 論文にはなったとしても、その論文の先を自分で展開していく未来がみえにくくなった - 統計と機械学習による運用データの「分析」は、学術分野での論文数は増えているものの、産業界ではまだまだこれからの分野。 - 基本概念の重複と実験の効率性 ## 構造 - アプリケーション種別 - クラウド型、P2P型 - - 被観測システムと観測システム - 観測負荷の種類 - 計測、保存、次元 - 運用データ種別 - 時間、空間 - 障害管理のタスク種別 - 障害予測、検知、故障箇所特定 ### はてな時代との関連 - 研究課題1 計測負荷 -> Transtracer:はてなのSPFのあちこちと通信しているカオスを可視化したい - 研究課題2保存負荷 -> HeteroTSDB (MackerelのTSDB): Mackerelでつくった時系列データベース - 研究課題3 解析負荷 -> TSifter:はてなに入社したころ、社内Mackerelで時系列データをグラフで全部みるのしんどいから、異常なやつだけをだしたいって言っていたのが元になっている