- 発表日: 2021年8月5日(木) - 発表時間: 15分 質疑5分 タイトル: クラウド上の分散アプリケーションの高信頼化に関する研究 ## 発表概要 日本語は300~500文字 TBD ## 3行まとめ - クラウドを使用したアプリケーションの信頼性を向上させるアーキテクチャを研究している。 - 特に、システムの運用状況に関するデータを効率的に収集する手法に貢献した。 - 現在は、収集されたデータから、システムに発生する異常の原因を特定する機械学習手法を研究している。 ## アウトラインofアウトライン - 共通背景: 3分 - 研究目的と概要: 3分 - 研究詳細: 8分 - まとめ/発表文献: 1分 ## アウトライン - p0. タイトルと3行まとめ - p1. 構成 - p2-3. クラウド上の分散アプリケーションとその運用課題 - 分散アプリケーションの性質 - コンポーネント増によるデータ量増加 - 問題意識 - データ量増加がもたらす問題 - データ収集時の負荷の増加 - 認知負荷の増加 - 信頼性が低下しやすくなる - p4. 研究の目的 - 実システムへの適用しやすさを損なわずに、データ収集時の負荷を低減したい - 細かな指定をせずに、データを高速に解析し、故障箇所を診断する - p5. 研究手法の概要 - 研究成果1 時系列形式の運用データを高効率に保存する[[HeteroTSDB]] - 研究成果2 空間形式の運用データを高効率に収集する[[Transtracer]] - 研究成果3 時系列データの中から原因診断に有用な系列を抽出する [[research/tsifter/TSifter]] - 研究手法の詳細 - p.6-7. 研究課題1:時系列形式の運用データを高効率に保存する - 系列数の増加に対して、データ点の挿入時に平衡木を使用するディスクベースDBでは、対数時間を要する。 - 管理のための負担を低減するために、新規のDBを開発するのではなく、既存DB上に構成したい。 - メモリベースDBとディスクベースDBの階層化を提案 - メモリベースDBの段階では、ハッシュ表により定数オーダー - メモリベースKVS上に蓄積したデータをディスクベースDBへ単一の要求にまとめて書ける - 単一のディスクベースDBと比較して、3.98倍の挿入スループット向上を達成 - 系列数に対するスループット\ ![[Pasted image 20210708161359.png|400]] - スループットとメモリ使用量の関係\ ![[Pasted image 20210708162619.png|400]] - p.8-9. 研究課題2:空間形式の運用データを高効率に収集する - ネットワーク通信の呼び出し関係データを収集 - 適用性の観点で、アプリケーションごとの個別対応ではなくカーネルに着目 - Linuxカーネル内で複数のフローを集束 - CPU使用率を2.2%以下まで低減 - p.10-11. 研究課題3:時系列データの中から原因診断に有用な系列を抽出する - 大量の系列から、システム障害が発生するたびに、原因を診断する - 原因診断手法は、事前の指定や特徴量の次元を揃える必要あり - それらが難しいケースにて、特徴量を絞り込む - 高速性と削減率を両立する - 期間中の変動の度合いが小さい系列を除去する - グラフの形状が類似するものから代表的な系列を抽出する - 削減率は、91.7% - 94.2% 10万系列に対して実行時間は63s - 評価の妥当性に課題 - 既存と提案の前提条件が揃っていない状況での評価 - p12. 主な研究実績 - 坪内佑樹ほか, HeteroTSDB: 異種分散KVS間の自動階層化による高性能な時系列データベース, 情報処理学会論文誌, Vol.62, No.3, pp.818-828, 2021年3月. - Yuuki Tsubouchi, and others., HeteroTSDB: An Extensible Time Series Database for Automatically Tiering on Heterogeneous Key-Value Stores, IEEE COMPSAC, 2019. - Yuuki Tsubouchi, and others., Transtracer: Socket-Based Tracing of Network Dependencies among Processes in Distributed Applications, IEEE COMPSAC Workshop on AIOT, 2020. - 坪内佑樹ほか, TSifter: マイクロサービスにおける性能異常の迅速な診断に向いた時系列データの次元削減手法, インターネットと運用技術シンポジウム論文集, 2020年. - p.13 まとめ - クラウド上の分散アプリケーションの信頼性を向上させるアーキテクチャを研究している。 - 特に、システムの運用状況を示す時系列データとネットワーク通信の依存データを高効率で収集する手法に貢献した。 - 現在は、収集されたデータから、システムに発生する異常の原因を特定する手法を研究しており、成果がでつつある。 - 学術的貢献 - 今後の予定 - 研究課題2: 国内の論文誌に投稿中 - 研究課題3: 国際会議への投稿を準備中