TSifter進捗まとめ 20220323 - yuuk1's Digital Garden

## 可視化を大幅に改善 [Neptune - Machine Learning Lab](https://app.neptune.ai/html-renderer/?experimentIdentifier=95e1734f-0a04-423b-b642-1c03a4498195&attribute=tests%2Fcausal_graphs%2Fshipping%2Fpod-cpu-hog%2F0-with-root) - pyvis（因果グラフ） + [[Bokeh]]（時系列グラフ）を使っていたが、複数ツールの各HTML出力をつなぎ合わせるのがめんどくさかったので、[[Holoviews]]を使用してみた。 - pyvisはネットワークグラフのみ対応。Bokehでは、ネットワークグラフと時系列グラフに対応しているが、Holoviewsのほうがより高レベルのAPIを備えている。 - 因果グラフと時系列グラフは、カスタムのJSによるリンクによって、各グラフへの操作をもう一方へ反映させるなどの連携ができるのだけど、あまりにハマってしまったのでやめた。 - グラフの数が多いとグラフを一枚のHTMLにレンダリングするのに処理時間がかかるので、グラフをまとめたり、並列化しようとしてプロセス間でHoloviewsのオブジェクトを内部的にコピーするときにスタイル情報が欠落してはまっていたりした。 ## CI-testによるエッジ削除の誤り - fisher-zの有意水準が0.1でも0.5でもaccuracyは0.6程度。pod-memory-hogのaccuracyが非常に低い。memory-hogの故障では、影響範囲がcpuより大きいためノード数が大きくなりやすい。そのため、結果メトリックから原因メトリックまでの経路どこかでエッジが切られやすいのかもしれない。 [[TSifter実験因果グラフ構築 20220320]] ## 今後の予定 - 研究作業 - エッジ削除の誤りの調査 - https://github.com/jakobrunge/tigramite [Localizing Failure Root Causes in a Microservice through Causality Inference](https://www.notion.so/Localizing-Failure-Root-Causes-in-a-Microservice-through-Causality-Inference-080d9eae381b49aca49970419e9e2c50) - Sock Shopでまともな因果グラフ accuracy達成 - Sock Shop + 1ロールあたり複数pod - Sock Shop + (ノードメトリック) + ミドルウェアメトリック - Sock Shop + 負荷を徐々にあげてボトルネックに達する故障の実験 - TrainTicket - 4/15 [SRE NEXT 2022の動画提出締切](https://www.notion.so/SRE-NEXT-2022-af0e0abe8a554fd8a60087fb84ea72f1) - IEEE CLOUD 2022は諦め気味。IEEE Accessを狙うか悩み中。