https://app.neptune.ai/yuuk1/tsifter/e/TSIF-77/ - accuracy - component - shipping: 0 - cpu/memoryともに、front-endの反応なし - ある意味正解 - pod-network-latencyだけ s-orders_latency が反応する - front-endは反応なし - orders: 0.08 - cpu-hogがすべて不正解 - 経路上のメトリックが0個 - 故障注入されてなさそう ![[Pasted image 20211207155101.png]] - memory-hog - orders-latencyが除去されたせいで、不正解となっている - 2cases - ![[Pasted image 20211207155403.png]] - ![[Pasted image 20211207155416.png]] - 故障注入期間は欠損値がある。スプライン曲線で補完されていそう。 - レイテンシとリクエスト数のいずれかがはいっていれば正解とするのはどうか - なぜか2ケースしかデータがない - network-latencyはすべてnetwork系メトリックの変動が小さい - https://app.neptune.ai/yuuk1/tsifter/e/TSIF-77/all?path=tests&attribute=figures - ![[Pasted image 20211207160805.png]] - ![[Pasted image 20211207160845.png]] - ![[Pasted image 20211207160901.png]] - 変動しているようにみえるので、[[DF検定]]でうまくとらえられるのか? - carts: 0.1 - pod-cpu-hogの注入に失敗 - pod-memory-hogの注入に失敗 - pod-network-latency - 2件成功 残り3件は変動なし おそらく注入に失敗している - コンテナ名とpod名の差異により、[[LitmusChaos - MOC]]が存在しないコンテナに注入しようとしていた。 - chaos type - pod-memory-hog: 0.17 - carts-db: injectionに失敗していそう - catalogue-db: injectionに失敗していそう - front-end: 失敗していそう - orders-db: injectionに失敗していそう。memory-usage-bytesはトレンド傾向で残留しているが実際はあまり変動していない。 - shipping: injectionには成功している - user: injection失敗。 - user-db: injection失敗。 - pod-network-latency: 0.44 - carts 3,4,5からinjectionできてるかあやしい - catalogue 4だけinjection成功している - orders-db network系メトリックだけ変動がすくない ## サマリ TSifterのうまくいっていないケースについてみていった結果、モデルの精度の問題ではなく、故障注入に失敗していたケースがほとんどだった。 ![[Pasted image 20211208150006.png]] モデル側の改善余地は、ネットワーク故障で、ネットワークの原因メトリックの変動が小さく、原因以外の伝搬経路メトリックの変動が大きいケースで、前者がADF検定で除外されているケース1件ぐらい。 このプロットを目視でみても、ネットワーク系メトリックが原因だとは考えづらい… これらの原因メトリックにかわる新しい原因メトリックを正解に据える。 現実的に収集可能なメトリックのみで原因特定はできないとして、評価のデータセットから削除する ## To-Do - 残留メトリック数の変化を含めたい - GTメトリックごとにp値も記録する - tracing,loggingがほしい - 指定したラベルのcontainerが存在するかチェック - litmus injection 失敗したら通知か、失敗一覧がわかるように - step2 のscoreデータ - クラスタの図 - 故障注入期間の変化データ 1min, 5min, 10min - 外部負荷変化データ - Node側のメトリックも正解経路候補にいれる?