# Pvclust: an R package for assessing the uncertainty in hierarchical clustering Created: November 30, 2020 3:54 PM Tags: clustering URL: https://academic.oup.com/bioinformatics/article/22/12/1540/207339 Year: 2006 ## Abstract (以下,DeepL翻訳) Pvclustは、階層的クラスタ解析における不確かさを評価するための統計ソフトRのアドオンパッケージです。Pvclustは、DNAマイクロアレイ解析などの一般的な統計問題に簡単に利用でき、系統解析で普及しているクラスタリングのブートストラップ解析を行うことができます。Pvclustは、ブートストラップリサンプリングの手法を用いて、各クラスタの確率値(p値)を計算します。p値には、約偏りのない(AU)p値とブートストラップ確率(BP)値の2種類があります。AUのp値の計算にはマルチスケールブートストラップリサンプリングが用いられ、通常のブートストラップリサンプリングで計算されたBP値よりもバイアスに優れています。また、並列計算のオプションにより、計算時間を大幅に短縮することができます。 ## わかったことなどメモ - この論文は,開発したRパッケージであるPvclustの紹介に留まっており,数学的な理論などには踏み込んでいない.理論は以下の論文にある. [Shimodaira : Approximately unbiased tests of regions using multistep-multiscale bootstrap resampling](https://projecteuclid.org/download/pdfview_1/euclid.aos/1107794881) - Pvclustは,階層的クラスタ分析の不確かさを評価するためのブートストラップ分析をRで実装したものである. - Pvclustはクラスタごとにp値が算出されるので,全体的なクラスタ数に対して妥当かどうかではなく,一つ一つのクラスタをまとめるのは妥当かをp値で判断し,結果的にクラスタ数を決定できる. - p値の中でもサンプリングバイアスを取り除いた「approximately unbiased (AU) probability values (p-values)」を計算するためにマルチスケールブートストラップリサンプリングという手法を用いている. - ブートストラップサンプリングを使うということは,手元のデータをランダムにサンプリングして複数のデータ集合を作るような手法であることが予想されるため,クラスタ数の決定には多少時間がかかるかもしれない. ## 疑問点 - 「階層的クラスタ分析の不確かさ」とは具体的に何のことか - マルチスケールブートストラップリサンプリング,AU p-valuesとは - 他の情報量基準などを用いたクラスタ数の決定よりどういった点が優れているのか - クラスタ数決定までにどれくらい時間がかかるか - Python実装はあるか - Pvclust以外に同様な手法やライブラリはあるか