BIRCH - yuuk1's Digital Garden

[BIRCH - Wikipedia](https://en.wikipedia.org/wiki/BIRCH) > BIRCH (balanced iterative reducing and clustering using hierarchies) は、特に大規模なデータセットに対して階層的なクラスタリングを行うために使用される教師なしデータマイニングアルゴリズムである[1]。改変により、[[EMアルゴリズム|期待値最大化アルゴリズム]]による[[k-means]]クラスタリングと[[混合ガウス分布]]モデリングの高速化にも使用できる。 BIRCHの利点は、与えられたリソース（メモリと時間の制約）に対して最高品質のクラスタリングを生成するために、入力された多次元メトリックデータポイントを段階的かつ動的にクラスタリングできることである[2]。ほとんどの場合、BIRCHはデータベースを1回スキャンするだけでよい。 > BIRCHの発明者は、「データベース分野で提案された、『ノイズ』（基本的なパターンの一部ではないデータポイント）を効果的に扱う最初のクラスタリングアルゴリズム」[1]であり、[[DBSCAN]]に2ヶ月差をつけたと主張しています。BIRCHアルゴリズムは、2006年にSIGMOD 10 year test of time awardを受賞しています[3]。 [BIRCH - HandWiki](https://handwiki.org/wiki/BIRCH) [BIRCH Clustering Algorithm Example In Python | by Cory Maklin | Towards Data Science](https://towardsdatascience.com/machine-learning-birch-clustering-algorithm-clearly-explained-fb9838cbeed9) > Balanced Iterative Reducing and Clustering using Hierarchies（BIRCH）は、大規模なデータセットに対して、まず分布情報をできるだけ保持したよりコンパクトな要約を生成し、次に元のデータセットの代わりにデータの要約をクラスタリングすることで、高いレベルの処理を行います。BIRCHは、BIRCHによって生成された要約に異なるクラスタリングアルゴリズムを適用することができるため、実際には他のクラスタリングアルゴリズムを補完することができる。BIRCHはメトリック属性（KMEANSが扱える特徴の種類に似ている）のみを扱うことができる。メトリック属性とは、ユークリッド空間における明示的な座標で値が表現できるものである（カテゴリカル変数はない）。 [BIRCH for Anomaly Detection with InfluxDB | InfluxData](https://www.influxdata.com/blog/birch-for-anomaly-detection-with-influxdb/) - [[ATDK]]パッケージ [[異常検知]]にも使われる。[[BIRCHによる時系列データの異常検知]]