DBSCAN - yuuk1's Digital Garden

[DBSCANクラスタリングの解説と実験 – S-Analysis](https://data-analysis-stats.jp/python/dbscan%E3%82%AF%E3%83%A9%E3%82%B9%E3%82%BF%E3%83%BC%E3%81%AE%E8%A7%A3%E8%AA%AC%E3%81%A8%E5%AE%9F%E9%A8%93/) > DBSCAN (Density-based spatial clustering of applications with noise ) は、1996 年に Martin Ester, Hans-Peter Kriegel, Jörg Sander および Xiaowei Xu によって提案された密度準拠[[クラスタリング]]のアルゴリズムです。半径以内に点がいくつあるかでその領域をクラスタとして判断します。近傍の密度がある閾値を超えている限り，クラスタを成長させ続けます。半径以内に近く点がない点はノイズになります。 - クラスタ数を決めなくて良い。 - クラスターが球状であることを前提としない - 近傍の密度でクラスターを判断 ## クラスタリング - コア点(core points) - (密度)到達可能点 - 外れ値に分類― ## パラメータ - minpts - epsilon 半径 - k-distanceで求められる - 距離関数 [DBSCAN Parameter Estimation Using Python | by Tara Mullin | Medium](https://medium.com/@tarammullin/dbscan-parameter-estimation-ff8330e3a3bd) > この手法は、各ポイントとそのk個の最近接点間の平均距離を計算するもので、k＝選択したMinPts値である。平均k距離は、k距離グラフ上に昇順でプロットされます。曲率が最大となる点（グラフの傾きが最大となる点）で、εの最適値を見つけることができます。