[クラスタリング 神嶌 敏弘](https://www.kamishima.net/archive/clustering.pdf)
- クラスタ
- 内的結合と外的分離の性質を持つデータの部分集合
- クラスタリング手法の分類
- [[階層的クラスタリング]]
- [[凝集型階層的クラスタリング]] データ一つが個々のクラスタの状態から,順次クラスタを併合し,クラスタの階層を生成する
- [[分割型階層的クラスタリング]] データ集合全体が一つのクラスタの状態から,順次クラスタを分割して,クラスタの階層を生成する
- [[分割最適化クラスタリング ]]
- クラスタの良さを表す関数を定義し,その関数を最適化するようなクラスタを見つけ出す
- 距離(非類似度)
- 似ていなさを示す数値
- 距離行列
- 実数値特徴ベクトル
- [[ユークリッド距離]]
- [[シティブロック距離]]
- [[ミンコフスキー距離]]
- [[マハラノビス距離]]
- [[コサイン類似度]]
- クラスタの解釈
> クラスタリングは探索的(exploratory)な解析手法で,分類結果はある主観や視点に基づいている.よって,結果は,データの要約などの知見を得るために用い,客観的な証拠として用いてはならない
- クラスタリングの正当性の検証
- 結果自体の良さを検証する内的妥当性尺度
- cophentic相関係数
- 均一なデータを,無理に分割した結果になっていないかを検証
- 分割例との近さを測る外的妥当性尺度
- Rand尺度
- 正規化[[相互情報量]]
- 何をつかえばいいのか?
- 階層構造が必要であれば、[[群平均法]]と[[ウォード法]]
- 必要なければ、[[k-means]]
- 線状や超球状のクラスタなら,それぞれ[[最短距離法|単リンク法]]や[[最長距離法|完全リンク法]]を利用
- クラスタの大きさに差があったり,形状が楕円だったら,適切な分布を設定した[[EMアルゴリズム]]を利用