[クラスタリング 神嶌 敏弘](https://www.kamishima.net/archive/clustering.pdf) - クラスタ - 内的結合と外的分離の性質を持つデータの部分集合 - クラスタリング手法の分類 - [[階層的クラスタリング]] - [[凝集型階層的クラスタリング]] データ一つが個々のクラスタの状態から,順次クラスタを併合し,クラスタの階層を生成する - [[分割型階層的クラスタリング]] データ集合全体が一つのクラスタの状態から,順次クラスタを分割して,クラスタの階層を生成する - [[分割最適化クラスタリング ]] - クラスタの良さを表す関数を定義し,その関数を最適化するようなクラスタを見つけ出す - 距離(非類似度) - 似ていなさを示す数値 - 距離行列 - 実数値特徴ベクトル - [[ユークリッド距離]] - [[シティブロック距離]] - [[ミンコフスキー距離]] - [[マハラノビス距離]] - [[コサイン類似度]] - クラスタの解釈 > クラスタリングは探索的(exploratory)な解析手法で,分類結果はある主観や視点に基づいている.よって,結果は,データの要約などの知見を得るために用い,客観的な証拠として用いてはならない - クラスタリングの正当性の検証 - 結果自体の良さを検証する内的妥当性尺度 - cophentic相関係数 - 均一なデータを,無理に分割した結果になっていないかを検証 - 分割例との近さを測る外的妥当性尺度 - Rand尺度 - 正規化[[相互情報量]] - 何をつかえばいいのか? - 階層構造が必要であれば、[[群平均法]]と[[ウォード法]] - 必要なければ、[[k-means]] - 線状や超球状のクラスタなら,それぞれ[[最短距離法|単リンク法]]や[[最長距離法|完全リンク法]]を利用 - クラスタの大きさに差があったり,形状が楕円だったら,適切な分布を設定した[[EMアルゴリズム]]を利用