统计学习导论-无监督学习

主成分分析

聚类方法

k均值聚类

  • 子类中方差小,子类间方差大
  • 事先指定子类个数
  • 最小化所有K个平均欧式距离\(W(C_k) = \frac{1}{|C_k|} \sum_{i,i' \in C_k} \sum_{j = 1}^{p} (x_{ij} - x_{i'j})^2\)
  • 先对所有样本随机分类,然后每种分类取中心,选取里中心距离最近的点重新分类,重新计算中心,迭代得到聚类结果

分层聚类

  • 不需要指定先前聚类数,形成冰柱图
  • 冰柱图要垂直分层解释,水平解释容易出现误导- 修剪冰柱图可给出聚类数
  • 计算所有样本间距离,越相近就融合为一类,重新计算距离,反复这一过程
  • 计算两者间相似度是很关键的,不同场景应用不同算法
  • 变量的标准化处理上也很重要,考虑实际场景