第4章 探索性数据分析
4.1 ACES 模型
Letter | Step | Notes |
---|---|---|
A | Acquire the data and Assemble the data frame | Find data and import |
C | Clean the data frame | Identify and limit columns, rows, indices, dates, etc. |
E | Explore global properties | Visualize! Basic plots and stats appropriate to the data set |
S | Subset comparisons | Look at (visualize!) initial emergenet variable relationships and subsets |
4.4 分层聚类
- 找到最近的 聚到一起 找下个最近的
- 给出距离范围与距离计算方法
- 欧氏距离 多维空间点距 开平方
- manhattan距离 出租车距离 绝对值
- 给出变量间或样本间的关系
- 图形可能不稳定 多少样本多少类
- 结果是确定的
- 选定cut点并不明显
- 应该首先用来探索
4.5 k-means聚类
- 固定聚类数 给出聚类中心 寻找最近的点 循环
- 需要聚类数与聚类距离范围
- 需要大量聚类 通过眼睛 交叉检验
- k的经验数值\(\sqrt{n/2}\) 或者根据解释的变量变化多少来选取
- 结果不确定 根据聚类数与迭代次数而变化