统计学习导论-线性回归

简单线性回归

多元线性回归

线性模型延拓

  • 线性模型基本假设:可加性与线性
  • 去掉可加性:考虑交互作用
  • 层级原理:交互作用项显著而主作用不显著时不可去掉主作用项
  • 去掉线性:多项式回归

常见问题

  • 关系非线性:残差图判断
  • 误差项共相关:误差项的相关会导致标准误估计偏低,低估参数的区间使不显著差异变得显著,考虑时间序列数据,观察误差项轨迹判断
  • 误差项方差非常数:喇叭状残差图,通过对因变量进行对数或开方来收敛方差,或者用加权最小二乘
  • 异常值:通过标准化残差图判断
  • 杠杆点:加入后会影响模型拟合,通过杠杆统计量判断: \(h_i = \frac{1}{n} + \frac{(x_i - \bar x)^2}{\sum_{i' = 1}^{n} (x_i' - \bar x)^2}\) 多元回归中该统计量均值为\((p+1)/n\),超过很多则可能为杠杆点
  • 在标准残差-杠杆值图中,右上或右下方为危险值,左方数值对回归影响不大
  • 共线性:共线性的变量相互可替代,取值范围扩大,标准误加大,对因变量影响相互抵消,降低参数假设检验的功效
  • 多重共线性:引入方差膨胀因子,自变量引入全模型与单一模型方差的比值,超过5或10说明存在共相关,\(VIF(\hat \beta_j) = \frac{1}{1 - R^2_{X_j|X_{-j}}}\)
  • 解决共线性:丢弃变量或合并变量
  • 共线性不同于交互作用

线性回归与k临近算法比较