统计学习导论-统计学习

统计学习定义

预测

  • \(\hat Y = \hat f(X)\)\(\hat f(X)\) 通常看作黑箱
  • \(\hat Y\)预测\(Y\)需要考虑两部分误差:可约误差与不可约误差
  • 可约误差指\(\hat f\)推断\(f\)上的偏差
  • 不可约误差指由\(\epsilon\)引入的误差
  • 误差的期望 \(E(Y - \hat Y)^2 = [f(x) - \hat f(x)]^2 + Var(\epsilon)\) (证明用到\(E(Y)\))

推断

  • 关注X与Y的关系,\(\hat f(X)\) 通常有明确的形式
  • 自变量因变量是否相关
  • 如何相关
  • 关系的数学描述

估计f

  • 使用训练集与验证集
  • 参数方法与非参数方法
  • 模型的欠拟合与过拟合
  • 权衡模型的准确性(预测)与可解释性(推断)
  • 模型的奥卡姆剃刀与黑箱

评价模型

拟合质量测量

  • 训练集均方误 \(MSE_{Tr} = Ave_{i \in Tr}[y_{i} − \hat f(x_i)]^2\)
  • 测试集均方误 \(MSE_{Te} = Ave_{i \in Te}[y_{i} − \hat f(x_i)]^2\)
  • 测试集均方误源于训练集拟合模型的方差,误差项\(\epsilon\)的方差及模型误差的平方三部分

聚类评价

  • 错误率 \(Err_{Te} = Ave_{i \in Te}I[y_i \neq \hat C(x_i)]\)
  • 贝叶斯分类器:错误率最小的分类器,使x属于某个分类的概率最大
  • k临近值聚类:距离最小的k个为一类所产生的分类器