统计学习导论-统计学习
统计学习定义
- \(Y = f(X) + \epsilon\)
- 统计学习本质上是在寻找最合适的f来进行预测与推断
预测
- \(\hat Y = \hat f(X)\),\(\hat f(X)\) 通常看作黑箱
- \(\hat Y\)预测\(Y\)需要考虑两部分误差:可约误差与不可约误差
- 可约误差指\(\hat f\)推断\(f\)上的偏差
- 不可约误差指由\(\epsilon\)引入的误差
- 误差的期望 \(E(Y - \hat Y)^2 = [f(x) - \hat f(x)]^2 + Var(\epsilon)\) (证明用到\(E(Y)\))
推断
- 关注X与Y的关系,\(\hat f(X)\) 通常有明确的形式
- 自变量因变量是否相关
- 如何相关
- 关系的数学描述
估计f
- 使用训练集与验证集
- 参数方法与非参数方法
- 模型的欠拟合与过拟合
- 权衡模型的准确性(预测)与可解释性(推断)
- 模型的奥卡姆剃刀与黑箱
评价模型
拟合质量测量
- 训练集均方误 \(MSE_{Tr} = Ave_{i \in Tr}[y_{i} − \hat f(x_i)]^2\)
- 测试集均方误 \(MSE_{Te} = Ave_{i \in Te}[y_{i} − \hat f(x_i)]^2\)
- 测试集均方误源于训练集拟合模型的方差,误差项\(\epsilon\)的方差及模型误差的平方三部分
聚类评价
- 错误率 \(Err_{Te} = Ave_{i \in Te}I[y_i \neq \hat C(x_i)]\)
- 贝叶斯分类器:错误率最小的分类器,使x属于某个分类的概率最大
- k临近值聚类:距离最小的k个为一类所产生的分类器