统计学习导论-统计学习

统计学习定义

\(Y = f(X) + \epsilon\)
统计学习本质上是在寻找最合适的f来进行预测与推断

预测

\(\hat Y = \hat f(X)\)，\(\hat f(X)\) 通常看作黑箱
\(\hat Y\)预测\(Y\)需要考虑两部分误差：可约误差与不可约误差
可约误差指\(\hat f\)推断\(f\)上的偏差
不可约误差指由\(\epsilon\)引入的误差
误差的期望 \(E(Y - \hat Y)^2 = [f(x) - \hat f(x)]^2 + Var(\epsilon)\) (证明用到\(E(Y)\))

推断

关注X与Y的关系，\(\hat f(X)\) 通常有明确的形式
自变量因变量是否相关
如何相关
关系的数学描述

估计f

使用训练集与验证集
参数方法与非参数方法
模型的欠拟合与过拟合
权衡模型的准确性（预测）与可解释性（推断）
模型的奥卡姆剃刀与黑箱

评价模型

拟合质量测量

训练集均方误 \(MSE_{Tr} = Ave_{i \in Tr}[y_{i} − \hat f(x_i)]^2\)
测试集均方误 \(MSE_{Te} = Ave_{i \in Te}[y_{i} − \hat f(x_i)]^2\)
测试集均方误源于训练集拟合模型的方差，误差项\(\epsilon\)的方差及模型误差的平方三部分

聚类评价

错误率 \(Err_{Te} = Ave_{i \in Te}I[y_i \neq \hat C(x_i)]\)
贝叶斯分类器：错误率最小的分类器，使x属于某个分类的概率最大
k临近值聚类：距离最小的k个为一类所产生的分类器