统计学习导论-分类
logistic回归
- 因变量以概率形式出现
- \(p(X) = \frac {e^{\beta_0 + \beta_1 X}}{1 + e^{\beta_0 + \beta_1 X}}\)
- 变形后\(\frac {p(X)}{1 - p(X)}\) 为胜率,比概率应用更实际些,去对数后为对数胜率(logit)
- 因变量\(p(X)\)与自变量间关系非线性
- 用极大似然估计确定参数,似然函数为\(l(\beta_0, \beta_1) = \prod_{i:y_i = 1} p(x_i)\prod_{i':y_{i'} = 0} (1 - p(x_{i'}))\),该函数取最大值
- 线性回归中,最小二乘法为极大似然估计的特例
- 混杂因素的解释上要考虑单因素回归与多元回归
- 多响应logistic回归一般被判别分析取代
线性判别分析
- 使用原因:分类离散时logistic回归不稳定,n小X正态时更稳定,适用于多响应
- 贝页斯理论:\(Pr(Y = k|X = x) = \frac{\pi_k f_k(x)}{\sum_{l = 1}^K \pi_lf_l(x)}\) 其中\(\pi\) 代表先验概率,估计\(f_k(X)\)需要对\(x\)的分布作出假设
- 自变量为1时,假定\(f_k(x)\)分布为正态的,有\(f_k(x) = \frac{1}{\sqrt{2 \pi} \sigma_k} exp(- \frac{1}{2 \sigma_k^2} (x - \mu_k)^2)\),代入可得\(p_k(x)\),取对数有\(\sigma_k(x) = x \cdot \frac{\mu_k}{\sigma^2} - \frac{\mu_k^2}{2\sigma^2} + log(\pi_k)\),使\(\sigma_k(x)\)最大的分类方法为判定边界
- 贝页斯分类器需要知道所有分布参数,实际中会采用线性判别分析(LDA),通过以下训练集估计方法来插入贝页斯分类器:\(\hat \pi_k = n_k/n\)、\(\hat \mu_k = \frac{1}{n_k} \sum_{i:y_i = k} x_i\) 与 \(\hat \sigma^2 = \frac{1}{n - K} \sum_{k = 1}^K \sum_{i:y_i = k} (x_i - \hat \mu_k)^2\)
- 线性体现在判别函数\(\hat \sigma_k(x)\)的形式是线性的
- 自变量多于1时,假设自变量均来自多元正态分布的分类
- 列连表,表示假阳性,假阴性,可计算灵敏度与特异性
- LDA是对贝页斯分类的模拟,旨在降低总错误率,因此灵敏度与特异性区分并不明显,可根据实际需要调节
- ROC曲线用来展示两种错误,横坐标假阳性,纵坐标真阳性
二次判别分析(QDA)及其它
- 不同于LDA,二次判别分析考虑各分类参数中方差不同而不是相同,引入了二次项
- 对分类描述更为精细,但容易过拟合,样本较少,LDA优先
- 对比logistic回归,两者数学形式相近,取值上logistic回归使用极大似然法,LDA使用共方差的高斯分布假设,结论多数条件一致,但随假设不同而不同
- KNN更适用于非线性关系,标准化很有必要,QDA相对温和