统计学习导论-分类

logistic回归

因变量以概率形式出现
\(p(X) = \frac {e^{\beta_0 + \beta_1 X}}{1 + e^{\beta_0 + \beta_1 X}}\)
变形后\(\frac {p(X)}{1 - p(X)}\) 为胜率，比概率应用更实际些，去对数后为对数胜率（logit）
因变量\(p(X)\)与自变量间关系非线性
用极大似然估计确定参数，似然函数为\(l(\beta_0, \beta_1) = \prod_{i:y_i = 1} p(x_i)\prod_{i':y_{i'} = 0} (1 - p(x_{i'}))\)，该函数取最大值
线性回归中，最小二乘法为极大似然估计的特例
混杂因素的解释上要考虑单因素回归与多元回归
多响应logistic回归一般被判别分析取代

使用原因：分类离散时logistic回归不稳定，n小X正态时更稳定，适用于多响应
贝页斯理论：\(Pr(Y = k|X = x) = \frac{\pi_k f_k(x)}{\sum_{l = 1}^K \pi_lf_l(x)}\) 其中\(\pi\) 代表先验概率，估计\(f_k(X)\)需要对\(x\)的分布作出假设
自变量为1时，假定\(f_k(x)\)分布为正态的，有\(f_k(x) = \frac{1}{\sqrt{2 \pi} \sigma_k} exp(- \frac{1}{2 \sigma_k^2} (x - \mu_k)^2)\)，代入可得\(p_k(x)\)，取对数有\(\sigma_k(x) = x \cdot \frac{\mu_k}{\sigma^2} - \frac{\mu_k^2}{2\sigma^2} + log(\pi_k)\)，使\(\sigma_k(x)\)最大的分类方法为判定边界
贝页斯分类器需要知道所有分布参数，实际中会采用线性判别分析（LDA），通过以下训练集估计方法来插入贝页斯分类器：\(\hat \pi_k = n_k/n\)、\(\hat \mu_k = \frac{1}{n_k} \sum_{i:y_i = k} x_i\) 与 \(\hat \sigma^2 = \frac{1}{n - K} \sum_{k = 1}^K \sum_{i:y_i = k} (x_i - \hat \mu_k)^2\)
线性体现在判别函数\(\hat \sigma_k(x)\)的形式是线性的
自变量多于1时，假设自变量均来自多元正态分布的分类
列连表，表示假阳性，假阴性，可计算灵敏度与特异性
LDA是对贝页斯分类的模拟，旨在降低总错误率，因此灵敏度与特异性区分并不明显，可根据实际需要调节
ROC曲线用来展示两种错误，横坐标假阳性，纵坐标真阳性