笔记 1 简明数据分析知识框架
1.1 概率与分布
- 从可能性到独立事件概率计算
 - 从联合概率到条件概率到贝叶斯公式
 - 事件的发生空间到分布
 - 多事件发生概率比较到标准化分布-z值
 - 正态分布评价拟合
 - 贝努利分布
 - 二项分布,固定总数,成功概率,二项分布可用正态分布近似求值,也可用二项分布取精确值,求区间概率要扩大
 - 负二项分布,固定成功次数概率
 - 几何分布,最后一次成功概率
 - 超几何分布,不放回抽样,成功概率
 - 泊松分布,实验次数多,概率小,发生概率,泊松过程
 
1.2 统计量
总体到样本
- 多个事件的描述到众数 中位数 再到期望
 - 描述多个事件的变动到方差
 - 取样方法:随机,分层,分类
 - 样本独立性:简单随机取样,样本数少于10%的总体可认为独立样本
 - 估计的偏差为标准误
 
点估计到区间估计
- 标准误只针对样本均值,理解为样本均值的估计标准差
 - 置信区间为对所有样本进行区间估计,95%的区间包含真值,是对总体参数的估计,近似认为样本符合某分布
 
中心极限法则:样本均值的分布为正态分布
1.3 统计推断
假设检验
- 不拒绝H0不代表H0是对的,拒绝H0代表HA可能正确,观察数值的区间重叠状况
 - 使用双重否定进行描述
 - type I 假阳性 type II 假阴性
 - 置信水平反映两种错误的可能性
 - p值描述某数值在H0(一般为等式)中出现的可能性,通常与置信水平对比,两边与单边
 - 构建符合某分布的统计量进行参数估计,通过标准误计算p值,进行假设检验过程
 - 功效表示HA拒绝H0的可能性,功效高,检验可靠
 - 统计差异显著不代表实际差异显著,甚至没有实际意义
 
均值比较(连续)
- 配对数据
 - 均值比较
 - t分布与自由度及小样本均值的标准误估计
 - 置信区间与p值
 - 样本均值的t检验
 - 多组数据均值的方差分析与F检验
 - 多重比较的假阳性问题
 - 样本数足够可用统计模拟的方法进行检验,数据存在层级结构则不可直接模拟
 
比例比较(计数)
- 比例检验,计算基于H0的标准误,计算z值,计算p值,可反推样品量
 - 比例差异检验,H0为比例相等,估计混合概率,计算标准误进行检验
 - 记分检验与Wald检验
 
优度拟合
- 分布检验到卡方检验
 
独立性检验
精确检验
1.4 线性模型
- 变量关系到线性回归到线性诊断
 - 参数估计到关系解释及误差分析
 - 多元回归
 - 模型选择
 - 方差分析
 - 非线性模型与平滑
 - logistic模型到广义线性模型
 - 线性混合模型
 - 主成分分析与因子分析
 
1.5 其他主题
- 非参数统计
 - 贝叶斯统计
 - 判别分析
 - 岭回归与lasso
 - 广义加性模型
 - 鲁棒模型
 - 决策树到随机森林
 - 人工神经网络
 - 支持向量机
 - 蒙特卡洛分析到统计模拟
 - 图论
 
1.6 应用
- 实验设计
 - 模式识别
 - 流行病学
 - 生物信息学
 - 化学信息学
 - 心理学
 - 空间数据分析
 - 时间序列分析与信号处理
 - 量化投资