第1章 导论
1.1 数据科学
- 核心:数据处理
- 研究对象:实际问题(跨学科)
- 方法:统计学 计算机科学 专业领域
- 数据科学家:
- 统计学水平高的程序员
- 编程水平高的统计学家
- 学术好奇心
- 沟通交流能力
- 产品经理
- 数据次于问题
- 大数据依赖科学而不是数据
- 实验设计 重视可重复性随机与分组 预测与推断不同 不要选数据
1.2 基本问题
- 描述分析:对数据进行描述但不解释
- 探索分析:寻找未知的变量间关系 (相关不代表因果)
- 推断分析:用小样本推断总体 统计模型的目标 强依赖采样过程
- 预测分析:用一组变量预测另一变量 不一定有因果关系
- 因果分析:改变一个变量引发另一个变量变化的分析 随机实验 平均效果
- 机理分析:对个体改变一个变量所导致另一个变量的精确变化 公式模拟与参数拟合
1.4 概率与分布
概率与分布是统计的基本世界观,当我们用概率来理解世界时,所有事物便不仅仅是此时此刻的事,而是可能性中的一种。这种全局观好比从上帝视角开启有限平行宇宙,即使你知道每种状态及其概率,最后结果也无法预判。
- 从可能性到独立事件概率计算
- 从联合概率到条件概率到贝叶斯公式
- 事件的发生空间到分布
- 多事件发生概率比较到标准化分布-z值
- 正态分布评价拟合
- 贝努利分布
- 二项分布,固定总数,成功概率,二项分布可用正态分布近似求值,也可用二项分布取精确值,求区间概率要扩大
- 负二项分布,固定成功次数概率
- 几何分布,最后一次成功概率
- 超几何分布,不放回抽样,成功概率
- 泊松分布,实验次数多,概率小,发生概率,泊松过程
1.5 统计量
统计量是对样本性质的一种描述或简化,用来提取设计者所关注的信号并尽可能排除掉噪音。
总体到样本
- 多个事件的描述到众数 中位数 再到期望
- 描述多个事件的变动到方差
- 取样方法:随机,分层,分类
- 样本独立性:简单随机取样,样本数少于10%的总体可认为独立样本
- 估计的偏差为标准误
点估计到区间估计
- 标准误只针对样本均值,理解为样本均值的估计标准差
- 置信区间为对所有样本进行区间估计,95%的区间包含真值,是对总体参数的估计,近似认为样本符合某分布
中心极限法则:样本均值的分布为正态分布
1.6 统计推断
统计推断基于构建的统计量来进行决策,这个决策过程涉及空假设、备择假设与p值。
假设检验
- 不拒绝H0不代表H0是对的,拒绝H0代表HA可能正确,观察数值的区间重叠状况
- 使用双重否定进行描述
- type I 假阳性 type II 假阴性
- 置信水平反映两种错误的可能性
- p值描述某数值在H0(一般为等式)中出现的可能性,通常与置信水平对比,两边与单边
- 构建符合某分布的统计量进行参数估计,通过标准误计算p值,进行假设检验过程
- 功效表示HA拒绝H0的可能性,功效高,检验可靠
- 统计差异显著不代表实际差异显著,甚至没有实际意义
均值比较(连续)
- 配对数据
- 均值比较
- t分布与自由度及小样本均值的标准误估计
- 置信区间与p值
- 样本均值的t检验
- 多组数据均值的方差分析与F检验
- 多重比较的假阳性问题
- 样本数足够可用统计模拟的方法进行检验,数据存在层级结构则不可直接模拟
比例比较(计数)
- 比例检验,计算基于H0的标准误,计算z值,计算p值,可反推样品量
- 比例差异检验,H0为比例相等,估计混合概率,计算标准误进行检验
- 记分检验与Wald检验
优度拟合
- 分布检验到卡方检验
独立性检验
精确检验
1.7 统计模型
统计模型是基于统计量的对事物的抽象,借助模型可以简化事物的复杂性或从某个角度更好理解事物。
- 变量关系到线性回归到线性诊断
- 参数估计到关系解释及误差分析
- 多元回归
- 模型选择
- 方差分析
- 非线性模型与平滑
- logistic模型到广义线性模型
- 线性混合模型
- 主成分分析与因子分析