第1章 导论

1.1 数据科学

  • 核心:数据处理
  • 研究对象:实际问题(跨学科)
  • 方法:统计学 计算机科学 专业领域
  • 数据科学家:
    • 统计学水平高的程序员
    • 编程水平高的统计学家
    • 学术好奇心
    • 沟通交流能力
    • 产品经理
  • 数据次于问题
  • 大数据依赖科学而不是数据
  • 实验设计 重视可重复性随机与分组 预测与推断不同 不要选数据

1.2 基本问题

  • 描述分析:对数据进行描述但不解释
  • 探索分析:寻找未知的变量间关系 (相关不代表因果)
  • 推断分析:用小样本推断总体 统计模型的目标 强依赖采样过程
  • 预测分析:用一组变量预测另一变量 不一定有因果关系
  • 因果分析:改变一个变量引发另一个变量变化的分析 随机实验 平均效果
  • 机理分析:对个体改变一个变量所导致另一个变量的精确变化 公式模拟与参数拟合

1.3 工作流程

  • 数据收集
  • 数据整理
  • 数据探索
  • 数据建模
  • 模型评价
  • 结果交流

1.4 概率与分布

概率与分布是统计的基本世界观,当我们用概率来理解世界时,所有事物便不仅仅是此时此刻的事,而是可能性中的一种。这种全局观好比从上帝视角开启有限平行宇宙,即使你知道每种状态及其概率,最后结果也无法预判。

  • 从可能性到独立事件概率计算
  • 从联合概率到条件概率到贝叶斯公式
  • 事件的发生空间到分布
  • 多事件发生概率比较到标准化分布-z值
  • 正态分布评价拟合
  • 贝努利分布
  • 二项分布,固定总数,成功概率,二项分布可用正态分布近似求值,也可用二项分布取精确值,求区间概率要扩大
  • 负二项分布,固定成功次数概率
  • 几何分布,最后一次成功概率
  • 超几何分布,不放回抽样,成功概率
  • 泊松分布,实验次数多,概率小,发生概率,泊松过程

1.5 统计量

统计量是对样本性质的一种描述或简化,用来提取设计者所关注的信号并尽可能排除掉噪音。

  • 总体到样本

    • 多个事件的描述到众数 中位数 再到期望
    • 描述多个事件的变动到方差
    • 取样方法:随机,分层,分类
    • 样本独立性:简单随机取样,样本数少于10%的总体可认为独立样本
    • 估计的偏差为标准误
  • 点估计到区间估计

    • 标准误只针对样本均值,理解为样本均值的估计标准差
    • 置信区间为对所有样本进行区间估计,95%的区间包含真值,是对总体参数的估计,近似认为样本符合某分布
  • 中心极限法则:样本均值的分布为正态分布

1.6 统计推断

统计推断基于构建的统计量来进行决策,这个决策过程涉及空假设、备择假设与p值。

  • 假设检验

    • 不拒绝H0不代表H0是对的,拒绝H0代表HA可能正确,观察数值的区间重叠状况
    • 使用双重否定进行描述
    • type I 假阳性 type II 假阴性
    • 置信水平反映两种错误的可能性
    • p值描述某数值在H0(一般为等式)中出现的可能性,通常与置信水平对比,两边与单边
    • 构建符合某分布的统计量进行参数估计,通过标准误计算p值,进行假设检验过程
    • 功效表示HA拒绝H0的可能性,功效高,检验可靠
    • 统计差异显著不代表实际差异显著,甚至没有实际意义
  • 均值比较(连续)

    • 配对数据
    • 均值比较
    • t分布与自由度及小样本均值的标准误估计
    • 置信区间与p值
    • 样本均值的t检验
    • 多组数据均值的方差分析与F检验
    • 多重比较的假阳性问题
    • 样本数足够可用统计模拟的方法进行检验,数据存在层级结构则不可直接模拟
  • 比例比较(计数)

    • 比例检验,计算基于H0的标准误,计算z值,计算p值,可反推样品量
    • 比例差异检验,H0为比例相等,估计混合概率,计算标准误进行检验
    • 记分检验与Wald检验
  • 优度拟合

    • 分布检验到卡方检验
  • 独立性检验

  • 精确检验

1.7 统计模型

统计模型是基于统计量的对事物的抽象,借助模型可以简化事物的复杂性或从某个角度更好理解事物。

  • 变量关系到线性回归到线性诊断
  • 参数估计到关系解释及误差分析
  • 多元回归
  • 模型选择
  • 方差分析
  • 非线性模型与平滑
  • logistic模型到广义线性模型
  • 线性混合模型
  • 主成分分析与因子分析

1.8 其他主题

  • 非参数统计
  • 贝叶斯统计
  • 判别分析
  • 岭回归与lasso
  • 广义加性模型
  • 鲁棒模型
  • 决策树到随机森林
  • 人工神经网络
  • 支持向量机
  • 蒙特卡洛分析到统计模拟
  • 网络分析
  • 因果分析
  • 数据库
  • 软件构架
  • 服务器与前端设计
  • 并行与分布式计算
  • 容器化技术
  • 博弈论

1.9 应用

  • 工具
  • 实验设计
  • 模式识别
  • 流行病学
  • 生物信息学
  • 化学信息学
  • 心理学
  • 空间数据分析
  • 时间序列分析与信号处理
  • 量化投资
  • 自然语言处理