2014/12/12

环境化学中的阈值

对象发生某种变化所需的某种条件的值

  • 条件:环境样品中污染物浓度
  • 对象
    • 物化性质:Kow、Koa等分子描述符
    • 环境因子:温度、气压、海拔
    • 毒性:剂量-效应关系、毒物兴奋效应
    • 健康:疾病发病率、死亡率

环境阈值是研究环境过程机理或风险评估的关键参数

阈值的拟合

  • logistic 回归
    • 四参数法:f(x,(b,c,d,e)) = c + (d-c)/(1+exp(b(log(x)-log(e))))

单变量案例:普吉特海湾PCBs开放数据

  • 数据来自美国环保署网站
  • 75个底泥样品采样点数据与污染物浓度数据

PCBs与采样深度的关系:线性回归与LOWESS回归

PCBs与采样深度的关系

  • 线性回归与LOWESS
    • R2: 0.1294121 P值: 0.0015247
    • lowess回归对异常值稳健,够直观,但不易描述
  • 自举重采样
    • 有放回重采样1000次
    • 拟合1000条LOWESS回归线 透明度1%
    • 根据颜色从图上读出阈值

PCBs与采样深度的关系:曲棍球模型

PCBs与采样深度的关系

  • 曲棍球模型
    • 为自动化阈值寻找提供了便利
    • 无法弥补数据质量问题
    • F检验进行模型筛选

多变量案例:寻找影响分子沸点的分子描述符

  • 原理
    • 结构影响性质
    • 分子描述符可大量获得
  • 数据
    • 277个分子
    • 16个常见描述符
  • 思路
    • 捕捉分子描述符的层级关系
    • 特定描述符的阈值分割有助于机理讨论

寻找影响分子沸点的拓扑描述符:决策树模型

  • 数据结构探索
  • 越靠近根 分异最大
  • 可用来筛选可疑变量及其阈值

种树结果

种树结果

  • 根描述符
    • 化学键数目(nb) 阈值:7.5
    • 酸性基团数目(AMR) 阈值:14
    • 分子量(MW) 阈值:194
  • 讨论
    • 根据描述符筛选重要变量
    • 根据阈值讨论潜在数据结构
    • 自举重采样

Essentially, all models are wrong, but some are useful. – George E. P. Box

阈值探索小结

  • 让数据说话,不依赖预设分布或动力学假设
  • 基于探索发现现象并建模
  • 强规律会再现于任一个模型

THANK YOU