笔记 20 数据科学与python简介
20.1 数据科学
- 核心:数据处理
 - 研究对象:实际问题(跨学科)
 - 方法:统计学 计算机科学 专业领域
 - 数据科学家:
- 统计学水平高的程序员
 - 编程水平高的统计学家
 - 学术好奇心
 - 沟通交流能力
 - 产品经理
 
 
20.2 工作流程
- 数据收集
 - 数据整理
 - 数据探索
 - 数据建模
 - 模型评价
 - 结果交流
 
20.3 PYTHON 入门
- 基础数据类型 NULL
 - 数值类型
- int
 - float
 - bool(逻辑运算)
 
 - 列表
- 从0开始
 - 元素可变
 - ()赋值为Tuples类型 元素不可变
 
 - 字符串
- 文本处理
 - python专长
 
 - 字典
- {}包含
 - : 指定属性值
 
 - python中对象均有类型 可自定义
 
20.4 Python 工具包
- Numpy 数值计算包
 - Pandas 数据清洗 缺失值 切分
 - MatPlotLib 数据可视化
 - sklearn 机器学习包
 
20.5 探索性数据分析
- ACES model
 
| Letter | Step | Notes | 
|---|---|---|
| A | Acquire the data and Assemble the data frame | Find data, import into Pandas | 
| C | Clean the data frame | Identify and limit columns, rows, indices, dates, etc. | 
| E | Explore global properties | Visualize! Basic plots and stats appropriate to the data set | 
| S | Subset comparisons | Look at (visualize!) initial emergenet variable relationships and subsets | 
20.6 常见模型
- 线性模型
 - 分类问题:logistic模型与朴素贝叶斯模型
 - 无监督主成分分析
 - 无监督聚类
 
20.6.1 高级模型
- 模型打包组合技术:bagging boosting 随机森林
 - 支持向量机
 - 深度神经网络