数据处理相关
1、数据来源
-----1、调查数据和观察数据
-----2、数据库数据----关系型数据和非关系型数据
-----3、爬虫数据
-----4、日志数据
2、数据类型
-----1、结构化数据----基本数据类型、二维表结构数据
-----2、集合数据类型----列表、元组、字典、集合、推导式
-----3、结构化数据----数组、矩阵、数列、数据帧、日期时间型数据
-----4、非结构化数据----网页与JSON数据、图像数据、音频数据、视频数据
3、数据编码
-----1、数据编码的结构类型----分类编码、顺序编码、分段编码、值标签编码、Dummy/虚拟变量编码、尺度编码
4、数据清洗
-----1、异常值清洗----异常值识别、异常值处理
-----2、重复数据清洗-----重复数据检测、重复数据删除
-----3、低频类别清洗-----低频类别识别、低频类别处理
-----4、数据纠错-----逻辑纠错、格式纠错
-----5、数据纠偏-----数据偏度识别、数据偏度测量、数据偏度纠正
5、数据插补
------1、数据缺失类型、原因、影响、表现
------2、缺失值插补----简单统计量插补、聚类插补、模型插补
------3、MVP------MVP分析思路、MVP提取方法
6、数据配平
------1、不平衡数据
------2、数据配平方法-----欠采样法、过采样法、混合采样
------3、数据配平的影响------数据配平的效果、模型预测结果的偏离及其校正方法、欠采样对预测稳定性的影响
7、数据重构
------1、数据组合-----序列组合、水平组合、垂直组合、深度组合、列组合、行组合
------2、轴向连接------左右拼接、数据追加
------3、数据融合-----键融合、索引融合、插补融合
------4、数据重塑-----Panel、层次化索引、stack与unstack
------5、数据分拆-----水平分拆、垂直分拆、深度分拆、逻辑分拆、随机采样与数据分割
------6、数据聚合
8、数据变换
------1、连续数据函数变换-----对数变换、平方根变换、倒数变换、幂变换与BOX-COX变换
------2、连续数据离散化------客观法、主观法
------3、数据次序化------升降次序、位置与秩、秩的计算方法、秩的缺失值处理、DataFrame中的秩
------4、多分类数据哑变量化------哑变量与one-hot码、多分类数据转换为哑变量、多分类数据转换为one-hot码
------5、定性数据数量化-----顺序数据转化为得分、构造定性数据的平滑值
9、数据缩放
------1、数据缩放方法-----中心化、标准化、Min-Max缩放、Max-ABS缩放、Robust缩放
10、数据规约
------1、变量选择方法-----使用统计量、决策树模型、Lasso算法
------2、样本规约