数据处理相关

1、数据来源

  -----1、调查数据和观察数据

  -----2、数据库数据----关系型数据和非关系型数据

  -----3、爬虫数据

  -----4、日志数据

2、数据类型

  -----1、结构化数据----基本数据类型、二维表结构数据

  -----2、集合数据类型----列表、元组、字典、集合、推导式

  -----3、结构化数据----数组、矩阵、数列、数据帧、日期时间型数据

  -----4、非结构化数据----网页与JSON数据、图像数据、音频数据、视频数据

3、数据编码

  -----1、数据编码的结构类型----分类编码、顺序编码、分段编码、值标签编码、Dummy/虚拟变量编码、尺度编码

4、数据清洗

  -----1、异常值清洗----异常值识别、异常值处理

  -----2、重复数据清洗-----重复数据检测、重复数据删除

  -----3、低频类别清洗-----低频类别识别、低频类别处理

  -----4、数据纠错-----逻辑纠错、格式纠错

  -----5、数据纠偏-----数据偏度识别、数据偏度测量、数据偏度纠正

5、数据插补

  ------1、数据缺失类型、原因、影响、表现

  ------2、缺失值插补----简单统计量插补、聚类插补、模型插补

  ------3、MVP------MVP分析思路、MVP提取方法

6、数据配平

  ------1、不平衡数据

  ------2、数据配平方法-----欠采样法、过采样法、混合采样

  ------3、数据配平的影响------数据配平的效果、模型预测结果的偏离及其校正方法、欠采样对预测稳定性的影响

7、数据重构

  ------1、数据组合-----序列组合、水平组合、垂直组合、深度组合、列组合、行组合

  ------2、轴向连接------左右拼接、数据追加

  ------3、数据融合-----键融合、索引融合、插补融合

  ------4、数据重塑-----Panel、层次化索引、stack与unstack

  ------5、数据分拆-----水平分拆、垂直分拆、深度分拆、逻辑分拆、随机采样与数据分割

  ------6、数据聚合

8、数据变换

  ------1、连续数据函数变换-----对数变换、平方根变换、倒数变换、幂变换与BOX-COX变换

  ------2、连续数据离散化------客观法、主观法

  ------3、数据次序化------升降次序、位置与秩、秩的计算方法、秩的缺失值处理、DataFrame中的秩

  ------4、多分类数据哑变量化------哑变量与one-hot码、多分类数据转换为哑变量、多分类数据转换为one-hot码

  ------5、定性数据数量化-----顺序数据转化为得分、构造定性数据的平滑值

9、数据缩放

  ------1、数据缩放方法-----中心化、标准化、Min-Max缩放、Max-ABS缩放、Robust缩放

10、数据规约

  ------1、变量选择方法-----使用统计量、决策树模型、Lasso算法

  ------2、样本规约

 

posted @ 2024-05-09 23:14  别看窗外的世界  阅读(4)  评论(0编辑  收藏  举报