数据分析

一、常用的统计量：

　　均值mean()、中位数median()、众数mode()、分位数（上侧分位数、下侧分位数、四分位间距）

　　 ————四分位间距的求法：df[df<上界][df>下界] （上界：上侧分位数+K*四分位间距; 下界：上侧分位数+K*四分位间距） k指的是允许的形变

　　方差var()，偏态系数skew()，峰态系数kurt()，正态分布

二、数据预处理

1、数据的标准化（normalization）和归一化：

　数据的标准化（normalization）是将数据按比例缩放，使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到，去除数据的单位限制，将其转化为无量纲的纯数值，便于不同单位或量级的指标能够进行比较和加权。其中最典型的就是数据的归一化处理，即将数据统一映射到[0,1]区间上。

目前数据标准化方法有多种，归结起来可以分为直线型方法(如极值法、标准差法)、折线型方法(如三折线法)、曲线型方法(如半正态性分布)。不同的标准化方法，对系统的评价结果会产生不同的影响，然而不幸的是，在数据标准化方法的选择上，还没有通用的法则可以遵循。

2、缺失值处理：

　　第一步：明确缺失数据的重要性，如果对目标值的预测不重要，直接删除改变量，如果很重要，第一种方法通常采用能够处理缺失数据的算法进行建模(如：基于决策树的模型)，第二种方法是缺失值填充。

　　缺失值填充的常用方法：

　　k近邻进行填充：假设样本X_i的第j个变量缺失记为x_ij，目标就是要估计x_ij，首先利用x_i中没有缺失的变量，找到最相识的k个样本，并用这k个样本的第j个变量的平均值作为x_ij的估计值，缺失算法填充对主要的控制参数k不敏感

posted @ 2019-03-13 18:44 Chlli 阅读(328) 评论(0) 收藏举报

刷新页面返回顶部

Berlins