方法名

函数功能

sum()

列的和

main()

算数平均数

var()

方差

std()

标准差

corr()

皮尔逊相关系数

cov()

协方差矩阵

skew()

三阶矩 偏度

kurt()

四阶矩 峰度

describe()

基本描述

 

协方差就是这样一种用来度量两个随机变量关系的统计量,协方差的结果有什么意义呢?如果结果为正值,则说明两个随机变量是正相关的(从协方差可以引出“相关系数”的定义),也就是说一个人越猥琐就越受女孩子欢迎,嘿嘿,那必须的~结果为负值就说明负相关的,越猥琐女孩子越讨厌,可能吗?如果为0,线性不相关

 

 

皮尔逊系数是协方差和标准差的商

 

偏度(Skewness): 是对Sample构成的分布的对称性状况的描述

正态分布的 Skewness=0。如果 Skewness>0 代表波形有右侧长尾,如果 Skewness<0 代表波形有左侧长尾。

 

Kurtosis(峰度): 是对Sample构成的分布的峰值是否突兀或是平坦的描述

态分布的峰度为3。当时间序列的曲线峰值比正态分布的高时,峰度大于3(图像扁平);当比正态分布的低时,峰度小于3(图像更瘦)

属性规约

属性规约方法

方法描述

合并属性

旧属性合并

逐步向前选择

从一个空属性集开始,每次从当前属性集中选择最优的一项加入该属性集,直到满足一定阈值

逐步向后删除

从满属性集开始……删除

决策树归纳

对初始数据集归纳分类归纳,获得一个初始决策树,删除没出现在该决策树上的属性

主成分分析PCA

用较少的变量解释原始数据的大部分变量

数据预处理

函数名

函数功能

所属库

interpolate

一维、高维数据插值

scipy

unique

去除重复元素,他是np对象的方法名

pandas/numpy

isnoll

是否为空

pandas

PCA

主成分分析

scikit-learn

random

生成随机矩阵

numpy

posted on 2018-10-30 10:51  沙沙沙啊啊皮  阅读(171)  评论(0编辑  收藏  举报