摘要: 异常值是指样本中的个别值,其数值明显偏离其余的观测值。 异常值也称离群点,异常值的分析也称为离群点的分析 异常值分析 → 1,3σ原则 2, 箱型图分析 异常值处理方法 → 1, 删除 2,修正填补 1,# 异常值分析 (1)3σ原则 如果数据服从正态分布,异常值被定义为一组测定值中与平均值的偏差超 阅读全文
posted @ 2020-03-09 10:31 木子酱 阅读(1990) 评论(0) 推荐(0) 编辑
摘要: 连续属性变换成分类属性,即连续属性离散化 在数值的取值范围内设定若干个离散划分点,将取值范围划分为一些离散化的区间,最后用不同的符号或整数值代表每个子区间中的数据值 等宽法 / 等频法 等宽法 → 将数据均匀划分成n等份,每份的间距相等 cut方法 import numpy as npimport 阅读全文
posted @ 2020-03-09 10:21 木子酱 阅读(855) 评论(0) 推荐(0) 编辑
摘要: 数据处理—缺失值处理 数据缺失主要包括记录缺失和字段信息缺失等情况,其对数据分析会有较大影响,导致结果不确定性更加显著 缺失值的处理:删除记录 / 数据插补 / 不处理 1,删除记录 判断是否有缺失值数据 - isnull,notnull isnull:缺失值为True,非缺失值为False not 阅读全文
posted @ 2020-03-09 09:36 木子酱 阅读(730) 评论(0) 推荐(0) 编辑
摘要: 数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。 在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权 最典型的就是数据的归一化处理,即将数据统一映射到[0,1]区间上 1,0-1标准 阅读全文
posted @ 2020-03-09 09:26 木子酱 阅读(1331) 评论(0) 推荐(0) 编辑
摘要: 利用观测数据判断总体是否服从正态分布的检验称为正态性检验,它是统计判决中重要的一种特殊的拟合优度假设检验。 正态分布 在实际数据分析过程中并不是所有数据都是满足正态分布 并不是必须满足正态分布才能分析 通过正太分布作为参考去理解事物规律 直方图初判 / QQ图判断 / K-S检验 直方图初判 imp 阅读全文
posted @ 2020-03-09 09:24 木子酱 阅读(1332) 评论(0) 推荐(0) 编辑
摘要: 分析连续变量之间的线性相关程度的强弱 相关性分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量因素是相关密切程度。 1,图示初判 2,Pearson相关系数(皮尔逊相关系数) 3,Sperman秩相关系数(斯皮尔曼相关系数) 1,图示初判 (1)变量之间的线性相关性 import n 阅读全文
posted @ 2020-03-09 09:18 木子酱 阅读(2920) 评论(0) 推荐(0) 编辑
摘要: 统计指标对定量数据进行统计描述,常从集中趋势和离中趋势两个方面进行分析 import numpy as npimport pandas as pdimport matplotlib.pyplot as plt% matplotlib inline 1、集中趋势度量 指一组数据向某一中心靠拢的倾向,核 阅读全文
posted @ 2020-03-09 09:08 木子酱 阅读(695) 评论(0) 推荐(0) 编辑
摘要: 帕累托分析(贡献度分析) → 帕累托法则:20/80定律 “原因和结果、投入和产出、努力和报酬之间本来存在着无法解释的不平衡。一般来说,投入和 努力可以分为两种不同的类型: 多数,它们只能造成少许的影响;少数,它们造成主要的、重大的影响。” → 一个公司,80%利润来自于20%的畅销产品,而其他80 阅读全文
posted @ 2020-03-09 09:01 木子酱 阅读(313) 评论(0) 推荐(0) 编辑