摘要:
相关性分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量的相关密切程度。 相关性的元素之间需要存在一定的联系或者概率才可以进行相关性分析。 相关系数在[-1,1]之间。 一、图示初判 通过pandas做散点矩阵图进行初步判断 二、Pearson相关系数(皮尔森相关系数) 前提条件:数 阅读全文
摘要:
期望值,即在一个离散性随机变量试验中每次可能结果的概率乘以其结果的总和。 若随机变量X服从一个数学期望为μ、方差为σ^2的正态分布,记为N(μ,σ^2),其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。当μ = 0、σ = 1时的正态分布是标准正态分布。正态分布的图示如下 阅读全文
摘要:
帕累托分析(贡献度分析):即二八定律 目的:通过二八原则寻找属于20%的关键决定性因素。 随机生成数据 阅读全文
摘要:
一、统计分析 统计分析是对定量数据进行统计描述,常从集中趋势和离中趋势两个方面分析。 集中趋势:指一组数据向某一中心靠拢的倾向,核心在于寻找数据的代表值或中心值-统计平均数(算数平均数和位置平均数) 算术平均数:简单算术平均数和权重算术平均数 位置平均数:中位数和众数 离中趋势: 极差和分位差 标准 阅读全文
摘要:
对比分析是对两个互相联系的指标进行比较。 绝对数比较(相减):指标在量级上不能差别过大,常用折线图、柱状图 相对数比较(相除):结构分析、比例分析、空间比较分析、动态对比分析 https://www.cnblogs.com/shengyang17/p/9630749.html 阅读全文
摘要:
分布分析用于研究数据的分布特征,常用分析方法: 1、极差 2、频率分布 3、分组组距及组数 先对总体做关于经纬度的散点图 求总价、单价和首付的极差 单价和总价的频率分布 将总价分为8个区间,求出每个区间的频数、频率,并求出累计频率 对每个总价区间出现的频率做柱状图 对于单个字段比如朝向,做频率统计分 阅读全文
摘要:
cut( )用来把一组数据分割成离散的区间。 bins设置为整数,将一维数组平均分为5份 系统自动根据数组中数值的大小将原数据平均分为5分,每个区间间隔为19.8。整个区间的起点为(1,100],由于右侧包含了100因此最大区间的最大值无需扩展,而由于不包括1,因此最小区间的最小值需向左扩展0.1% 阅读全文
摘要:
需要先安装faker模块,pip install faker 导入模块中的Faker类:from faker import Faker 实例化faker = Faker() 更多其他使用请参考https://mp.weixin.qq.com/s?__biz=MzU5MjEwMTE2OQ==&mid= 阅读全文
摘要:
在juoyter notebook中直接通过df输出DataFrame时,显示的样式为表格样式,通过sytle可对表格的样式做一些定制,类似excel的条件格式。 对表格创建样式有两种方式,都需要额外定义一个处理样式的函数 ①df.style.applymap(func,*args,**kwargs 阅读全文
摘要:
一、柱状图 1.通过obj.plot() 柱状图用bar表示,可通过obj.plot(kind='bar')或者obj.plot.bar()生成;在柱状图中添加参数stacked=True,会形成堆叠图。 2.通过plt.bar(x,y) 直接使用plt.bar()时,需要在参数中指定x轴和y轴表示 阅读全文