随笔分类 - python数据分析
摘要:在某些比较和评价的指标处理中经常需要去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。因此需要通过一定的方法进行数据标准化,将数据按比例缩放,使之落入一个小的特定区间。 一、标准化 1.0-1标准化 方法:将样本中的最大值、最小值记录下来,并通过max-min
阅读全文
摘要:一、缺失值 1.空值判断 isnull()空值为True,非空值为False notnull() 空值为False,非空值为True 0 False 1 False 2 False 3 True 4 False 5 True dtype: bool 0 1 1 2 2 3 4 hello dtype
阅读全文
摘要:相关性分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量的相关密切程度。 相关性的元素之间需要存在一定的联系或者概率才可以进行相关性分析。 相关系数在[-1,1]之间。 一、图示初判 通过pandas做散点矩阵图进行初步判断 二、Pearson相关系数(皮尔森相关系数) 前提条件:数
阅读全文
摘要:期望值,即在一个离散性随机变量试验中每次可能结果的概率乘以其结果的总和。 若随机变量X服从一个数学期望为μ、方差为σ^2的正态分布,记为N(μ,σ^2),其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。当μ = 0、σ = 1时的正态分布是标准正态分布。正态分布的图示如下
阅读全文
摘要:帕累托分析(贡献度分析):即二八定律 目的:通过二八原则寻找属于20%的关键决定性因素。 随机生成数据
阅读全文
摘要:一、统计分析 统计分析是对定量数据进行统计描述,常从集中趋势和离中趋势两个方面分析。 集中趋势:指一组数据向某一中心靠拢的倾向,核心在于寻找数据的代表值或中心值-统计平均数(算数平均数和位置平均数) 算术平均数:简单算术平均数和权重算术平均数 位置平均数:中位数和众数 离中趋势: 极差和分位差 标准
阅读全文
摘要:对比分析是对两个互相联系的指标进行比较。 绝对数比较(相减):指标在量级上不能差别过大,常用折线图、柱状图 相对数比较(相除):结构分析、比例分析、空间比较分析、动态对比分析 https://www.cnblogs.com/shengyang17/p/9630749.html
阅读全文
摘要:分布分析用于研究数据的分布特征,常用分析方法: 1、极差 2、频率分布 3、分组组距及组数 先对总体做关于经纬度的散点图 求总价、单价和首付的极差 单价和总价的频率分布 将总价分为8个区间,求出每个区间的频数、频率,并求出累计频率 对每个总价区间出现的频率做柱状图 对于单个字段比如朝向,做频率统计分
阅读全文
摘要:cut( )用来把一组数据分割成离散的区间。 bins设置为整数,将一维数组平均分为5份 系统自动根据数组中数值的大小将原数据平均分为5分,每个区间间隔为19.8。整个区间的起点为(1,100],由于右侧包含了100因此最大区间的最大值无需扩展,而由于不包括1,因此最小区间的最小值需向左扩展0.1%
阅读全文
摘要:需要先安装faker模块,pip install faker 导入模块中的Faker类:from faker import Faker 实例化faker = Faker() 更多其他使用请参考https://mp.weixin.qq.com/s?__biz=MzU5MjEwMTE2OQ==&mid=
阅读全文
摘要:一、csv文件 csv以纯文本形式存储表格数据 pd.read_csv('文件名'),可添加参数engine='python',encoding='gbk' 一般来说,windows系统的默认编码为gbk,可在cmd窗口通过chcp查看活动页代码,936即代表gb2312。 例如我的电脑默认编码时g
阅读全文
摘要:一、groupby 类似excel的数据透视表,一般是按照行进行分组,使用方法如下。 df.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=False, observed=
阅读全文
摘要:一、merge merge操作实现两个DataFrame之间的合并,类似于sql两个表之间的关联查询。merge的使用方法及参数解释如下: left和right:第一个DataFrame和第二个DataFrame对象,merge只能实现两个DataFrame的合并,无法一次实现多个合并 on:指定参
阅读全文
摘要:1.时间戳Timestamp() 参数可以为各种形式的时间,Timestamp()会将其转换为时间。 time1 = pd.Timestamp('2019/7/13') time2 = pd.Timestamp('13/7/2019 13:05') time3 - pd.Timestamp('201
阅读全文
摘要:处理文本数据,主要是通过Seris的str访问。遇到NaN时不做任何处理,保留结果为NaN,遇到数字全部处理为NaN。 str是Seris的方法,DataFrame不能直接使用,但是通过索引选择DataFrame中的某一行或者某一列,结果为Seris,然后就可以使用了。 例如定义一个Seris和Da
阅读全文
摘要:数值计算与统计 对于DataFrame来说,求和、最大、最小、平均等统计方法,默认是按列进行统计,即axis = 0,如果添加参数axis = 1则会按照行进行统计。 如果存在空值,在统计时默认会忽略空值,如果添加参数skipna = False,统计时不会忽略空值。 round(n) 保留n个小数
阅读全文
摘要:pandas是一个强大的python工具包,提供了大量处理数据的函数和方法,用于处理数据和分析数据。 使用pandas之前需要先安装pandas包,并通过import pandas as pd导入。 一、系列Series Seris为带标签的一维数组,标签即为索引。 1.Series的创建 Seri
阅读全文
摘要:numpy是一个多维的数组对象,类似python的列表,但是数组对象的每个元素之间由空格隔开。 一、数组的创建 1.通过numpy的array(参数),参数可以是列表、元组、数组、生成器等 由arr2和arr3看出,对于多维数组来说,如果最里层的数据类型不一致,array()会将其转化为一致 由ar
阅读全文
摘要:一、xlrd和xlwt 使用之前需要先安装,windows上如果直接在cmd中运行python则需要先执行pip3 install xlrd和pip3 install xlwt,如果使用pycharm则需要在项目的解释器中安装这两个模块,File-Settings-Project:layout-Pr
阅读全文