随笔分类 -  Python数据分析

1 2 下一页
这20个Pandas函数,堪称"数据清洗"杀手!
摘要:今天准备介绍一篇 超级肝货 ! Pandas 是基于NumPy 的一种工具,该工具是为解决数据分析任务而创建的。它提供了大量能使我们快速便捷地处理数据的函数和方法。 本文介绍的这20个 【被分成了15组】 函数,绝对是 数据处理 杀手,用了你会爱不释手。 构造数据集 这里为大家先 构造一个数据集 , 阅读全文
posted @ 2021-10-08 21:20 math98 编辑
DataFrame(13):DataFrame之合并组合
摘要:在Pandas的实践过程中,我们经常需要将两个DataFrame合并组合在一起再进行处理,比如将不同来源的数据合并在一起,或者将不同日期的DataFrame合并在一起。 DataFrame的合并组合从方向上分,大体上分为两种情况:横向的,纵向的。(这个很容易理解吧) 看下如下的图示(图片来自Pand 阅读全文
posted @ 2021-01-08 17:38 math98 编辑
DataFrame(12):DataFrame的排序与排名问题
摘要:1、说明 DataFrame中的排序分为两种,一种是对索引排序,一种是对值进行排序。 索引排序:sort_index(); 值排序:sort_values(); 值排名:rank() 对于索引排序,涉及到对行索引、列索引的排序,并且还涉及到是升序还是降序。函数df.sort_index(axis= 阅读全文
posted @ 2020-09-18 20:48 math98 编辑
DataFrame(11):数据转换——apply(),applymap()函数的使用
摘要:1、apply()函数 1)apply()函数作用 ① apply()函数作用于Series 和Series的map()方法作用是一样的,依次取出Series中的每一个元素作为参数,传递给function函数,进行一次转换。 ② apply()函数作用于DataFrame 依次取出DataFrame 阅读全文
posted @ 2020-09-18 20:40 math98 编辑
DataFrame(10):数据转换——map()函数的使用
摘要:1、map()函数 1)map()函数作用 将序列中的每一个元素,输入函数,最后将映射后的每个值返回合并,得到一个迭代器。 2)map()函数原理图 原理解释:上图有一个列表,元素分别是从1-9。map()函数的作用就是,依次从这个列表中取出每一个元素,然后放到f(x)函数中,最终得到一个通过函数映 阅读全文
posted @ 2020-09-18 20:36 math98 编辑
DataFrame(9):DataFrame运算——累计统计函数
摘要:1、相关函数说明 2、原始数据 df = pd.DataFrame({"id":["00{}".format(i) for i in range(1,10)], "score":[2,3,4,4,5,6,7,7,8]}) display(df) 结果如下: 3、cumsum()函数:求前n个元素的累 阅读全文
posted @ 2020-09-18 20:31 math98 编辑
DataFrame(8):DataFrame运算——基本统计函数
摘要:1、常用函数说明 在df中使用统计函数,其实很简单,我们主要关注以下3点,就没问题: ① 了解每个函数的具体含义是什么; ② 不管是Series还是DataFrame,默认都是自动忽略NaN值,进行运算的; ③ DataFrame有行、列区分,因此在使用统计函数的时候,一般是结合axis=0或者ax 阅读全文
posted @ 2020-09-18 20:26 math98 编辑
DataFrame(7):DataFrame运算——逻辑运算
摘要:1、DataFrame逻辑运算 逻辑运算符号:> >= < <= == != 复合逻辑运算符:& | ~ 逻辑运算函数:query()、isin()、between() 逻辑运算的作用:利用逻辑运算,用于筛选数据(很重要) 2、原始数据文件 下载链接: https://alltodata.cowtr 阅读全文
posted @ 2020-08-31 21:28 math98 编辑
DataFrame(6):DataFrame运算——算术运算
摘要:1、DataFrame算术运算 加:add 或 + 减:sub 或 -DataFrame后面简称DF 2、DF与标量之间的运算 这个才是最重要的!!! 1)原始数据 x = [[np.nan,1,1,1,1],[2,2,np.nan,2,2],[3,3,3,3,3],[4,np.nan,4,4,4] 阅读全文
posted @ 2020-08-31 21:09 math98 编辑
DataFrame(5):DataFrame的增、删、改、查
摘要:1、说明 增:增加一行或一列; 删:删出一行或一列; 改:修改某行或某列; 查:获取Datarame中的值; 2、查:获取值 这里需求在之前的文章讲述过了,大家可以参考这个文章:DataFrame(4):DataFrame元素的获取方式 3、增 1)增加行 ① df.loc() df = pd.Da 阅读全文
posted @ 2020-08-31 19:34 math98 编辑
DataFrame(4):DataFrame元素的获取方式
摘要:1、学习DataFrame元素获取,需要掌握以下几个需求 访问一列 或 多列 访问一行 或 多行 访问某个值 访问某几行中的某几列 访问某几列中的某几行 2、构造一个DataFrame df = pd.DataFrame(np.random.randint(70,100,(4,5)), index= 阅读全文
posted @ 2020-08-31 19:33 math98 编辑
DataFrame(3):DataFrame的创建方式
摘要:1、利用字典生成DataFrame ① 第一种方式:列表组成的字典 stu = { "name":["张三","李四","王燕"], "age":[18,20,22], "sex":["男","男","女"] } df = pd.DataFrame(stu) display(df) 结果如下: ② 阅读全文
posted @ 2020-08-31 19:27 math98 编辑
DataFrame(2):DataFrame常用属性说明
摘要:1、常用属性如下 ndim 返回DataFrame的维数; shape 返回DataFrame的形状; dtypes 返回DataFrame中每一列元素的数据类型; size 返回DataFrame中元素的个数; T 返回DataFrame的转置结果; index 返回DataFrame中的索引; 阅读全文
posted @ 2020-08-31 19:25 math98 编辑
DataFrame(1):DataFrame结构的详细介绍
摘要:1、DataFrame数据结构的解释说明 index表示的是行索引,column表示的是列索引,values表示的是数值,其实不管是行索引,还是列索引都可以看作是索引Index。从每一行看,DataFrame可以看作是一行行的Series序列上下堆积起来的,每个Series的索引就是列索引[0,1, 阅读全文
posted @ 2020-08-31 19:22 math98 编辑
DataFrame的修改方法(学习摘抄,待完善)
摘要:对于DataFrame的修改操作其实有很多,不单单是某个部分的值的修改,还有一些索引的修改、列名的修改,类型修改等等。我们仅选取部分进行介绍。 一、值的修改 DataFrame的修改方法,其实前面介绍loc方法的时候介绍了一些。 1、 loc方法修改 loc方法实际上是定位某个位置的数据的,但是定位 阅读全文
posted @ 2020-08-29 11:02 math98 编辑
DataFrame的查询方法(loc,iloc,at,iat,ix的用法和区别)
摘要:在操作DataFrame时,肯定会经常用到loc,iloc,at等函数,各个函数看起来差不多,但是还是有很多区别的,我们一起来看下吧。 首先,还是列出一个我们用的DataFrame,注意index一列,如下: 接下来,介绍下各个函数的用法: 1、loc函数 愿意看官方文档的,请戳这里,这里一般最权威 阅读全文
posted @ 2020-08-29 10:54 math98 编辑
删除DataFrame某一行/列内容的用法
摘要:用法:DataFrame.drop(labels=None,axis=0, index=None, columns=None, inplace=False) 参数说明:labels 就是要删除的行列的名字,用列表给定axis 默认为0,指删除行,因此删除columns时要指定axis=1;index 阅读全文
posted @ 2020-08-29 10:43 math98 编辑
DataFrame 重新设置索引: reindex 和 reset_index 的区别
摘要:将两个 DataFrame 拼接后,想要对拼接后的 DataFrame 重新设置索引要用 reset_index 方法,要想让之前的索引消失,传入参数:drop=True。具体事例: 1 data2017 = pd.read_csv('data\dataset\data20171207.csv', 阅读全文
posted @ 2020-08-29 10:39 math98 编辑
dataframe求每行的最值、均值、和的方法
摘要:如果需要对多列操作,比如原始df格式是sid,math,Chinese,PE,表示一个学生的分数,比如求最高分,平均分,总分等操作 #由于一行中sid是学号,我们不需要选择该列求最大值,最小值,故在求最值前筛选出需要求最值的所有列 #原始数据:1,88,89,87 # 2,90,98,94 # 3,89,89,90 feature["max"]=feature[[... 阅读全文
posted @ 2019-05-19 12:58 math98 编辑
dataframe 针对列条件赋值
摘要:针对单列条件: 针对多列的条件: 阅读全文
posted @ 2019-05-19 12:55 math98 编辑

1 2 下一页