随笔分类 -  Pandas

在数据处理中使用过的pandas函数
摘要:groupby,分组统计,是数据分析时常用的一种手段 所谓的groupby就是一个拆分再合并的过程,就如下图所示: 以列的名称作为分组依据 比如对于如下的训练集 对其他特征数量按照uid进行统计 b.groupby('uid').count() 结果如下: 对其他特征按照uid进行求和 b.grou 阅读全文
posted @ 2021-09-15 23:19 晓尘 阅读(112) 评论(0) 推荐(0) 编辑
摘要:参考链接:https://blog.csdn.net/crj0926/article/details/100805102 阅读全文
posted @ 2021-07-08 17:40 晓尘 阅读(185) 评论(0) 推荐(0) 编辑
摘要:可以看到NaN类型在比较的是不相等的,原因是numpy.NaN是一种特殊的numpy.float64,如果想比较NaN是否相同,需要将其转换为该类型自己定义的特殊值(注意不能转换为None,None在Series里不能比较,而单独的值才能比较) import pandas as pd import 阅读全文
posted @ 2021-07-08 15:33 晓尘 阅读(63) 评论(0) 推荐(0) 编辑
摘要:将参数转换为数字类型。 默认返回dtype为float64或int64, 具体取决于提供的数据。使用downcast参数获取其他dtype。 参数 描述 args 接受scalar, list, tuple, 1-d array, or Series类型 errors 有3种类型{‘ignore’, 阅读全文
posted @ 2021-07-08 15:31 晓尘 阅读(3087) 评论(2) 推荐(0) 编辑
摘要:显示所有列 pd.set_option('display.max_columns', None) pd.set_option('display.max_columns', 5) #最多显示5列 显示所有行 pd.set_option('display.max_rows', None) pd.set_ 阅读全文
posted @ 2021-07-08 14:28 晓尘 阅读(588) 评论(0) 推荐(0) 编辑
摘要:1、 读取的csv分隔符不是,的问题 https://blog.csdn.net/u011675334/article/details/102648426 2、DtypeWarning: Columns (6) have mixed types.Specify dtype option on imp 阅读全文
posted @ 2021-07-02 08:44 晓尘 阅读(189) 评论(0) 推荐(0) 编辑
摘要:1、dropna():丢掉所有带有NAN的项/行 DataFrame.dropna(self,axis = 0,how ='any',thresh = None,subset = None,inplace = False ) axis: 0:删除包含缺失值的行。 1:删除包含缺失值的列。 how: 阅读全文
posted @ 2020-06-02 08:10 晓尘 阅读(1580) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示