随笔分类 - Pandas
在数据处理中使用过的pandas函数
摘要:groupby,分组统计,是数据分析时常用的一种手段 所谓的groupby就是一个拆分再合并的过程,就如下图所示: 以列的名称作为分组依据 比如对于如下的训练集 对其他特征数量按照uid进行统计 b.groupby('uid').count() 结果如下: 对其他特征按照uid进行求和 b.grou
阅读全文
摘要:参考链接:https://blog.csdn.net/crj0926/article/details/100805102
阅读全文
摘要:可以看到NaN类型在比较的是不相等的,原因是numpy.NaN是一种特殊的numpy.float64,如果想比较NaN是否相同,需要将其转换为该类型自己定义的特殊值(注意不能转换为None,None在Series里不能比较,而单独的值才能比较) import pandas as pd import
阅读全文
摘要:将参数转换为数字类型。 默认返回dtype为float64或int64, 具体取决于提供的数据。使用downcast参数获取其他dtype。 参数 描述 args 接受scalar, list, tuple, 1-d array, or Series类型 errors 有3种类型{‘ignore’,
阅读全文
摘要:显示所有列 pd.set_option('display.max_columns', None) pd.set_option('display.max_columns', 5) #最多显示5列 显示所有行 pd.set_option('display.max_rows', None) pd.set_
阅读全文
摘要:1、 读取的csv分隔符不是,的问题 https://blog.csdn.net/u011675334/article/details/102648426 2、DtypeWarning: Columns (6) have mixed types.Specify dtype option on imp
阅读全文
摘要:1、dropna():丢掉所有带有NAN的项/行 DataFrame.dropna(self,axis = 0,how ='any',thresh = None,subset = None,inplace = False ) axis: 0:删除包含缺失值的行。 1:删除包含缺失值的列。 how:
阅读全文