摘要: pandas用浮点值Nan表示浮点和非浮点数组中的缺失数据。它只是一个便于被检测的标记而已。 NA处理方法 特别说明dropna方法: 常用参数: axis 指定轴 how :“any/all” any代表只有有缺失值,all代表一列全部缺失 thresh; 代表最少notnull值的个数,是一个整 阅读全文
posted @ 2018-04-07 23:10 左手十字 阅读(1022) 评论(0) 推荐(0) 编辑
摘要: 针对Series对象,从中抽取信息 unique可以得到Series对象的唯一值数组 返回的是未排序的数组,如果需要排序,再次执行sort()方法或者用numpy的顶级函数sort() 值计数 用到value_counts方法或value_count顶级函数 isin用于判断矢量化集合的成员资格,可 阅读全文
posted @ 2018-04-07 17:53 左手十字 阅读(3718) 评论(0) 推荐(0) 编辑
摘要: pandas对象有一些常用的数学和统计的方法,大部分都属于约简或汇总统计。 SUM方法 DataFrame对象的sum方法,返回一个含有列小计的Series NA值会自动被踢除(新版本会自动转换为0)。可以通过skipna选项禁用此功能。 常用的统计方法: 统计方法的常用选项 axis=None,s 阅读全文
posted @ 2018-04-07 16:57 左手十字 阅读(3356) 评论(0) 推荐(0) 编辑
摘要: NumPy的ufuncs也可以操作pandas对象 用DataFrame的apply方法,可以将函数应用到由各列或行所形成的一维数组中。 用DataFrame的applymap方法,可以将函数应用到元素级的数据上。 Series也有一个元素级函数应用的方法map 排序和排名 用sort_index对 阅读全文
posted @ 2018-04-07 16:31 左手十字 阅读(1456) 评论(0) 推荐(0) 编辑
摘要: reindex:重新索引 pandas对象有一个重要的方法reindex,作用:创建一个适应新索引的新对象 以Series为例 1 >>> series_obj = Series([4.5,1.3,5,-5.5],index=('a','b','c','d')) 2 >>> series_obj 3 阅读全文
posted @ 2018-04-07 14:05 左手十字 阅读(3356) 评论(0) 推荐(0) 编辑