摘要: 数据聚合与分组 什么是分组聚合?如图: groupby:(by=None,as_index=True) by:根据什么进行分组,用于确定groupby的组 as_index:对于聚合输出,返回以组便签为索引的对象,仅对DataFrame df1 = pd.DataFrame({'fruit':['a 阅读全文
posted @ 2021-11-15 01:00 坤坤无敌 阅读(119) 评论(0) 推荐(0)
摘要: 数据清洗 一、数据清洗和准备 数据清洗是数据分析关键的一步,直接影响之后的处理工作 数据需要修改吗?有什么需要修改的吗?数据应该怎么调整才能适用于接下来的分析和挖掘? 是一个迭代的过程,实际项目中可能需要不止一次地执行这些清洗操作 1. 处理缺失数据: pd.fillna() pd.dropna() 阅读全文
posted @ 2021-11-15 00:58 坤坤无敌 阅读(142) 评论(0) 推荐(0)
摘要: 数据读取与存储 csv文件 1、读取csv文件read_csv(file_path or buf,usecols,encoding):file_path:文件路径,usecols:指定读取的列名,encoding:编码 data = pd.read_csv('d:/test_data/food_ra 阅读全文
posted @ 2021-11-15 00:21 坤坤无敌 阅读(160) 评论(0) 推荐(0)
摘要: Pandas统计计算和描述 arr1 = np.random.rand(4,3) pd1 = pd.DataFrame(arr1,columns=list('ABC'),index=list('abcd')) f = lambda x: '%.2f'% x pd2 = pd1.applymap(f) 阅读全文
posted @ 2021-11-15 00:14 坤坤无敌 阅读(119) 评论(0) 推荐(0)
摘要: 层级索引(hierarchical indexing) 下面创建一个Series, 在输入索引Index时,输入了由两个子list组成的list,第一个子list是外层索引,第二个list是内层索引。 import pandas as pd import numpy as np ser_obj = 阅读全文
posted @ 2021-11-15 00:08 坤坤无敌 阅读(185) 评论(0) 推荐(0)