python pandas库的基本内容

pandas主要为数据预处理

DataFrame

import pandas

food_info = pandas.read_csv("路径") #绝对路径和相对路径都可以 type(food_info)为DataFrame

food_info.dtype_ #文件中数据的类型

food_info.head() 读出的数据显示前五条 food_info.head(3) 读出的数据显示前3行 food_info.tail(4)显示末尾4行

food_info.columns 显示列名 food_info.shape 行和列数据规模

food_info.loc[0] 取出第一行数据 food_info[3:6] 3~6行数据

food_info["列名"] 取出列 food_info["列名1","列名2"]

food_info.colums.tolist() #把列名转化为一个list .endswith("(9)") 找出以（g）结尾的列名

food_info["Iron_(mg)"] 以(mg)结尾的 food_info["新列名"] #新加了一列 .max() #求某列的最大值

food_info.sort_valus("列名"，inplace = True，ascending = Flase)

#按列名对某一列进行排序，inplace表示新生成一列还是原来的上改 ,ascending = Flase表示从大到小排，NaN 不管升序降序都放到最后

a = pandas.isnull(food_info["列名"]) #看看对应列那些值缺失 food_info[a] 这样就会把有缺失值的一行打印

len(a) #a的数量 food_info["列名"][条件] .mean() 求均值

.pivot_table(index = "列名"，values="",aggfunc = np.mean）#index 表示以index为基准，valus表示值为values的平均数

.pivot_table(index = "列名"，values=”列名“) #以index为基准 values列的平均数如果aggfunc未指定就为求均值

.dropna(axis =1)#按行将缺失值对应行去掉 .fillna() 对缺失值填充

fillna参数的取值： {‘pad’, ‘ffill’,‘backfill’, ‘bfill’, None}, default None

pad/ffill：用前一个非缺失值去填充该缺失值

backfill/bfill：用下一个非缺失值填充该缺失值

None：指定一个值去替换缺失值（缺省默认这种方式）

.reset_index(drop = True) #重新设置了一下index 原来的index 不要了形成一个新的

def ~自定义一个函数用.apply(函数名) 去用这个函数

posted @ 2019-03-06 18:39 是该成熟一些了 Views(469) Comments(0) Edit 收藏举报

刷新页面返回顶部

是该成熟一些了