pandas之数据重塑与透视
数据重塑与透视
•数据重塑
数据重塑表示转换一个表格或者向量的结构,使其适合于进一步的分析。
1、pivot:将长格式旋转为宽格式,多用于时间序列。
data.pivot(index=None, columns=None, values=None)
下面举个例子就一目了然了:
now=datetime.now().date() date=[now-timedelta(days=i) for i in range(6)]*5#列表生成器生成今天到过去五天 group=["A"]*6+["B"]*6+["C"]*6+["D"]*6+["E"]*6 sells=np.random.randint(100,1000,size=(30))#生成100-1000之间的30个随机数 data=pd.DataFrame({"date":date,"group":group,"sells":sells}) data.sort_values(["group","date"])
1 dp=data.pivot(index="date",columns="group",values="sells")
2 dp
注意:使用pivot时不能有index和cloumns同时相等的
•Stack/Unstack
Stack/Unstack与pivot相比是需要在层次索引上操作,即stack将列变为索引(数据变长了),unstack将索引变为列(数据变宽了)。
1 ds=dp.stack() 2 ds
date group 2020-07-30 A 572 B 989 C 641 D 866 E 191 2020-07-31 A 366 B 146 C 592 D 872 E 445 2020-08-01 A 886 B 579
.......
1 ds.index#可知把列变为索引了
MultiIndex([(2020-07-30, 'A'), (2020-07-30, 'B'), (2020-07-30, 'C'), (2020-07-30, 'D'), (2020-07-30, 'E'), (2020-07-31, 'A'), (2020-07-31, 'B'), (2020-07-31, 'C'), (2020-07-31, 'D'),
..........
unstack将数据变宽
1 ds.unstack(1)#默认把最内层索引变为列
•melt
d1.melt(id_vars=None,value_vars=None,var_name=None,value_name='value', col_level=None,)
id_vars [元组,列表或ndarray,可选]:用作标识符变量的列。
value_vars [元组,列表或ndarray,可选]:要取消透视的列。如果未指定,则使用未设置为id_vars的所有列。
var_name [标量]:用于“变量”列的名称。如果为None,则使用frame.columns.name或“ variable”。
value_name [标量,默认为“值”]:用于“值”列的名称。
col_level [int或字符串,可选]:如果列是MultiIndex,则使用此级别进行融合。
melt()函数很有用,可以将DataFrame压缩为一种格式,其中一列或多列是标识符变量,而所有其他列(被视为测量变量)都不会旋转到行轴,仅留下两个非标识符列,变量和值。简而言之将宽表压缩为长表,可以看成pivot的逆运算。
1 d1=pd.DataFrame(np.random.randn(5,3),index=range(2,7),columns=["a","b","c"]) 2 d1
1 d1.melt(id_vars=["a"],value_vars=["b","c"])
•透视表与交叉表
pivot_table
1 data.pivot_table(index="date",columns="group",values="sells",aggfunc=[np.mean,np.sum])
index也可以为多个
1 导入pandas和numpy库 2 import pandas as pd 3 import numpy as np 4 from pandas import Series,DataFrame 5 test=pd.read_excel("/Users/yaozhilin/Downloads/exercise.xlsx",sep="t") 6 test.head(5)#显示前五行
1 pd.pivot_table(test,index=["所属区域","产品类别"],values=["数量","金额"],aggfunc=np.mean)
交叉表
cross-tabulation是一种用于计算分组频率的特殊透视表
1 pd.crosstab(test["所属区域"],test["产品类别"])
1 pd.crosstab([test["所属区域"],test["产品类别"]],test["数量"],margins=True)