利用pandas进行数据分析之三:DataFrame与Series基本功能

 

未经同意请勿转载http://www.cnblogs.com/smallcrystal/

前文已经详细介绍DataFrame与Series两种数据结构,下面介绍DataFrame与Series的数据基本手段

一、pandas两种数据结构的index是不可修改的,pandas对象的一个重要方法是reindex

>>> f

lie     pop state  year

suoyin                 

a       1.5  ohio  2000

b       1.3  ohio  2001

c       1.7  ohio  2002

d       2.0   nev  2003

e       3.5   nev  2004

>>> f.reindex(list('bcadef'))

lie     pop state    year

suoyin                   

b       1.3  ohio  2001.0

c       1.7  ohio  2002.0

a       1.5  ohio  2000.0

d       2.0   nev  2003.0

e       3.5   nev  2004.0

f       NaN   NaN     NaN

>>> f.reindex(list('bcadef'),fill_value=0)#缺失值用0填充

lie     pop state  year

suoyin                 

b       1.3  ohio  2001

c       1.7  ohio  2002

a       1.5  ohio  2000

d       2.0   nev  2003

e       3.5   nev  2004

f       0.0     0     0

#method选项对缺失值所插值处理,ffill/pad:前向填充值;bfill/backfill:后向填充值 

>>> f.reindex(list('bcadef'),method='ffill')

lie     pop state  year

suoyin                 

b       1.3  ohio  2001

c       1.7  ohio  2002

a       1.5  ohio  2000

d       2.0   nev  2003

e       3.5   nev  2004

f       3.5   nev  2004

#DataFrame数据格式,reindex不仅可以修改行索引,也可以修改列。

>>> f.reindex(columns=['pop','year','state','add'])

lie     pop  year state  add

suoyin                      

a       1.5  2000  ohio  NaN

b       1.3  2001  ohio  NaN

c       1.7  2002  ohio  NaN

d       2.0  2003   nev  NaN

e       3.5  2004   nev  NaN

posted @ 2016-08-26 15:31  水晶球  阅读(556)  评论(0编辑  收藏  举报