1. # -*- coding: utf-8 -*-
  2. """
  3. Created on Fri Feb 17 15:04:50 2017
  4. @author: zzpp220
  5. """
  6. from pandas import DataFrame,Series
  7. from numpy import nan as NaN
  8. import pandas as pd
  9. import numpy as np
  10. import pandas.io.data as web
  11. #==============================================================================
  12. ##Series----
  13. obj1=Series([1,23,3,5,7,8])#默认索引为整数
  14. obj1.index=['o','t','u','h','j','l']##可以后面添加或者更改索引
  15. obj2=Series([1,2,3,4,5,6,76],index=['a','s','f','g','h','t','d']) #创建带索引的
  16. #print obj2.index,obj2.values,obj2[['a','s','d','g']] #通过指定一个或者一组索引选取其中相应的值
  17. #print obj2[obj2>0]
  18. #print obj2*2
  19. #print np.exp(obj2)
  20. #print obj2[obj2==76]
  21. ##因为索引和数据在Series中也是意义映射的,可以看成是有序的字典
  22. #print 'a' in obj2,'a' in obj2.index
  23. #print 76 in obj2,76 in obj2.values
  24. ##数据既可以通过对应的索引,也可以通过下标。所以是在字典的基础上更加有序
  25. #print obj2[4],obj2['h']
  26. ##通过字典创建Series对象
  27. sdata={'zx':24,'gts':25,'zf':26,'yk':18}
  28. obj3=Series(sdata)#只传入一个字典,则obj3的索引就是原来字典的索引(原来什么顺序,现在就是什么顺序)
  29. ##传入一个字典和另给一个序列更新索引。sdata中与states相匹配的索引会被找出来并放到对应的位置上,但由于'yhl'在sdata中找不到所对应的值,会设为nan
  30. states=['yhl','zf','gts','zx']
  31. obj4=Series(sdata,states)
  32. #print obj4['yhl']#nan
  33. ##use .isnull(),.notnull()
  34. #print obj4.isnull(),pd.isnull(obj4) ##作用一样
  35. #print obj4.notnull(),pd.notnull(obj4)
  36. ##############如何处理缺失数据################################################
  37. #series 的一个重要功能是:在算术运算中  会自动 对齐 不同索引 的 数据
  38. obj34=obj3+obj4
  39. obj4.name='population'
  40. obj4.index.name='state'
  41. ##创建dataframe
  42. ##最常用的办法是传入一个由 等长列表 组成的 字典,字典的索引就是表格的列名,索引对应的列表就相当于一条记录
  43. #(dataframe 会默认自动加上索引index--相当于给记录标号)
  44. data={'zx':[24,1993,604],'gts':[25,1992,930],'zf':[26,1991,807],'yk':[18,2002,314]}
  45. ##指定列的顺序
  46. frame=DataFrame(data,columns=['zx','gts','zf','yk'])
  47. frame.index=['age','year','mon_day']
  48. ##如果找不到列名对应的数据,默认设为nan,指定index
  49. frame2=DataFrame(data,columns=['zx','gts','zf','yhl'],index=['age','year','mon_day'])
  50. ##获取(查看)某一列的数据--两种方法是一样的,下面两种方法一样
  51. frame['gts']==frame.gts
  52. get_col=frame.gts
  53. ##查看某一行的数据:
  54. view_row=frame.ix['b']##用索引字段
  55. #查看age year 行的 gts zf yhl列中的内容,没有为空(标签索引)
  56. view_vol=frame.ix[['age','year'],['gts','zf','yhl']]
  57. frame.reindex(index=['age','year'],col=['gts','zf','yhl'])#同样的效果
  58. ##更改行名、列名
  59. frame2.rename_axis({'zx':'zhangxue','gts':'gaotianshu'},axis=1)##给出原列名和新列名的映射
  60. frame2.rename_axis({'age':'nianling','year':'nian'})##给出原行名和新行名的映射
  61. ##修改某列的值数据--通过赋值(标量、数组)的方法
  62. frame2.yhl=[51,1986,219]##若该列的值全相同,则只需给一个标量就好,不同就给定一组值(若是列表或者数组要保证长度必须和dataframe的长度相同)
  63. ##修改某列的值数据--通过赋值Series对象的方法:则必须精确给出要添加的值所对应的索引,以匹配DataFrame中的索引,没有给出值的索引空位都被填上nan
  64. frame2.yk=Series([18,2002,314],index=['age','year','mon_day'])#给出全部索引和对应的值
  65. #frame2.zyd=Series([50,923],index=['age','mon_day'])#该方法添加不成功
  66. frame2['zyd']=Series([50,923],index=['age','mon_day'])#给出部分值和对应的索引,没有值的会被填为nan 该方法添加成功
  67. frame2['pwf']=Series([123],index=['mon_day'])
  68. ##添加一个新列并赋值
  69. frame2['alive']=frame2.zx==24##这样写居然也可以
  70. ##删除某列--del(原地)
  71. del frame2['alive']
  72. ##返回丢弃掉给定行、列后(注意写法)的对象-非原地
  73. frame.drop(['year','age'],)
  74. frame.drop(['zx','yk'],axis=1)
  75. obj5=Series(np.arange(5.),index=['zx','gts','zf','yk','dd'])
  76. ##删除某行(不是原地)
  77. new_obj5=obj5.drop(['zf','zx'])##丢弃该两索引对应的值行返回新对象 不是在原地修改
  78. ##series 是一个有序的字典,因此索引即可是关键字,也可是下标序号:obj3[2]==obj3['zf']
  79. ##利用标签名的切片末端是包含的 ,这与普通的下标切片运算不同obj1['o':'u']!=obj1[0:2]
  80. ##DataFrame的索引frame2.ix就够了
  81. ##索引出zx 列的值大于100的所有行,这些行中取前两列(用看图划片的方式比较直观)
  82. frame2.ix[frame2.zx>100,:2]##前面表示行,后面表示列,
  83. frame2.ix[:,'zx']##查看zx
  84. ##在算数方法中填充值
  85. d1=DataFrame(np.arange(12.).reshape(3,4),columns=list('asdf'))
  86. d2=DataFrame(np.arange(24.).reshape(4,6),columns=list('asgdfe'))
  87. d1.add(d2,fill_value=0)##返回d1d2的和,值为nan的空用d2对应的空补齐
  88. #==============================================================================
  89. ##排序:
  90. ##series
  91. obj2.sort_index()## series dui 索引
  92. obj2.order()##对值排序-任何为nan都为末尾
  93. ##DataFrame
  94. d2.sort_index()##dataframe 对行
  95. d2.sort_index(axis=1,ascending=False)##dataframe 对列逆序
  96. ##根据多列进行排序,先根据a,若a相同,za在根部B
  97. d3=DataFrame({'b':[4,7,-3,2],'a':[0,1,0,1]})
  98. d3.sort_index(by=['a','b'])
  99. path_name='/media/zzpp220/Data/Linux_Documents/DOWNLOAD/python-DataAnalysis/pydata-book-master/ch02/names/'
  100. columns=['name','gender','births']
  101. names1880=pd.read_csv(path_name+'yob1880.txt',names=['name','gender','births'])
  102. names1880=names1880[:1000]
  103. ##补充查看列(行)的方法:
  104. names1880.icol(range(1))#第0列
  105. names1880.irow([1,3,5])##查看第1.3.5行
  106. ###统计汇总
  107. col_sum=d3.sum()##按列对行求和,返回包含列小计的series
  108. ind_sum=d3.sum(axis=1)#按行对列求和,返回包含行小计的series axis=0表示行,1表示列
  109. names1880.births.mean()
  110. names1880.births.describe()##返回一个一次性产生多个汇总统计的series
  111. names1880.gender.describe()#f非数值型也返回汇总统计
  112. #
  113. #==============================================================================
  114. # all_Data={}
  115. # for tick in ['AAPL','IBM','MSFT','GOOG']:
  116. #     all_Data[tick]=web.get_data_yahoo(tick,'1/1/2000','1/1/2010')
  117. # price=DataFrame({tic:data['Adj Close'] for tic,data in all_Data.iteritems()})
  118. # volu=DataFrame({tic:data['Volume'] for tic,data in all_Data.iteritems()})  
  119. #
  120. # returns=price.pct_change()
  121. # returns.tail()##后10条
  122. # ##两列的方差、协方差
  123. # returns.GOOG.corr(returns.AAPL)
  124. # returns.GOOG.cov(returns.AAPL)
  125. # ##  whe whole
  126. # returns.corr()
  127. # returns.cov()
  128. #==============================================================================
  129. ##某个列()series对象的唯一值
  130. unique=names1880.gender.unique()
  131. vcount=names1880.gender.value_counts()## 返回一个series,计算一个series中各值出现的频率,按照频率的降序排列
  132. pd.value_counts(vcount.values,sort=False)##左边是值,右边是出现次数
  133. #ex1=pd.read_csv('/media/zzpp220/Data/Linux_Documents/DOWNLOAD/python-DataAnalysis/pydata-book-master/ch06/ex3.txt',names=['Date','a'])
  134. #========滤出缺失数据============================================================
  135. data=Series([2,3,NaN,6,7,NaN,8,3,NaN,5,7])
  136. data.dropna()
  137. frame2.dropna()###DataFrame默认丢弃任何含有缺失值的行
  138. frame2.dropna(how='all')##仅丢弃全部是nan 的行
  139. ##滤除列缺失数据
  140. frame2.dropna(axis=1)
  141. frame2.dropna(axis=1,how='all')
  142. ##补全缺失值
  143. frame2.fillna(0)#全部缺失值都用0补全
  144. frame2.fillna({'zyd':21,'pwf':33})#指定列的缺失值用指定值补全,本行及上一行方法都是返回新对象
  145. frame2.fillna({'zyd':21,'pwf':33},inplace=True)#原地补全
  146. #========层次化索引 MultiIndex=============================================
  147. ##在数据重塑和分组操作中很重要
  148. hierar=Series(np.random.randn(10),index=[list('aaabbbccdd'),[1,2,3,1,2,3,1,2,2,3]])
  149. hierar['a']#查看父层索引a 下的全部数据
  150. hierar[:,2]#前面表示父层,后面表示子层索引,选取子层索引为2的全部数据
  151. hierar.unstack()##将具有多次索引的Series 安排到新的Dataframe
  152. ##DataFrame 每条轴都可以有分层索引,他们叫做轴标签( a,s,zx,zf,year等)
  153. thr_frame=DataFrame(np.arange(12).reshape(4,3),index=[list('aass'),[1,2,1,2]],columns=[['zx','zx','zf'],['year','mon_day','year']])
  154. thr_frame.index.names=['par','kid']#设置行的索引名
  155. thr_frame.columns.names=['name','info']#设置列的索引名
  156. '''
  157.    thr_frame
  158.    Out[94]:
  159.    name      zx           zf
  160.    info    year mon_day year
  161.    par kid                  
  162.    a   1      0       1    2
  163.        2      3       4    5
  164.    s   1      6       7    8
  165.        2      9      10   11
  166. '''
  167. thr_frame['zx']##选取父列
  168. thr_frame[('zx','year')]#查看子列
  169. thr_frame.ix['a',('zx','year')]#查看上面子列记录中横轴标签是a的行
  170. thr_frame.ix[('a',2),('zx','year')]#查看上面子列记录中横轴父、子标签分别是a,2的行
  171. ###========重排分级顺序--层次化索引 MultiIndex=============================================
  172. '''有时候需要根据级别上的值对数据进行排序,用swaplevel,接受两个级别编号或者名称,并返回一个互换了级别的新对象'''
  173. thr_frame.swaplevel('name','info',axis=1)##纵轴 父子标签呼唤
  174. thr_frame.swaplevel(0,1,axis=1)##同上 纵轴只有两层标签,互换
  175. '''用了swaplevel之后,父轴的标签都展开了,不是说像叠起来一样'''
  176. thr_frame.swaplevel('par','kid')##横轴 父子标签互换
  177. thr_frame.swaplevel(0,1)#同上
  178. thr_frame.swaplevel(0,1).sortlevel(0)#根据交换后的父层大小进行怕徐,这个时候都父层叠起来了
  179. '''
  180. thr_frame.swaplevel(0,1)
  181. Out[92]:
  182. name      zx           zf
  183. info    year mon_day year
  184. kid par                  
  185. 1   a      0       1    2
  186. 2   a      3       4    5
  187. 1   s      6       7    8
  188. 2   s      9      10   11
  189. thr_frame.swaplevel(0,1).sortlevel(0)
  190. Out[93]:
  191. name      zx           zf
  192. info    year mon_day year
  193. kid par                  
  194. 1   a      0       1    2
  195.    s      6       7    8
  196. 2   a      3       4    5
  197.    s      9      10   11
  198. '''
  199. ###========根据级别汇总统计--层次化索引 MultiIndex=======''''''
  200. thr_frame.sum(level='kid')#thr_frame.sum(level=1) 二者相同 统计行的级别
  201. thr_frame.sum(axis=1,level=1)#统计列的级别
  202. '''
  203. thr_frame.sum(level=1) 
  204. Out[4]:
  205. name   zx           zf
  206. info year mon_day year
  207. kid                  
  208. 1       6       8   10
  209. 2      12      14   16
  210. thr_frame.sum(axis=1,level=1)
  211. Out[5]:
  212. info     mon_day  year
  213. par kid              
  214. a   1          1     2
  215.    2          4     8
  216. s   1          7    14
  217.    2         10    20
  218. '''
  219. '''合并(merge)-列或者连接(concat)-行数据集'''
  220. mer=pd.merge(frame,fram2,on=['zx','gts','zf'])## 默认的是内连接 显示交集,显式指定用这三个列进行列连接


posted on 2017-02-28 22:16  zx0801  阅读(262)  评论(0编辑  收藏  举报