python--Numpy and Pandas 笔记01


  博客地址:http://www.cnblogs.com/yudanqu/



1
import numpy as np 2 import pandas as pd 3 from pandas import Series,DataFrame 4 5 #Series 6 s1 = Series([1,2,3], index=['A','B','C']) 7 s2 = Series([4,5,6,7], index=['B','C','D','E']) 8 9 s1 + s2 10 # 结果:A NaN 11 #   B 6.0 12 #    C 8.0 13 #    D NaN 14 #   E NaN 15 #   dtype: float64 16 # 对应项相加,其他为nan 17 18 #DataFrame 19 df1 = DataFrame(np.arange(4).reshape(2,2),index=['A','B'],columns=['BJ','SH']) 20 df2 = DataFrame(np.arange(9).reshape(3,3),index=['A','B','C'],columns=['BJ','SH','GZ']) 21 df1 + df2 22 #结果: BJ GZ SH 23 #   A 0.0 NaN 2.0 24 #   B 5.0 NaN 7.0 25 #   C NaN NaN NaN 26 27 df3 = Datadf3 = DataFrame([[1,2,3],[4,5,np.nan],[7,8,9]],index=['A','B','C'],columns=['c1','c2','c3']) 28 ''' 29 c1 c2 c3 30 A 1 2 3.0 31 B 4 5 NaN 32 C 7 8 9.0 33 ''' 34 df3.sum() 35 #结果:c1 12.0 36 #   c2 15.0 37 #   c3 12.0 38 #   dtype: float64 39 #这里的nan与实数相运算并不返回nan 40 df3.sum(axis=1) #则求得每一行的和,即ABC,由于默认axis=0,所以不写表示求的列 41 42 df3.min() #求最小值,max同理。整体同理与sum,不考虑nan 43 44 df3.describe() #统计内部数据 45 46 47 # 排序功能 48 #注:randn:正态分布 49 rand:0到1
50 #Series: 51 s1 = Series(np.random.randn(10)) 52 s2 = s1.sort_values() # 根据values排序 53 # 默认参数ascending=True,升序为True,倒序可以改参数sacending=False 54 s2.sort_index() # 根据index升序排列
55 #DataFrame: 56 df1 = DataFrame(np.random.randn(40).reshape(8,5),columns=['A','B','C','D','E']) 57 df1['A'].sort_values() #仅仅是对着一列排序,若想整体根据这一列进行排序要多df1进行排序 58 df1.sort_values('A') #则为全部排序,默认升序 59 60 df1.sort_values('A')[['A','D']] # 根据某列排序并输出所需要的几列 61 62 63 #重命名 64 df1.index = df1.index.map(str) #修改dataframe的index 65 df1.rename(index=str.upper,columns=str.lower) #通过map函数改变整个 66 df1.rename(index={'A':'a'},columns={'B':'b'}) #通过字典修改某一项 67 # map函数的参数可以使自己定义的函数 68 69 70 #dataframe的merge操作 71 pd.merge(df1,df2,on='name',how='inner') # on表示根据哪列的name来作为判断依据,默认为None,how的参数中比如写left,那么就根据左侧的df;爱显示数据,若右边一个没有的则补全为nan,outer是right和left的结合,将所有的都输出 72 df1 = DataFrame({'key':['A','B','C'],'data_set_1':[1,2,3]}) 73 df2 = DataFrame({'key':['X','Y','Z'],'data_set_2':[4,5,6]}) 74 pd.merge(df1,df2) # 这时的结果返回为空,因为merge是对其中key值相同的进行操作 75 # 当相同name的columns(例如此例的key)时,他中的值相同,那么可以进行merge 76 77 78 #concatenate和combine 79 80 #~~concatenate: 81 82 #1、array 83 arr1 = np.arange(9).reshape(3,3) 84 arr2 = np.arange(9).reshape(3,3) 85 np.concatenate([arr1,arr2]) #通过列表放在一起
  ''' 86 output:array([[0, 1, 2], 87 [3, 4, 5], 88 [6, 7, 8], 89 [0, 1, 2], 90 [3, 4, 5], 91 [6, 7, 8]]) 92 注:其中concatenate的参数包括axis,可以决定如何连接
  '''
93 94 #2、Series 95 s1 = Series([1,2,3],index=['X','Y','Z']) 96 s2 = Series([4,5],index=['A','B']) 97 pd.concat([s1,s2]) #同样有axis参数,为0则在下面连接,为1则横向 98 99 #3、dataframe 100 df1 = DataFrame(np.random.randn(4,3),columns=['X','Y','Z']) 101 df2 = DataFrame(np.random.randn(3,3),columns=['X','Y','A']) 102 pd.concat([df1,df2])
  '''
103 Out: 104 A X Y Z 105 0 NaN -0.060523 0.879124 1.673622 106 1 NaN 0.734367 0.708085 -0.133981 107 2 NaN 0.461922 -2.186110 -4.473558 108 3 NaN 1.553153 -2.256533 -0.381862 109 0 1.304371 -0.275638 1.362799 NaN 110 1 -0.357986 -0.273505 0.430566 NaN 111 2 1.406862 1.453295 -0.681261 NaN
  '''
112 113 #~~combine: 114 115 #1、Series: 116 s1 = Series([2,np.nan,4,np.nan],index=['A','B','C','D']) 117 s1 = Series([1,2,3,4],index=['A','B','C','D']) 118 s1.combine_first(s2) #把s1中没有的填充上从s2 119 120 #2、DataFrame: 121 #和series几乎一样



作者:渔单渠
博客地址:http://www.cnblogs.com/yudanqu/

 

posted @ 2018-05-05 18:27  小田学Python  阅读(2505)  评论(0编辑  收藏  举报