[Python学习笔记(二)] Pandas库基础学习——02
16、DataFrame.sort_values( columns , inplace = True , ascending = False)
以columns的value为基础对DataFrame排序;
若inplace为True,则用排序后的结果替换原来的数值,若为False,则仅仅返回排序后的结果,不对原 DataFrame 产生影响;
ascending 默认为 True ,升序排列,可以指定为 False ,降序排列。
17、 pandas.isnull(DataFrame)
返回一个 DataFrame ,原 DataFrame中为 null 值的位置的值为 True ,不为 null 值的位置的值为 False 。
18、 DataFrame.fillna( value , inplace = False )
返回一个 DataFrame , 用 value 值替换原 DataFrame 中的 nan 值;
inplace 为 True 时替换原 DataFrame 的值,为 False 时仅仅返回排序后的结果,不对原 DataFrame 产生影响。
19、当 DataFrame 中有 nan 值时,对其所作计算得到的都会是 nan 值。
20、当 DataFrame 中有 nan 值时,两种方法对数据做处理:
1)通过 pandas.isnull() 函数得到反应 nan 值位置的 DataFrame ,将其中为 True 的值作为索引传入原 DataFrame 得到所有不为 null 值的数据;
2)通过 DataFrame.fillna() 函数将 nan 值替换为中值或平均值(平均值还不是得算,中值还不是得找,应该是用在其他列的数据很有用的情况下)
写到这,看起来,这两种方法大概会结合起来使用。
21、 DataFrame[columns].mean() 求 columns 列的均值,自带去 nan 的功能。
22、 DataFrame.pivot_table( index = column1 , values = column2 , aggfunc = np.mean ) 数据透视表
index 告诉函数 group by 哪个列
values 告诉函数我们想要计算哪一列
aggfuc 告诉函数我们想要做什么计算(默认为 mean() )。
23、 DataFrame.dropna( axis = 1 ,subset = [ column1 , column2 ])
axis 为 1 时,将有 nan 值的列删除,
axis 为 0 时,将有 nan 值的行删除, subset 设置搜索范围。
24、 DataFrame.loc[ RowNumber , ColumnName ]
返回指定列指定行的值。
25、 DataFrame.reset_index( drop = True)
在排序后用来重建索引, drop 与 inplace 类似。
26、DataFrame.loc[ 0 : 10 ] 与 DataFrame[ 0 : 10 ] 等价
27、 DataFrame.apply( MethonName , axis = 0 )
将 DataFrame 的每一列( axis = 0 时)或者每一行( axis = 1 时)传入函数中,得到计算结果, axis 默认为 0 ;
可以这样理解,当 axis = 0 时,是对一列中的每行的值做操作,当 axis = 1 时,是对一行中的每列的值做操作,所以还是 axis = 0 对应行, axis =1 对应列。
28、DataFrame 由 Series 构成,每一行每一列都是一个 Series ,Series.value 为 ndarray 格式,也就是说列名作为 key , ndarray 作为 value 构成了一个 Series。
29、 Series 的索引性质与 DataFrame 一致。