[Python学习笔记(二)] Pandas库基础学习——02

16、DataFrame.sort_values( columns , inplace = True , ascending = False)

  以columns的value为基础对DataFrame排序;

  若inplace为True,则用排序后的结果替换原来的数值,若为False,则仅仅返回排序后的结果,不对原 DataFrame 产生影响;

  ascending 默认为 True ,升序排列,可以指定为 False ,降序排列。

17、 pandas.isnull(DataFrame)

  返回一个 DataFrame ,原 DataFrame中为 null 值的位置的值为 True ,不为 null 值的位置的值为 False 。

18、 DataFrame.fillna( value , inplace = False )

  返回一个 DataFrame , 用 value 值替换原 DataFrame 中的 nan 值;

  inplace 为 True 时替换原 DataFrame 的值,为 False 时仅仅返回排序后的结果,不对原 DataFrame 产生影响。

19、当 DataFrame 中有 nan 值时,对其所作计算得到的都会是 nan 值。

20、当 DataFrame 中有 nan 值时,两种方法对数据做处理:

  1)通过 pandas.isnull() 函数得到反应 nan 值位置的 DataFrame ,将其中为 True 的值作为索引传入原 DataFrame 得到所有不为 null 值的数据;

  2)通过 DataFrame.fillna() 函数将 nan 值替换为中值或平均值(平均值还不是得算,中值还不是得找,应该是用在其他列的数据很有用的情况下)

  写到这,看起来,这两种方法大概会结合起来使用。

21、 DataFrame[columns].mean() 求 columns 列的均值,自带去 nan 的功能。

22、 DataFrame.pivot_table( index = column1 , values = column2 , aggfunc = np.mean )   数据透视表

  index 告诉函数 group by 哪个列

  values 告诉函数我们想要计算哪一列

  aggfuc 告诉函数我们想要做什么计算(默认为 mean() )。

23、 DataFrame.dropna( axis = 1 ,subset = [ column1 , column2 ])

  axis 为 1 时,将有 nan 值的列删除,

  axis 为 0 时,将有 nan 值的行删除, subset 设置搜索范围。

24、 DataFrame.loc[ RowNumber , ColumnName ]

  返回指定列指定行的值。

25、 DataFrame.reset_index( drop = True)

  在排序后用来重建索引, drop 与 inplace 类似。

26、DataFrame.loc[ 0 : 10 ] 与 DataFrame[ 0 : 10 ] 等价

27、 DataFrame.apply( MethonName , axis = 0 )

  将 DataFrame 的每一列( axis = 0 时)或者每一行( axis = 1 时)传入函数中,得到计算结果, axis 默认为 0 ;

  可以这样理解,当 axis = 0 时,是对一列中的每行的值做操作,当 axis = 1 时,是对一行中的每列的值做操作,所以还是 axis = 0 对应行, axis =1 对应列。

28、DataFrame 由 Series 构成,每一行每一列都是一个 Series ,Series.value 为 ndarray 格式,也就是说列名作为 key , ndarray 作为 value 构成了一个 Series。

29、 Series 的索引性质与 DataFrame 一致。

 

posted on 2018-08-26 12:44  请叫我小鲤鱼  阅读(322)  评论(0编辑  收藏  举报