Python-Pandas数据分析常用方法

1. value_counts()

value_counts()是Series的方法,用于计算非重复值出现的次数并默认从高到低排序,在DataFrame中通常指定某列。

也经常使用Data.'colunm'.value_counts().count() 计算非重复值个数。

 

2. groupby()

Pandas中分组方法,指定按照某维度分组,并返回groupby对象(可用for循坏迭代)。

参数:by = ['','']指定分组的维度 , as_index='' 默认为True,分组的维度作为返回对象的index。

 

 

3. nunique() 

nunique()返回非重复值个数,.nunique返回非重复值序列。

 

4. reset_index() 

将索引修改为列。参数 level = '' 列的位置,inplace = True在原DataFrame修改,drop = '' 默认为False,索引还原为普通列。

 

5. set_index()

将某列该为索引。参数指定 需设置为索引的列,drop默认False,删除用于索引的列,inplace默认为False,返回新对象。

 

6. drop_duplicates()

返回非重复值第一次出现的序号和非重复值,Data.'colunm'.drop_duplicates().count()计算非重复值个数。

 

7. duplicated()

某列非重复值显示为False,重复值显示为True。

 

8. sort_values()

排序方法,参数指定by = 'column' 默认ascending = True升序。

 

9. get_loc()

针对index和columns ,通过名称返回某列下标。

 

10. agg()

通常与groupby()连用,对分组后的数据进行聚合。 .agg(['min','max'])

 

11. capitalize()

将字符串第一个字符转化为大写。

 

12. pandas.to_datetime()

转换为时间类型,便于对日期进行操作。

 

13. resample()

时间重采样技术,.resample('10AS').sum(),聚合源数据中10年为1行。

 

13. idxmax()

获取每列最大值索引。

 

14. dropna()

默认删除所有Nan的数据,指定参数 how = 'all' ,删除全为Nan的行。

 

15. concat()

pandas.concat(['df1','df2']),默认纵向连接,axis = 1则横向连接。

 

16. merge()
表的连接,pd.merge(df1,df2,on = ' ',how = ' '),参数 how = 'inner' 内连接两边都有的值,'outer'外连接取并集并用Nan填充,'left'左连接,'right'右连接。

 

17. rename()

index和columns重命名,参数指定字典格式,df.rename(index = {'index1':'index2'},columns = {'column1':'column2'})

 

18. drop()

DataFrame中删除行或列

df.drop(['column1','column2'],axis = 1, inplace = True)删除column1和column2两列。

df.drop(['index1','index2'],axis = 0, inplace = True)删除index1和index2两行,axis默认=0,删除行。

 

2020-4-23 16:20

 

posted @ 2020-04-23 16:21  傅余生  阅读(925)  评论(0编辑  收藏  举报