Python-Pandas数据分析常用方法
1. value_counts()
value_counts()是Series的方法,用于计算非重复值出现的次数并默认从高到低排序,在DataFrame中通常指定某列。
也经常使用Data.'colunm'.value_counts().count() 计算非重复值个数。
2. groupby()
Pandas中分组方法,指定按照某维度分组,并返回groupby对象(可用for循坏迭代)。
参数:by = ['','']指定分组的维度 , as_index='' 默认为True,分组的维度作为返回对象的index。
3. nunique()
nunique()返回非重复值个数,.nunique返回非重复值序列。
4. reset_index()
将索引修改为列。参数 level = '' 列的位置,inplace = True在原DataFrame修改,drop = '' 默认为False,索引还原为普通列。
5. set_index()
将某列该为索引。参数指定 需设置为索引的列,drop默认False,删除用于索引的列,inplace默认为False,返回新对象。
6. drop_duplicates()
返回非重复值第一次出现的序号和非重复值,Data.'colunm'.drop_duplicates().count()计算非重复值个数。
7. duplicated()
某列非重复值显示为False,重复值显示为True。
8. sort_values()
排序方法,参数指定by = 'column' 默认ascending = True升序。
9. get_loc()
针对index和columns ,通过名称返回某列下标。
10. agg()
通常与groupby()连用,对分组后的数据进行聚合。 .agg(['min','max'])
11. capitalize()
将字符串第一个字符转化为大写。
12. pandas.to_datetime()
转换为时间类型,便于对日期进行操作。
13. resample()
时间重采样技术,.resample('10AS').sum(),聚合源数据中10年为1行。
13. idxmax()
获取每列最大值索引。
14. dropna()
默认删除所有Nan的数据,指定参数 how = 'all' ,删除全为Nan的行。
15. concat()
pandas.concat(['df1','df2']),默认纵向连接,axis = 1则横向连接。
16. merge()
表的连接,pd.merge(df1,df2,on = ' ',how = ' '),参数 how = 'inner' 内连接两边都有的值,'outer'外连接取并集并用Nan填充,'left'左连接,'right'右连接。
17. rename()
index和columns重命名,参数指定字典格式,df.rename(index = {'index1':'index2'},columns = {'column1':'column2'})
18. drop()
DataFrame中删除行或列
df.drop(['column1','column2'],axis = 1, inplace = True)删除column1和column2两列。
df.drop(['index1','index2'],axis = 0, inplace = True)删除index1和index2两行,axis默认=0,删除行。
2020-4-23 16:20