Python中近期Pandas使用总结

近期做了很多关于数据处理的问题,发现灵活运用pandas包对于数据分析来说可以轻松好多

导包

import numpy as np
import pandas as pd
from pandas import DataFrame,Series

 

#读取excel表格,这是一个dataframe数据

table = pd.read_excel(r'***.xlsx')

 

#转换元素的数据类型

table['***'] = table['***'].astype('str')

 

#数据表左连接,当有多表时要根据某一相同列合并表,可以使用连接,找出某一列对应元素相同的数据

table1 = pd.merge(shuchu,new1,how='left',left_on='项目编号',right_on='项目编号1').drop('项目编号1',axis=1)

 

#同时处理数据表两列数据,func为对这两列数据的处理,可以自定义(相加,相减,比较大小等)

table[new] = table.apply(lambda x : func(x[col1], x[col2]), axis=1)

 

#删除重复项

table.drop_duplicates(inplace=True)

 

#根据两列名称生成新的列名称

df1['故障频次为0.2的人员定额'] = df1['最低'].map(str)+'-'+df1['最高'].map(str)

 

#根据某一列分组做聚合

df5 = df4.groupby(['项目编号'])[['机组数量']].sum()

 #pandas读取excel表的参数

#此处意思是读取这个表的0和1sheet

sheet = pd.read_excel('a.xls',sheetname= [0,1])

#从第一行开始读取

df1 =  pd.read_excel('a.xls',header=1)

posted @ 2019-04-15 13:44  温祖斌  阅读(372)  评论(0编辑  收藏  举报