摘要: d[d.columns[0]]=d[d.columns[0]].astype('float64') #第1列换成浮点型 阅读全文
posted @ 2021-07-28 10:32 Shilo 阅读(2629) 评论(0) 推荐(0) 编辑
摘要: data.columns = [re_colname] 比如 data.columns = ['一个列名'] data.columns = [['两个列名1','两个列名2']] 阅读全文
posted @ 2021-07-28 10:31 Shilo 阅读(1731) 评论(0) 推荐(0) 编辑
摘要: dat_lst=list(filter(None, dat_lst)) # 如果是listoflist就要多嵌套一层循环 阅读全文
posted @ 2021-07-28 10:29 Shilo 阅读(101) 评论(0) 推荐(0) 编辑
摘要: dat_lst=dat.iloc[:,1:].values.tolist() 阅读全文
posted @ 2021-07-28 10:28 Shilo 阅读(362) 评论(0) 推荐(0) 编辑
摘要: 分别对df的行或者列进行处理后,会遇到想要把拆开的数据重新拼起来的情况 这些数据具有相同的结构,只是单纯的要拼到一起,不涉及连接的关联变量。 (就是R的rbind 和 cbind)df= a.append([b,c,d,e,f,g,h,i,j,k,l,m], ignore_index=False) 阅读全文
posted @ 2021-07-28 10:27 Shilo 阅读(4056) 评论(0) 推荐(0) 编辑
摘要: DataFrame删除某些列后会出现INDEX不连续的问题, 会影响循环的运行 因此会常用到将INDEX重置为从0到n df.reset_index(drop=True, inplace=True) 阅读全文
posted @ 2021-07-28 10:19 Shilo 阅读(2352) 评论(0) 推荐(0) 编辑
摘要: # 使用预设数据格式使读取更快,converters={"COLlv1":str,"COLlv2":str,"COLlv3:str"} # 可加入参数限制读取的行数,nrows =10000 d1 = pd.read_excel("D:/data/data.xlsx", encoding="gbk" 阅读全文
posted @ 2021-07-28 10:17 Shilo 阅读(967) 评论(0) 推荐(0) 编辑
摘要: dat = dat.drop(['a','b','c','d','e','f'],axis=1) 阅读全文
posted @ 2021-07-28 10:16 Shilo 阅读(663) 评论(0) 推荐(0) 编辑
摘要: dat = DataFrame.drop_duplicates(dat,keep='first',inplace=False) 阅读全文
posted @ 2021-07-28 10:15 Shilo 阅读(239) 评论(0) 推荐(0) 编辑
摘要: def read_head_xls(file,nrow): ''' 读取nrow行excel数据,并计算耗时 用于读取测试数据 依赖于 from time import time from xlrd import open_workbook from pandas import DataFrame 阅读全文
posted @ 2021-07-28 10:13 Shilo 阅读(1559) 评论(0) 推荐(0) 编辑
摘要: 计算程序运行的时间,验证优化的效果。 ①依赖于time from time import time ②在程序开始前记录当前系统时间 (后面接程序运行代码) t_start=time() ③在程序结束后记录当前系统时间 (前面完成了程序的运行) t_end=time() ④计算时长 打印时长 删除相关 阅读全文
posted @ 2021-07-28 10:07 Shilo 阅读(2030) 评论(0) 推荐(0) 编辑
摘要: def summary(dat): ''' 求一个df的列名、每列数据类型、每列非空行数、每列缺失比例、每列取值个数 用于了解原始数据情况 *依赖于 singe_df() from pandas import concat ''' dat_head = singe_df(dat.columns,'c 阅读全文
posted @ 2021-07-28 09:50 Shilo 阅读(613) 评论(0) 推荐(0) 编辑