摘要: 问题描述:数据处理,尤其是遇到大量数据且需要for循环处理时,需要消耗大量时间,如代码1所示。通过data['trip_time'][i]的方式会占用大量的时间 代码1 解决办法,添加.at定位索引,data.at[i,'trip_time'] 评价:可以看出 使用at进行索引的方法相比loc、il 阅读全文
posted @ 2019-04-25 13:24 Python白小白 阅读(5298) 评论(0) 推荐(0) 编辑
摘要: 问题描述:excel表中的一些数据会以文本格式格式保存,例如一些较长的编号、银行账号、身份证号等,再python中导出文件后,会发现数据以科学计数法显示,影响后续使用。 解决方法:在数据导出之前,将需要处理的信息列添加 \' 或空格 但是,导出的数据无法跟原来数据进行匹配(目前不知道为什么,可能我添 阅读全文
posted @ 2019-04-23 19:05 Python白小白 阅读(3597) 评论(0) 推荐(0) 编辑
摘要: 问题描述:在数据预处理时,往往需要对描述性数据进行分类赋值或对数据进行分级赋值。 首先,会想到用for循环,依次判断赋值: 但是,当数据量较大时,这种处理方式十分耗时 于是寻找其他方式,利用.loc选取数据进行赋值,由于目前对python还处于初级阶段,没有找到直接赋值的简单方法,于是先利用.loc 阅读全文
posted @ 2019-04-22 22:05 Python白小白 阅读(2258) 评论(0) 推荐(0) 编辑
摘要: STEP1: #读取数据: import pandas as pdinputfile_1 = "F:\\大论文实验\\数据处理\\贫困人口数据_2015.xlsx" data1 = pd.read_excel(inputfile_1) #数据分组:groupby data1_1 = data1.gr 阅读全文
posted @ 2019-04-22 19:58 Python白小白 阅读(11610) 评论(0) 推荐(0) 编辑
摘要: 方法一:利用pandas import pandas as pd inputfile_1 = "F:\\大论文实验\\福贡县数据\\贫困人口数据_2015.xlsx" data1 = pd.read_excel(inputfile_1)#,index_col = '序号' #打印表头list1 = 阅读全文
posted @ 2019-04-22 10:09 Python白小白 阅读(17021) 评论(0) 推荐(0) 编辑