近期对FTP及Excel数据处理的一些摸索

一个多月没写随笔了,主要是发的东西,自己感觉也很垃圾,说又说回来,谁不是从垃圾变强的,所以不比比,还得努力。come on!!

Python学习也有段时间了,近期为了解决同事的一个难题,所以我们决定联系Python的同时,帮他解决这个难题。他的难题简单概括来说,每次他需要登录某单位的FTP服务器,下载好几个项目一个月的数据,然后找到其中地源热泵数据,全部复制到本地,然后打开每个项目的文件,一行一行的复制到Excel中,然后再进行数据处理,其中一个项目,一个时间的数据截图如下:

 

 

数据均是以逗号分割,可想而知,他每次仅仅的粘贴复制是有多费劲。所以我们就小试牛刀,把自己学的Python用上,用代码给他解决这个问题。

开始的时候也没有接触过FTP这个模块,所以最开始就想怎么能用代码,把想要的数据下载到本地,所以就学习了ftplib这个模块。然后逐层深入,怎么能下载每一天的,以至于到每个项目的每一天,最终的download的模块的所有的代码如下:

 

 1 #!/usr/bin/env python
 2 # -*- coding: utf-8 -*-
 3 import os,sys
 4 from datetime import datetime,timedelta
 5 
 6 from ftplib import FTP            #加载ftp模块
 7 import xlrd,xlwt
 8 
 9 
10 starttime = input("请输入想要下载文件的开始时间(格式:20170101):\n")
11 # endtime = parse(input("请输入想要下载文件的结束时间:\n"))                       
12 
13 # input_time = int(input("请输入想要下载前多少天的数据:\n"))
14 
15 base_dir = os.path.dirname(os.path.abspath(__file__))
16 print(base_dir)
17 sys.path.append(base_dir)
18 
19 ftp=FTP()                         #设置变量
20 #ftp.set_debuglevel(2)             #打开调试级别2,显示详细信息
21 ftp.connect("IP地址",21)          #连接的ftp sever和端口
22 ftp.login("用户名","密码>")      #连接的用户名,密码
23 
24 
25 
26 if ftp.cwd("目录" + starttime + "/"):    #进入远程目录
27     #print(ftp.nlst())
28     #downloadlist = ftp.nlst()               
29     bufsize=1024                      #设置的缓冲区大小
30     
31     for filename in ftp.nlst():
32         
33         if "GHP" in filename and "0800_001.cmep" in filename:           #需要下载的文件
34             file_handle=open(base_dir + "/data/" + filename,"wb").write #以写模式在本地打开文件
35             #file_handle=open(filename,"wb").write
36             ftp.retrbinary("RETR "+filename,file_handle,bufsize) #接收服务器上文件并写入本地文件
37 #            ftp.set_debuglevel(0)             #关闭调试模式
38             print(filename + "已经下载完成!")
39             
40         
41     ftp.cwd("/")
42 
43 print("您想要的文件已经全部下载完成,欢迎下次使用!")
44 ftp.quit()                        #退出ftp

 

download的执行结果是,是把所有项目某一天的代码全部下载到本地data目录下。下载的结果如下:

 

 

此时数据下载好了,就想着该如何把数据整理到Excel中了,所以还需要去学习Python中关于Excel的库,我们主要用的xlrd和xlwt,不懂的可以百度。我们就写了把后缀名微cmep的文件,写的Excel里的一个模块handle,在过程中我们发现,对于每一个项目来说,我们同事所想要的数据的行数都不相同,所以老师就给我们一个思路,写一个关于地源热泵每一个项目配置文件,就解决了这个问题。所以我们就动手写了一个json格式的配置文件,代码如下:

 

 1 import json
 2 import os,sys
 3 
 4 base_dir = os.path.dirname(os.path.abspath(__file__))
 5 print(base_dir)
 6 sys.path.append(base_dir)
 7 
 8 
 9 file_list = os.listdir(base_dir + "/data/")
10 # print(file_list)
11 
12 output_data = {"items":[]}
13 
14 for filename in file_list:
15     with open(base_dir + "/data/" + filename) as f:
16         lines = f.readlines() 
17         # print(lines)
18         line_number = []
19         for nums,line in enumerate(lines):
20             if line.split(",")[10] == "GJ" or line.split(",")[10] == "kWh":
21                 line_number.append(nums)
22                
23         out_filename = filename.split("_GHP")[0].split("SSTJEC_")[1]
24         print(out_filename)
25         data = {"item":out_filename,"download_line":line_number}
26         output_data["items"].append(data)
27         
28 with open("settings.json","w") as f1:
29     json.dump(output_data,f1)

 

运行write_json.py的这个文件,得出每个项目所需要下载的不同行,然后我们根据这个配置文件,开始把需要的参数写入到Excel文件中,具体代码如下:

 

 1 import os,sys,json
 2 import xlrd,xlwt
 3 
 4 #把当前文件所在目录添加到电脑的环境变量
 5 base_dir = os.path.dirname(os.path.abspath(__file__))
 6 print(base_dir)
 7 sys.path.append(base_dir)
 8 
 9 #当前文件所在目录data文件夹下的所有文件名以列表的形式存到file_list里
10 file_list = os.listdir(base_dir+"/data")
11 print(file_list)
12 
13 #打开当前文件所在目录的settings.json文件
14 with open("settings.json","r") as f1:
15     settings = json.load(f1)
16 
17 #以写的形式打开一个workbook
18 my_workbook = xlwt.Workbook()
19 
20 for filename in file_list:
21     year = filename.split("_")[-2][:4]
22     date = filename.split("_")[-2][4:8]
23 
24     #从json文件中获取到每个项目的配置文件,然后下载相应的行到Excel里
25     for setting in settings["items"]:
26         project_name = filename.split("_GHP")[0].split("SSTJEC_")[1]
27         if project_name == setting["item"]:
28             my_sheet = my_workbook.add_sheet(project_name + "_" + date)
29             with open(base_dir+"/data/"+filename) as f2:
30                 lines = f2.readlines()
31                 step = 0
32 
33                 #把所需要的数据写到Excel中
34                 for nums,line in enumerate(lines):
35                     if nums in setting["download_line"]:
36                         re_time = line.split(",")[6]
37                         out_file = line.split(",")[7]
38                         energy = line.split(",")[-2]
39                         unit = line.split(",")[10]
40 
41                         my_sheet.write(step,0,out_file)
42                         my_sheet.write(step,1,re_time)
43                         my_sheet.write(step,2,energy)
44                         my_sheet.write(step,3,unit)
45                         step += 1
46 
47 my_workbook.save(base_dir+"/handle/" + year +" cmep_to_excel.xls")

 

运行handle文件后,得到写入Excel文件的结果如下:

 

 

成功的写入了Excel文件,对于我们同事来说,这个是一个皆大欢喜的结果,但是他还需要进行数据处理,所以我们想,索性帮他用代码把数据处理也做了,最后我们就写了一个result的文件,把他想要的两个时间内的数据做差,然后再写入另一个Excel中,下面是代码:

 

 1 import xlrd,xlwt
 2 import os,sys
 3 
 4 base_dir = os.path.dirname(os.path.abspath(__file__))
 5 print(base_dir)
 6 sys.path.append(base_dir)
 7 
 8 file_list = os.listdir(base_dir+"/handle/")
 9 print(file_list)
10 
11 my_workbook = xlwt.Workbook()
12 
13 for filename in file_list:
14     date,project = filename.split(" ")[0],filename.split(" ")[-1]
15 
16     if project == "cmep_to_excel.xls":
17 
18         myworkbook = xlrd.open_workbook((base_dir+"/handle/" + filename))
19         i = 0
20         o = 1
21         while o < len(myworkbook.sheets()):
22             frist_sheet = myworkbook.sheets()[i]
23             second_sheet = myworkbook.sheets()[o]
24             rows_num = second_sheet.nrows
25             print(rows_num)
26 
27             my_sheet = my_workbook.add_sheet(frist_sheet.cell(0,0).value.split("_GHP_")[0])
28             
29             #在每个表单的头一行添加表头
30             my_sheet.write(0,0,"数据类型")
31             my_sheet.write(0,1,"日期")
32             my_sheet.write(0,2,"数据")
33             my_sheet.write(0,3,"单位")
34             m = 1
35             n = 0
36             while n < rows_num:
37                 
38                 out_file = frist_sheet.cell(n,0).value
39                 re_time = frist_sheet.cell(n,1).value
40                 energy1 = float(frist_sheet.cell(n,2).value)
41                 unit = frist_sheet.cell(n,3).value
42 
43                 energy2 = float(second_sheet.cell(n,2).value)
44                 energy_output = energy2 - energy1
45 
46                 my_sheet.write(m,0,out_file)
47                 my_sheet.write(m,1,re_time)
48                 my_sheet.write(m,2,energy_output)
49                 my_sheet.write(m,3,unit)
50 
51                 m +=1
52                 n +=1
53             i += 2
54             o += 2
55 
56         my_workbook.save(base_dir+"/handle/" + date + " result.xls")

 

最后得到他想要的结果文件,以后对于他这趟差事来说,那不是简单到没朋友,自己运行几个代码,所有的东西过程都不用管,结果就有了,大大提升了工作效率,为我们几个同事点一个赞。

其实还有一个弊端,也就是下次和老师碰的一个点,就是自己把几个模块,整合到一个Python文件中,自己运行一个文件,就把所有过程都跑完,也就是后面需要增加的内容。

 

学习Python的时间还是有限,主要自己也不是干这个的,离自己理想还是有很大的差距,昨天晚上憋了4个小时,才把最后的result文件写玩,里面需要改进的地方还有很多,还需要努力。大家也跟一起努力把,你们的赞扬才是我努力的源泉,欢迎转发评论,欢迎批评指正。

 

posted @ 2017-12-24 12:31  黄舒砚  阅读(1400)  评论(2编辑  收藏  举报