Python处理Excel和PDF文档

一、使用Python操作Excel

  Python来操作Excel文档以及如何利用Python语言的函数和表达式操纵Excel文档中的数据。

  虽然微软公司本身提供了一些函数,我们可以使用这些函数操作Excel文档。但是,使用Excel自带的函数受限于Excel软件的功能限制。换句话说,只有微软提供了某种功能,我们才能使用相应的功能解决问题。如果微软没有提供相应的函数应对一个复杂的功能,那么,我们只能进行重复性操作。使用Python语言操作Excel则不然,我们可以灵活应用Python语言的所有功能,读取、计算和编辑Excel文档中的数据。

  一)Python处理Excel之openpyxl

  1、openpyxl简介和安装

    1、openpyxl简介

  openpyxl是一个读写Excel2010(xlsx/xlsm)文档的Python库,如果要处理更早格式的Excel文档,需要用到另外的库。openpyxl是一个比较综合的工具,能够同时读取和修改Excel文档。XlsxWriter也是一个与Excel处理相关的知名项目,仅支持创建和写入Excel文档,不支持读取Excel文档。

    2、openpyxl安装
pip install openpyxl

  2、使用openpyxl读取Excel文档

    1、Excel的构成

  一个Excel文档称为一个工作簿,在Office2010下,典型工作簿的文件扩展名为xlsx。一个工作簿可以包含多个表格(在Excel又称为sheet)。打开工作簿后会默认显示一个表格,这个表格一般称为活跃表。表格中包含若干单元格,所有单元格都有一个唯一的坐标。Excel通过行和列表示一个单元格,其中,行的坐标使用数字表示,列的坐标使用字母表示。

    2、openpyxl处理Excel文件

  openxpyxl中有三个不同层次的类,分别是Workbook、Worksheet和Cell。Workbook是对Excel工作簿的抽象,Worksheet是对表格的抽象,Cell是对单元格的抽象。每一个类都包含了若干属性和方法,以便于我们通过这些属性和方法获取表格中的数据。

  例如,我们要打开一个Excel表格或者创建一个Excel文档,都需要创建一个Workbook对象。我们需要获取Excel文档中的某一张表,应该先创建一个Workbook对象,然后使用该对象的方法来得到一个Worksheet对象。如果要读取或者修改某个单元格,我们需要先获得Worksheet对象,然后再获取代表单元格的Cell对象。

  一个Workbook对象代表一个Excel文档,因此,在操作一个Excel之前,应该先创建一个Workbook对象。对于创建一个新的Excel文档,直接进行Workbook类调用即可。对于读取一个已有的Excel文档,可以使用openpyxI模块的load_workbook函数。该函数接受多个参数,但只有filename参数为必传参数。filenmame可以是一个文件名,也可以是一个打开的文件对象。

import openpyxl
wb=openpyxl.load_workbook('example.xls')

  调用完load_workbook函数以后,我们就得到了一个Workbook对象。Workbook对象有很多的属性和方法,其中,大部分方法都与sheet相关。

  Workbook对象的部分属性如下:

1 active:获取活跃的Worksheet;
2 read_only:是否以read_only模式打开Excel文档;
3 encoding:文档的字符集编码;
4 properties:文档的元数据,如标题,创建者,创建日期等;
5 worksheets:以列表的形式返回所有的Worksheet。
#操作
print(wb.active)
print(wb.read_only)
print(wb.encoding)
print(wb.worksheets)

#结果如下
<Worksheet "product">
False
utf-8
[<Worksheet "pre">, <Worksheet "product">]
实操

  Workbook对象的方法大都与Worksheet相关。常用的方法如下:

1 sheetnames:获取所有表格的名称;
2 [sheetname]:通过表格名称获取Worksheet对象;
3 active:获取活跃的表格;
4 remove:删除一个表格;
5 create_sheet:创建一个空的表格;
6 copy_worksheet:在Workbook内拷贝表格
#实操
print(wb.sheetnames)
print(wb['pre'])
print(wb.active)
print(wb.create_sheet(index=0, title='new sheet'))
print(wb.sheetnames)
print(wb.remove(wb['new sheet']))
print(wb.sheetnames)
print(wb.copy_worksheet(wb['pre']))
###将修改保存(从内存刷到磁盘)
wb.save('example.xlsx')

#结果
<Worksheet "new sheet">
['new sheet', 'pre', 'product']
['new sheet', 'pre', 'product']
<Worksheet "pre">
<Worksheet "pre Copy">
实操

  有了Worksheet对象以后,我们可以通过这个Worksheet对象获取表格的属性,得到单元格中的数据,修改表格中的内容。openpyxI提供了非常灵活的方式来访问表格中的单元格和数据。

  常用的Worksheet属性如下:

 1 title:表格的标题;
 2 dimensions:表格的大小,这里的大小是指有含有数据的表格大小。例如,对于example.xlsx文件,dimensions属性的值为'Al:El1';
 3 maxrow:表格的最大行;
 4 min_row:表格的最小行;
 5 maxcolumn:表格的最大列;
 6 mincolumn:表格的最小列;
 7 rows:按行获取单元格(Cell对象);
 8 columns:按列获取单元格(Cell对象);
 9 freeze_panes:冻结窗格;
10 values:按行获取表格的内容(数据)。
#实操
ws = wb['pre']
print(ws.title)
print(ws.max_row)

#结果如下
pre
59
实操

  通过不同的属性名获取student这张表的属性。其中,columns、rows和values这几个属性都是通过生成器的方式返回数据

  openpyxl并不知道我们的表格中有多少数据,在数据量大的情况下,如果一次获取所有数据,势必会占用较多的内存。因此,openpyxl的设计中,需要返回数据时都是通过生成器的方式返回。对于附件中的student表,因为记录较少,我们可以使用list函数或tuple函数获取所有的数值。需要注意的是,columns与rows返回的是Cell对象,values返回的是数据。

  freeze_panes这个参数比较特别,主要用于在表格较大时冻结顶部的行或左边的列。对于冻结的行或列,就算用户滚动电子表格,也是始终可见的。每个Worksheet对象都有一个freeze_panes属性,可以设置为一个Cell对象或一个单元格坐标的字符串,单元格上面的行和左边的列将会冻结(注意单元格所在的行和列并不会冻结)。例如,我们需要冻结第一行,那么freeze_panes取值应该为A2,如果要冻结第一列,freeze_panes取值为Bl。如果要同时冻结第一行和第一列,则freeze_panes取值为B2。freeze_panes取值为None表示不冻结任何窗格。

  Worksheet常用的一些方法:

1 iter_rows:按行获取所有单元格(Cell对象);
2 iter_columns:按列获取所有的单元格;
3 append:在表格末尾添加数据;
4 merged_cells:合并多个单元格;
5 unmerge_cells:移除合并的单元格。

  iter_rows方法和iter_columns方法在参数取默认值时,与rows属性和columns属性的作用相同。区别在于,iter_rows方法和iter_columns方法可以通过函数参数限定访问表格的范围。

print(list(ws.iter_rows(min_row=2,max_row=4,min_col=1,max_col=3)))

  从Worksheet的属性和方法的使用中可以看到,很多属性和方法返回的不是某一个具体的数值,而是一个Cell对象。一个Cell对象就代表一个单元格,我们可以直接使用Excel坐标的方式获取Cell对象,也可以使用Worksheet的cell方法获取Cell对象。如下所示:

print(ws['A1'])
print(ws.cell(row=1, column=2))

  Cell对象比较简单,其常用的属性如下:

1 row:单元格所在的行;
2 column:单元格所在的列;
3 value:单元格的取值;
4 cordinate:单元格的坐标
    3、openpyxl提供的各种API

  使用4种不同的方法来打印student表中的内容。为了对数据的格式进行控制,我们使用print函数而不是print语句进行打印。

  通过Worksheet的values方法打印表格中的数据,这也是打印数据最简单的方法。values通过生成器访问数据并按行返回,因此,我们使用for循环遍历表格的内容。

from __future__ import print_function
for row in ws.values:
    print(*row)

  使用Worksheet的rows属性来遍历表格中的数据。rows属性按行返回Cell对象,因此,我们使用列表推导来获取每一个Cell对象的值。如下所示:

for row in ws.rows:
    print(*[cell.value for cell in row])

  Worksheet的iter_rows方法在不加任何参数的情况下与rows属性效果相同,因此这种方法与前一种方法看起来很像

for row in ws.iter_rows():
    print(*[cell.value for cell in row])

  最后这种方式是最麻烦的方式,也是大家最容易想到的方式。我们首先获取表格的最小行数和最大行数,然后获取最小列数与最大列数,通过行和列的索引确定一个唯一元格。确定单元格以后,打印单元格的值。这种方式是每确定一个单元格打印一次,因此,我们在print函数中将end参数取值为空格来避免换行,并在内层for循环结束以后,显示地进行换行。如下所示:

for i in range(ws.min_row, ws.max_row + 1):
    for j in range(ws.min_column, ws.max_column + 1):
        print(ws.cell(row=i ,column=j).value, end=' ')
    print()

  3、使用openpyxl修改Excel

  openpyxl不但可以读取Excel文档,而且还可以修改Excel文档,包括修改单元格的 数据、合并单元格、修改单元格的字体、在Excel文档中画图等。

  一个Workbook对象就代表了一个工作簿,因此,新建一个工作簿就是创建一个 Workbook对象。创建完Workbook对象以后,默认会有一个名为“sheetl”的表格,我们 可以通过表格的名称或get_active_sheet方法来获取这个表格。获取表格以后,可以通过给 表格的title属性赋值的方式来修改表格的名称。

from openpyxl import Workbook

wb =Workbook()
wb.sheetnames

ws = wb.active
ws.title
ws.title = 'pre'

  修改

ws['A1'] = 'hello world'
wb.save('example.xlsx')

  二)其他操作Excel的方式

  1、xlrd主要是用来读取excel文件

    1、安装xlrd
pip install xlrd
    2、实操
import xlrd


workbook = xlrd.open_workbook('dns_records.xls')
sheet_names = workbook.sheet_names()

for sheet_name in sheet_names:
    sheet2 = workbook.sheet_by_name(sheet_name)
    print(sheet_name)
    rows = sheet2.row_values(3)  # 获取第四行内容
    cols = sheet2.col_values(1)  # 获取第二列内容

print(rows)
print(cols)
实操

  2、xlwt主要是用来写excel文件

    1、安装
pip install xlwt
    2、实操
import xlwt


wbk = xlwt.Workbook()
sheet = wbk.add_sheet('sheet 1')
sheet.write(0,1,'test text')#第0行第一列写入内容
wbk.save('test.xls')
实操

  3、xlutils结合xlrd可以达到修改excel文件目的

    1、安装
pip install xlutils
    2、实操
import xlrd
from xlutils.copy import copy


workbook = xlrd.open_workbook(u'有趣装逼每日数据及趋势.xls')
workbooknew = copy(workbook)
ws = workbooknew.get_sheet(0)
ws.write(3, 0, 'changed!')
workbooknew.save(u'有趣装逼每日数据及趋势copy.xls')
实操

  4、xlsxwriter可以写excel文件并加上图表

    1、安装
pip install xlsxwriter
    2、实操
 1 import xlsxwriter
 2 
 3 
 4 def get_chart(series):
 5     chart = workbook.add_chart({'type': 'line'})
 6     for ses in series:
 7         name = ses["name"]
 8         values = ses["values"]
 9         chart.add_series({ 
10             'name': name,
11             'categories': 'A2:A10',
12             'values':values
13         })  
14     chart.set_size({'width': 700, 'height': 350}) 
15     return chart
16  
17 if __name__ == '__main__':
18     workbook = xlsxwriter.Workbook(u'H5应用中心关键数据及趋势.xlsx') 
19     worksheet = workbook.add_worksheet(u"每日PV,UV")
20     headings = ['日期', '平均值']
21     worksheet.write_row('A1', headings)
22     index = 0
23     for row in range(1,10):
24         for com in [0,1]:
25             worksheet.write(row,com,index)
26             index+=1  
27     series = [{"name":"平均值","values":"B2:B10"}]
28     chart = get_chart(series)
29     chart.set_title ({'name': '每日页面分享数据'})  
30     worksheet.insert_chart('H7', chart)
31     workbook.close()
实操

  三)Python3实战

  1、Python处理excel并json序列化,并写入文件中

import  xlrd
from collections import OrderedDict
import json

def login_pc_parameter():
    #excel的路径
    wb = xlrd.open_workbook('pc_login.xlsx')
    convert_list = []
    #处理的sheet,默认是第一个(索引值为0)
    sh = wb.sheet_by_index(0)
    #显示excel的标题,一般是第一行内容
    title = sh.row_values(0)

    for rownum in range(1, sh.nrows):
        #获取每行的数据
        rowvalue = sh.row_values(rownum)
        #使用有序字典类,防止乱序
        single = OrderedDict()
        for colnum in range(0, len(rowvalue)):
            # print(title[colnum], rowvalue[colnum])
            single[title[colnum]] = rowvalue[colnum]
        convert_list.append(single)


    j = json.dumps(convert_list,ensure_ascii=False,indent=2)
    # print(convert_list)
    # print(j)

    with open("file3.json", "w",encoding="utf-8") as f:
        f.write(j)

if __name__ == '__main__':
    login_pc_parameter()

 

二、使用Python操作PDF

  PDF(Portable Document Format)是一种便携式文档格式,这种文档格式与操作系统平台无关。PDF文件无论是在Windows,Unix还是在苹果公司的MacOS操作系统中都是通用的,这一特点使它成为在Internet上进行电子文档发行和数字化信息传播的理想文档格式。虽然PDF便于传输和阅读,但是,编辑PDF却很不容易。PyPDF2对编辑PDF提供了有限的支持,我们可以使用PyPDF2模块读取、合并和写入PDF文档。

  一)PyPDF2 安装与介绍

  PyPDF2是一个纯Python的开源库,能够分割或合并PDF文件,也可以裁剪或转换 PDF文件中的页面。我们还可以使用PyPDF2查看PDF文件的元信息,对PDF文件进行加密,破解PDF文件的密码等。

  官网:https://pythonhosted.org/PyPDF2/

  安装

pip install PyPDF2

  PyPDF2提供了4个主要的类,分别是PdfFileWriter、PdfFileReader、PdfFileMerger和PageObject。前三个类分别用以读取PDF文件、写入PDF文件与合并PDF文件。PageObject类代表了一个PDF页面,可以使用PdfFileReader类的getPage方法得到一个PageObject对象。

  二)使用PdfFileReader读取PDF文档

  学习一个库,最好的方式就是使用IPython进行练习。IPython能够看到程序的中间结果,也可以方便地获取帮助信息。接下来,我们就使用IPython学习PyPDF2的使用。在 IPython的交互模式下输入以下代码:

  1、获取pdf文档共有多少页

import PyPDF2


reader = PyPDF2.PdfFileReader(open(u'Python Linux系统管理与自动化运维.pdf', 'rb'))
num_pages = reader.getNumPages()

print(num_pages)

  2、显示pdf文档的info信息

doc_info = reader.getDocumentInfo()

print(doc_info)

  结果如下

{'/CreationDate': "D:20171125012631+08'00'", '/Creator': 'Adobe Acrobat 11.0.10', '/ModDate': "D:20180430102312+08'00'", '/Producer': 'Adobe Acrobat Pro 11.0 Paper Capture Plug-in', '/Title': ''}

  三)使用PdfFileWrite创建PDF文档

  对PDF文件进行加密、裁剪PDF文件、调整PDF页面的顺序等。我们需要编辑PDF页面。例如,去除PDF文件中的第一页,从一个PDF文件中提取几个页面保存到另一个文件。PyPDF2并不能直接编辑PDF文件,但是,我们可以利用PyPDF2从一个PDF文档拷贝需要的页面到另一个PDF文档,通过这种迂回的方式实现编辑PDF的功能。

  例如,我们现在要修改Python Linux系统管理与自动化运维.pdf文件,仅仅保存该文件的第2页、第5页和第6页。我们将这几个页面抽取出来,保存到另外一个PDF文件中,并对这个PDF文件进行加密。如下所示:

  1、将需要的内容写入新的pdf文件

import PyPDF2


reader= PyPDF2.PdfFileReader(open(u'Python Linux系统管理与自动化运维.pdf', 'rb'))
output= PyPDF2.PdfFileWriter()
output.addPage(reader.getPage(1))
output.addPage(reader.getPage(4))
output.addPage(reader.getPage(5))
output.getNumPages()

  创建了一个PdtFileWriter对象和一个PdtFileReader对象。接着,我们使用PdtFileReader对象的getPage方法获取需要的PDF页面,并通过PdtFileWriter对象的addPage方法增加页面。PdtFileWriter类有很多方法,如添加空白页的addBlankPage方法、添加书签的addBookmark方法、添加元信息的addMetadata方法以及对PDF进行加密的encrypt方法。在PdtFileWriter类的所有方法中,最常用的是addPage方法。

getNumPages方法获取PdtFileWriter拥有的PDF页面数。

  2、使用encrypt方法对PDF文件进行加密。

output.encrypt('123456')
outputStream = (open(u'Python Linux系统管理与自动化运维_test.pdf', 'wb'))
output.write(outputStream)
outputStream.close()

  四)修改PDF页面

  需要修改PDF的页面,PyPDF2也提供了部分支持,如旋转页面、添加水印。PageObject类中有部分方法可以修改PDF页面,其中,rotateClockwise和rotateCounterClockwise方法用来旋转页面。这两个方法只接受一个参数,且参数取值必须是90的倍数,表示旋转多少度。下面的代码将redbooks.pdf文件的首页旋转180度,并保存到一个新的文件中。

  1、旋转文档

import PyPDF2
reader = PyPDF2.PdfFileReader(open(u'Python Linux系统管理与自动化运维.pdf', 'rb'))
writer = PyPDF2.PdfFileWriter()
page = reader.getPage(20)
page.rotateClockwise(90)
writer.addPage(page)
outputStream = open("test.pdf", "wb")
writer.write(outputStream)
outputStream.close()

  2、给文档添加水印

import PyPDF2
reader = PyPDF2.PdfFileReader(open(u'Python Linux系统管理与自动化运维.pdf', 'rb'))
watermark = PyPDF2.PdfFileReader(open(u'Python Linux系统管理与自动化运维.pdf', 'rb'))
writer = PyPDF2.PdfFileWriter()

for i in range(reader.getNumPages()):
    page = reader.getPage(i)
    page.mergePage(watermark.getPage(0))
    writer.addPage(page)
output_stream = open("watermark-test.pdf", 'wb')
writer.write(output_stream)
output_stream.close()
posted @ 2018-05-01 14:56  思维无界限  阅读(7381)  评论(0编辑  收藏  举报