Python调用Win32com实现Office批量转PDF

Python调用Win32com实现Office批量转PDF

需求

一直以来有将诸如Word之类的Office文档转为PDF的需求，此前的方法是挨个打开文档，手动另存为PDF，此方法费时费力，尤其在电脑配置不高、同时运行很多程序的情况下会造成卡顿，因此需要通过Python将此类文档自动转为PDF，如果能够批量转换最好。

调研

在网上搜索调研后，决定选择Win32com组件，因为它是微软的原生API，功能强大，手动操作Office能做到的通过调用Win32com一样能实现。缺陷是仅限于Win+Office环境。
在原先需求的基础上增加PDF转PNG图片，经调研后选择使用PyMuPDF。

代码实现

Office转PDF

from win32com.client import Dispatch
from os import walk
import sys

def doc2pdf(input_file):
    word = Dispatch('Word.Application') # WPS改为Kwps.Application
    # word = DispatchEx('Word.Application')  # 启动独立进程
    output_file = input_file.split(".")
    try:
        doc = word.Documents.Open(input_file)
        doc.SaveAs(output_file[0] + ".pdf", FileFormat=17) # Word另存为PDF为17
        doc.Close()
    except:
        print("Unexpected error:", sys.exc_info())
    word.Quit()

def ppt2pdf(input_file):
    powerpoint = Dispatch('Powerpoint.Application') # WPS改为Kwpp.Application
    output_file = input_file.split(".")
    try:
        ppt = powerpoint.Presentations.Open(input_file)
        ppt.SaveAs(output_file[0] + ".pdf", FileFormat=32) # PPT另存为PDF为32
        ppt.Close()
    except:
        print("Unexpected error:", sys.exc_info())
    powerpoint.Quit()

def xls2pdf(input_file):
    excel = Dispatch('Excel.Application') # WPS改为Ket.Application
    output_file = input_file.split(".")
    try:
        xls = excel.Workbooks.Open(input_file)
        xls.SaveAs(output_file[0] + ".pdf", FileFormat=57) # Excel另存为PDF为57
        xls.Close()
    except:
        print("Unexpected error:", sys.exc_info())
    excel.Quit()

if __name__ == "__main__":
    doc_files = []
    directory = "C:\\Users\\Administrator\\Desktop"
    # 对directory目录里的所有文件进行遍历
    for root, dirs, filenames in walk(directory):
        for file in filenames:
            # 忽略~$开头的临时文件，并根据后缀名判断文件类型
            if file.find("~$") == -1:
                if file.endswith(".doc") or file.endswith(".docx") or file.endswith(".DOC"):
                    doc2pdf(str(root + "\\" + file))
                elif file.endswith(".ppt") or file.endswith(".pptx") or file.endswith(".PPT"):
                    ppt2pdf(str(root + "\\" + file))
                elif file.endswith(".xls") or file.endswith(".xlsx") or file.endswith(".XLS"):
                    xls2pdf(str(root + "\\" + file))

PDF转png

from os import walk
import sys
import fitz

'''
# 将PDF转化为图片
input_file pdf文件的路径
zoom_x x方向的缩放系数
zoom_y y方向的缩放系数
rotation_angle 旋转角度
'''

def pdftoimage(input_file,zoom_x,zoom_y,rotation_angle):
    try:
        # 打开PDF文件
        pdf = fitz.open(input_file)
        # 逐页读取PDF
        for pg in range(0, pdf.pageCount):
            page = pdf[pg]
            # 设置缩放和旋转系数
            trans = fitz.Matrix(zoom_x, zoom_y).preRotate(rotation_angle)
            pm = page.getPixmap(matrix=trans, alpha=False)
            # 开始写图像
            pm.writePNG(input_file.replace(".pdf","")+str(pg+1)+".png")
        pdf.close()
    except:
        print("Unexpected error:", sys.exc_info())

if __name__ == "__main__":
    doc_files = []
    directory = "C:\\Users\\Administrator\\Desktop"
    for root, dirs, filenames in walk(directory):
        for file in filenames:
            if file.endswith(".pdf"):
                pdftoimage(str(root + "\\" + file),2,2,0)

注意事项

调用Win32com对Office文档进行操作与人工手动打开Office文档无异，优点在不用手动点击鼠标
此代码根据对应目录下的文件挨个转换，未支持异步多线程转换
使用DispatchEx可启动独立进程进行转换，优点在于不影响正在编辑的文档，缺点在于如果转换出错会造成进程残留
代码运行中可能看到Word/Excel/PowerPoint窗口显示或错误警告，可添加word.Visible = 0隐藏窗口，添加word.DisplayAlerts = 0忽略错误警告
加入try/except是为了防止转换异常导致进程未关闭，从而造成Office无法打开的情况发生
Word、Excel、PowerPoint另存为PDF的FileFormat不同，Word为17、Excel为57、PowerPoint为32
如果转换的同时有对应的Word/Excel/PowerPoint实例在运行，转换完毕后的.Quit()方法会将这些实例一并关闭，请提前做好保存，或使用DispatchEx启动独立进程，建议不要在运行代码的同时打开实例
PDF转PNG时一定要先安装fitz，再安装PyMuPDF，否则会报错

参考资料

posted @ 2021-01-03 22:47 Lolipop 阅读(2397) 评论(0) 编辑收藏举报

刷新页面返回顶部

Lolipop’s blog

Python调用Win32com实现Office批量转PDF

Python调用Win32com实现Office批量转PDF

需求

调研

代码实现

注意事项

参考资料

公告