自动化办公
目录:
1 初始化excel
2 csv
3 pdf转换
4 转换为pdf
1 初始化excel
#!\Users\Local\Programs\Python37 # -*- coding: utf-8 -*- import os from openpyxl import Workbook # 初始表格 wb = Workbook() sheet = wb.active sheet.title = '爬取的数据sheet' name = ['达人名称', '服务评分', '粉丝数量', '合作任务', '完成比率', '垂直领域', '累计浏览', '累计用户'] sheet.append(name) # 创建文件夹 try: os.chdir('D:\\') # 改变当前工作目录到指定的路径 os.mkdir('Spider_test1') os.chdir('D:\\Spider_test1') except Exception as e: os.chdir('D:\\Spider_test1') # 保存为表格 try: wb.save('spider.xlsx') except Exception as f: os.remove('spider.xlsx') wb.save('spider.xlsx') print('数据已保存在D盘Spider_test1文件夹内!')
2 csv
import csv
items=[('1', '4', 'Jeason\xa0/\xa0782次播放'), ('2', '成年的眼泪(demo)', '耀\xa0/\xa0188次播放'), ('3', 'Immigrant Wonder Woman Song_20200626_0825', '鬼怒川\xa0/\xa0482次播放'), ('4', 'Prêt-à-Porter', '鲁智深\xa0/\xa01525次播放'), ('5', '最后我们走散了(流行抒情特价1000)', '博友文化音乐工作室\xa0/\xa01052次播放'), ('6', '7.三万光年的呼喊', '正正\xa0/\xa04838次播放'), ('7', '遇见', '阿杰\xa0/\xa0195次播放'), ('8', '红薯', 'ws的ws\xa0/\xa0243次播放'), ('9', 'Archived Message', '黑羊黒羊\xa0/\xa060次播放'), ('10', '归来少年时', '祥树\xa0/\xa084次播放')] # 写入csv文件 with open('db music.csv', 'w', newline='', encoding='utf-8') as f: writer = csv.writer(f) writer.writerow(['排名', '歌名 ', '歌手和播放数量']) writer.writerows(items) # # 写入txt文件 # for item in items: # string = str(item) # with open('db music.txt', 'a') as f: # f.write(string + '\n') # f.close()
3 pdf转换
#PDF转Text #pip3 install pdfplumber 1import pdfplumber 2with pdfplumber.open("兴业B信托项目风险管理研究.pdf") as p: 3 for i in range(75): 4 page = p.pages[i] 5 textdata = page.extract_text() 6 #print(textdata) 7 data = open("text.text", "a") 8 data.write(textdata)
#pip3 install python-docx #PDF转Word 1import pdfplumber 2from docx import Document 3with pdfplumber.open("兴业B信托项目风险管理研究.pdf") as p: 4 page = p.pages[2] 5 textdata = page.extract_text() 6 #print(textdata) 7 document = Document() #新建一个空白的word文档 8 content = document.add_paragraph(textdata) #在文档中添加正文段落,将变量textdata导进去 9 document.save("word.docx") #保存文档docx,命名为word
#pip3 install openpyxl #PDF转Excel 1import pdfplumber 2from openpyxl import Workbook 3with pdfplumber.open("兴业B信托项目风险管理研究.pdf") as p: 4 workbook = Workbook() #新建空白Excel工作簿 5 sheet = workbook.active #激活sheet 6 for i in range(68,75): #遍历69页-75页 7 page = p.pages[i] 8 table = page.extract_table() #提取表格数据 9 #print(table) 10 for row in table: #遍历所有行 11 #print(row) 12 sheet.append(row) #按行追加写入数据 13 workbook.save("Excel.xlsx") #保存文件,命名为Excel 14 i += 1 15 print("第%d页PDF提取完成"%i) #提示提取进度
4 转换为pdf
# pip install docx2pdf # 单个文件转换示例 #遇到的坑: 无法打开可能是起初以doc格式创建,需要以docx格式创建 import os from docx2pdf import convert convert("doc文.docx", "word_to_pdf/word5.pdf") # 批量转换 import os from docx2pdf import convert word_path = 'word_path' word_to_pdf = 'word_to_pdf' for i,j,name in os.walk(word_path): for word_name in name: convert(word_path+"/"+word_name, word_to_pdf+"/"+word_name.replace("docx","pdf"))
# pip install pywin32 import os from win32com.client import DispatchEx excel_path = "D:/公众号/0626/Python研究者.xls" pdf_path = "D:/公众号/0626/Python研究者.pdf" xlApp = DispatchEx("Excel.Application") xlApp.Visible = False xlApp.DisplayAlerts = 0 books = xlApp.Workbooks.Open(excel_path,False) books.ExportAsFixedFormat(0, pdf_path) books.Close(False) xlApp.Quit()
import comtypes.client import os def ppt_to_pdf(): #设置路径 input_file_path=os.path.abspath("Python学习规划路线.pptx") output_file_path=os.path.abspath("Python学习规划路线.pdf") #创建PDF powerpoint=comtypes.client.CreateObject("Powerpoint.Application") powerpoint.Visible=1 slides=powerpoint.Presentations.Open(input_file_path) #保存PDF slides.SaveAs(output_file_path,32) slides.Close()
作者:华王
博客:https://www.cnblogs.com/huahuawang/