2018年11月17日

摘要: 我们接触到的很多文档资料都是以pdf格式存在的,比如:论文,技术文档,标准文件,书籍等。pdf格式使得用机器从中提取信息格外困难。 为了解决这个问题,我找到了几种解决方案,最后选择了python上的pdfplumber库,安装和使用都相对比较方便,效果也还不错,所以下面介绍这个库的安装与使用。 安装 阅读全文
posted @ 2018-11-17 18:34 帅胡 阅读(2125) 评论(0) 推荐(0) 编辑
摘要: 1 import pdfplumber 2 3 with pdfplumber.open('test.pdf') as pdf: 4 #page_count = len(pdf.pages()) 5 p0 = pdf.pages[0] 6 # 获取文本,直接得到字符串,包括了换行符【与PDF上的换行位置一致,而不是实际的“段落”】 7 #print... 阅读全文
posted @ 2018-11-17 18:31 帅胡 阅读(1869) 评论(0) 推荐(0) 编辑
摘要: 1 # -*- coding: utf-8 -*- 2 import xlsxwriter 3 4 workbook = xlsxwriter.Workbook('test.xlsx') 5 worksheet = workbook.add_worksheet("test") 6 worksheet.set_column("A:A", 40) #设置列宽度 7 worksh... 阅读全文
posted @ 2018-11-17 13:33 帅胡 阅读(2187) 评论(0) 推荐(0) 编辑

导航