python中pdf文件解析包pdfplumber的简单使用
pdfplumber不仅可以解析提取pdf文件中的文本,还可以提取表格
一、安装
pip3 install pdfplumber
二、使用
# coding:utf-8 import pdfplumber with pdfplumber.open('./test.pdf') as pdf: # 遍历每个页面 for page in pdf.pages: # 获取当前页面的全部文本信息,包括表格中的文字,没有内容则打印None print(page.extract_text()) # 提取当前页面中的所有表格 print(page.extract_tables()) #没有表格,则返回[],有表格则返回[[[row1],[row2]...],[[row1],[row2]...]...] # 遍历提取到的每个表 for table in page.extract_tables(): print(table) # [[row1],[row2]...] # 遍历每一行数据 for row in table: print(row) # ['xxx','xxx'...] # 每一页打印一条分割线 print('---------- 分割线 ----------')
# test.pdf是需要解析的pdf文件