提取pdf

参考

import pdfplumber

file_path = 'bc8a51da1d5429cc1b66a7e6b2203299_b611c36fbbfcdb174c252689afb0baa0_8.pdf'

pdf_content = pdfplumber.open(file_path)

all_table = []
for page in pdf_content.pages:
    # print(page.find_tables())
    all_table.extend(page.find_tables())
qianxi_table = all_table[4].extract()
duanqijiekuan_table = all_table[7].extract()

# print(page.extract_text())  # 逐行读取文字内容
# print(page.extract_tables())  # 一个table用一个[]包起来,里面的每一行用[]包起来

 

posted @ 2024-05-07 15:55  tslam  阅读(5)  评论(0编辑  收藏  举报