提取pdf

参考

复制代码
import pdfplumber

file_path = 'bc8a51da1d5429cc1b66a7e6b2203299_b611c36fbbfcdb174c252689afb0baa0_8.pdf'

pdf_content = pdfplumber.open(file_path)

all_table = []
for page in pdf_content.pages:
    # print(page.find_tables())
    all_table.extend(page.find_tables())
qianxi_table = all_table[4].extract()
duanqijiekuan_table = all_table[7].extract()

# print(page.extract_text())  # 逐行读取文字内容
# print(page.extract_tables())  # 一个table用一个[]包起来,里面的每一行用[]包起来
复制代码

 

posted @   tslam  阅读(6)  评论(0编辑  收藏  举报
(评论功能已被禁用)
相关博文:
阅读排行:
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
· Manus爆火,是硬核还是营销?
· 终于写完轮子一部分:tcp代理 了,记录一下
· 别再用vector<bool>了!Google高级工程师:这可能是STL最大的设计失误
· 单元测试从入门到精通
点击右上角即可分享
微信分享提示