python操作PDF------提取PDF文字内容
# 安装 pip install pdfplumber import pdfplumber # 利用pdfplumber提取文字 with pdfplumber.open('基于python的网页爬虫.pdf') as pdf: first_page = pdf.pages[0] print(first_page.extract_text()) # 利用pdfplumber单个提取表格 with pdfplumber.open('基于python的网页爬虫.pdf') as pdf: first_page = pdf.pages[0] print(first_page.extract_table()) # 利用pdfplumber多个提取表格 with pdfplumber.open('基于python的网页爬虫.pdf') as pdf: first_page = pdf.pages[0] for table in first_page.extract_tables(): print(table) # 利用pdfplumber单个提取财报 table_settings: 提取表格是的设定 with pdfplumber.open('基于python的网页爬虫.pdf') as pdf: first_page = pdf.pages[0] table = first_page.extract_tables( table_settings={ 'vertical_strategy': 'text', 'horizontal_strategy': 'text' } ) new_table = [] for row in table: new_row = [] # 如果不是空行 if not ''.join([str(item) for item in row]) == '': # 合并单词 new_row.append(''.join([str(item) if item else '' for item in row[:3]])) new_row += row[3:] new_table.append(new_row) print(new_table)
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· winform 绘制太阳,地球,月球 运作规律
· AI与.NET技术实操系列(五):向量存储与相似性搜索在 .NET 中的实现
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 上周热点回顾(3.3-3.9)