python读取pdf文档
python读取txt
# coding=utf-8 import requests # 爬虫规则 url = "https://en.wikipedia.org/robots.txt" # 读取网络资源 res = requests.get(url).text # 打印 print(res)
读取pdf
# coding=utf-8 from pdfminer.pdfparser import PDFParser, PDFDocument from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.pdfdevice import PDFDevice from pdfminer.layout import LAParams from pdfminer.converter import PDFPageAggregator import requests # pip install pdfminer3k # 获取文档对象,示例pdf在 https://pypi.org/project/pdfminer3k/1.0.1/#files 下载后的文件夹中 pdfminer3k-master\samples\nonfree fp = open("naacl06-shinyama.pdf", "rb") # print(type(fp)) # 创建一个与文档关联的解释器 parser = PDFParser(fp) # PDF 文档的对象 doc = PDFDocument() # 连接解释器与文档对象 parser.set_document(doc) doc.set_parser(parser) # 初始化文档 doc.initialize("") # 创建PDF资源管理器 resource = PDFResourceManager() # 参数分析器 laparam = LAParams() # 创建一个聚合器 device = PDFPageAggregator(resource, laparams = laparam) # 页面解释器 interpreter = PDFPageInterpreter(resource, device) # 使用文档对象得到页面的集合 for page in doc.get_pages(): # 使用页面解释器来读取 interpreter.process_page(page) # 使用聚合器获得内容 layout = device.get_result() for out in layout: if hasattr(out, "get_text"): print(out.get_text())
分类:
python
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律