随笔分类 - 工作时的小零碎
摘要:最近需要处理一堆PDF文档,这堆PDF文档中有图片,并且需要提取出pdf中的图片来识别图片中的文字,老规矩先上代码: import os import fitz import pytesseract from PIL import Image # 设置Tesseract OCR引擎的路径(根据你的系
阅读全文
摘要:在Python官方词汇表中,关于hashable类型的定义有这样一段话: An objectis hashable if it has a hash value which never changes during its lifetime (it needs a hash() method), a
阅读全文
摘要:python内封装了很多强大的功能库,包括对office办公软件的许多操作,相比较于对word的操作库来说,python对excel表格的操作库要友好很多,其中广为人知的当属于pandas和openpyxl。 我在对excel表操作时注意到,对于一个较大的excel表的操作,在相同环境下使用pand
阅读全文
摘要:记录一下关于selenium下XPath和CSS选择器的进阶 XPath轴(axes)和CSS选择器的伪类(pseudo-classes)与伪元素(pseudo-elements)是高级定位技术,可以在复杂的HTML结构中帮助你更精确地定位元素。 1. XPath轴(Axes) XPath轴提供了一
阅读全文
摘要:最近在用selenium对网页上的数据进行爬取时发现,通过pyinstaller打包成的.exe文件运行时速度越来越慢,通过查找任务管理器里的句柄数,发现可能存在内存泄漏的原因,记录一下关于内存泄漏的处理方法和代码优化 1. 内存泄漏 如果您怀疑代码可能存在内存泄漏,可以尝试跟踪内存分配: 这里我用
阅读全文