随笔分类 -  工作时的小零碎

摘要:最近需要处理一堆PDF文档,这堆PDF文档中有图片,并且需要提取出pdf中的图片来识别图片中的文字,老规矩先上代码: import os import fitz import pytesseract from PIL import Image # 设置Tesseract OCR引擎的路径(根据你的系 阅读全文
posted @ 2024-05-21 10:56 哑巴老六 阅读(125) 评论(0) 推荐(0) 编辑
摘要:在Python官方词汇表中,关于hashable类型的定义有这样一段话: An objectis hashable if it has a hash value which never changes during its lifetime (it needs a hash() method), a 阅读全文
posted @ 2024-04-16 13:07 哑巴老六 阅读(43) 评论(0) 推荐(0) 编辑
摘要:python内封装了很多强大的功能库,包括对office办公软件的许多操作,相比较于对word的操作库来说,python对excel表格的操作库要友好很多,其中广为人知的当属于pandas和openpyxl。 我在对excel表操作时注意到,对于一个较大的excel表的操作,在相同环境下使用pand 阅读全文
posted @ 2024-04-16 13:01 哑巴老六 阅读(267) 评论(0) 推荐(0) 编辑
摘要:记录一下关于selenium下XPath和CSS选择器的进阶 XPath轴(axes)和CSS选择器的伪类(pseudo-classes)与伪元素(pseudo-elements)是高级定位技术,可以在复杂的HTML结构中帮助你更精确地定位元素。 1. XPath轴(Axes) XPath轴提供了一 阅读全文
posted @ 2024-04-16 12:37 哑巴老六 阅读(72) 评论(0) 推荐(0) 编辑
摘要:最近在用selenium对网页上的数据进行爬取时发现,通过pyinstaller打包成的.exe文件运行时速度越来越慢,通过查找任务管理器里的句柄数,发现可能存在内存泄漏的原因,记录一下关于内存泄漏的处理方法和代码优化 1. 内存泄漏 如果您怀疑代码可能存在内存泄漏,可以尝试跟踪内存分配: 这里我用 阅读全文
posted @ 2024-04-16 11:20 哑巴老六 阅读(62) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示