摘要: # -*- coding: UTF-8 -*- 2 import xlwings as xw 3 4 wb = xw.Book() # 创建一个临时表格 5 sht = wb.sheets["sheet1"] # 创建sheet页 6 sht.range("A1").value = 1 # 给指定单 阅读全文
posted @ 2020-10-14 09:41 日天达人 阅读(884) 评论(0) 推荐(0) 编辑
摘要: 项目概况: 有一个PDF文件,里面的每页都是一张发票,把每页的发票单独存为一个PDF并用该发票的的发票号码进行文件的命名,发票号码需要OCR识别,即识别下图中红色方块的内容。 一:拆分PDF 现有一个PDF文件,里面有很多张发票图片,每张发票占一页 我们先把这整个PDF拆分为单独的PDF 使用PyP 阅读全文
posted @ 2020-04-01 16:05 日天达人 阅读(1036) 评论(1) 推荐(1) 编辑
摘要: 一切都要从一只蝙蝠说起。。 因为疫情原因,这个月远程办公(摸鱼),看漫画花了1000多大洋,看着自己的支付宝余额,起了白嫖的邪念。。 网上有些漫画网站,点击下一页的时候,会跳出某些网站,十分不便,而且每次换页都需要点击,所以我决定把漫画全都爬下来,每章拼接成一张长图,可以看得舒服一些 工具:pych 阅读全文
posted @ 2020-03-02 17:44 日天达人 阅读(2759) 评论(1) 推荐(0) 编辑
摘要: 一.目标 浏览网页的时候,看见哪个元素,就能截取哪个元素当图片,不管那个元素有多长 二.所用工具和第三方库 python ,PIL,selenium pycharm 三.代码部分 长截图整体思路: 1.获取元素 2.移动,截图,移动,截图,直到抵达元素的底部 3.把截图按照元素所在位置切割,在所有图 阅读全文
posted @ 2019-11-13 17:25 日天达人 阅读(2030) 评论(0) 推荐(0) 编辑
摘要: 1.安装selenium pip install selenium 2.安装IE浏览器driver http://selenium-release.storage.googleapis.com/index.html 进入索引页,首先选择版本号,IEDriverServer的版本号和Selenium的 阅读全文
posted @ 2019-10-28 14:30 日天达人 阅读(1335) 评论(0) 推荐(0) 编辑
摘要: 前排提示:这个模块不是用于对陌生人进行短信轰炸和电话骚扰的,这个模块也没有这个功能,如果是抱着这个心态来的,可以关闭网页了 语言:python 步骤一:安装twilio模块 pip install twilio 步骤二:进入官网注册 https://www.twilio.com 注册完毕之后,会有一 阅读全文
posted @ 2019-08-01 17:33 日天达人 阅读(1014) 评论(0) 推荐(0) 编辑
摘要: pdfplumber 缺省通过表格线来区分行和列,所以下列情况是无法提取出表格的:* 你的表格是图片,通过选择可以确定是否图片* 你的表格不是用线来分隔,或者分隔不全,例如列用线,行没线这种情况下,你就需要尝试:page0.extract_tables(table_settings={}) 阅读全文
posted @ 2019-08-01 15:41 日天达人 阅读(2867) 评论(0) 推荐(0) 编辑
摘要: 今天写一个demo,要求是对表格数据用价格为key进行排序 样本数据有两种格式: 一.第一行是一个大单元格 处理步骤: 在不变参数的情况下读取表格数据: 结果如下: 可以看见表头: Unnamed: 4即为价格的表头,有了表头就可以用排序进行数据排列,把排列好的数据写入文件中 二.表格数据无表头 和 阅读全文
posted @ 2019-07-22 15:18 日天达人 阅读(468) 评论(2) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2019-07-22 14:51 日天达人 阅读(145) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2019-07-22 14:46 日天达人 阅读(175) 评论(0) 推荐(0) 编辑