摘要: zzcms8.2 链接:https://pan.baidu.com/s/1NHAcGAX2C3dG2zWVvej7hw 提取码:tatj 0x00查看目录结构 ********************************* * * * ZZCMS产品版目录结构 * * * *********** 阅读全文
posted @ 2020-10-08 20:58 薛定谔的猫~ 阅读(600) 评论(2) 推荐(0) 编辑
摘要: 经过post方法之后,因为有动态的value值所以再此回到用webdriver的解决上,但是在下载图片上会打开新打开一个链接,导致与网页图片不同即验证码同步问题,没办法只能想了一个笨法子,网页截图,唉!因为只是验证码问题所以只上获取验证码的代码了,其他的在第六节都有把下载的代码换一下就行。 当时在截 阅读全文
posted @ 2019-09-24 12:07 薛定谔的猫~ 阅读(338) 评论(0) 推荐(0) 编辑
摘要: 在第一次登入时遇到这个问题,页面验证码与下载下来需要识别的验证码不同的问题,从网上查寻说是叫验证码同步问题。发现是用cookie解决的,那次cookie介绍到通过cookie就可以实现时间戳同步问题,经过测试发现用同一个cookie打开上次的验证码网页是相同的。登入就是向后台服务器提交一个表单,那么 阅读全文
posted @ 2019-09-22 14:47 薛定谔的猫~ 阅读(715) 评论(0) 推荐(0) 编辑
摘要: 这时跳转表单,填写账号密码,识别验证码这三项都已经完成,下面就开始模拟登入了(提前说明一下,这次模拟登入是在每张验证码都有固定的url,在下载到本地的验证码需要与打开网页时的验证码相同才行。你可以在网页中找到验证码的src打开两次,如果图片相同那么下面的登入应该就能成功了,如果不同那么下一篇介绍怎么 阅读全文
posted @ 2019-09-22 09:52 薛定谔的猫~ 阅读(365) 评论(0) 推荐(0) 编辑
摘要: 验证码处理之后就需要对处理的验证码进行识别训练,这里用Tesseract-ocr工具进行识别,用jTessBoxeditor进行训练生成模板。 一,对图片进行处理 利用上一篇代码对图片进行降噪处理,得到较为清晰地图片。 这里需要你在需要登入的网站中提取大量的验证码图片,在获取图片时,查看网站的登入框 阅读全文
posted @ 2019-09-21 18:41 薛定谔的猫~ 阅读(760) 评论(0) 推荐(0) 编辑
摘要: 清理图片,对图片进行二值化,去边框,去干扰线,去点 以上代码改自 老板丶鱼丸粗面 的 《python验证码识别》对于验证码识别大佬那还有跟详细的介绍。 附链接:https://www.cnblogs.com/qqandfqr/p/7866650.html 阅读全文
posted @ 2019-09-21 15:36 薛定谔的猫~ 阅读(519) 评论(0) 推荐(0) 编辑
摘要: 学习的课本为《python网络数据采集》,大部分代码来此此书。 大多数网页表单都是由一些HTML 字段、一个提交按钮、一个在表单处理完之后跳转的“执行结果”(表单属性action 的值)页面构成。虽然这些HTML 字段通常由文字内容构成,但是也可以实现文件上传或其他非文字内容。这些都为抓取数据的阻碍 阅读全文
posted @ 2019-09-14 16:14 薛定谔的猫~ 阅读(1327) 评论(0) 推荐(0) 编辑
摘要: 学习的课本为《python网络数据采集》,大部分代码来此此书。 做完请求头的处理,cookie的值也是区分用户和机器的一个方式。所以也要处理一下cookie,需要用requests模块,废话不多说开搞。 1.一般情况下python修改cookie 首先获得cookie 2.对于变化cookie 如果 阅读全文
posted @ 2019-09-14 11:10 薛定谔的猫~ 阅读(765) 评论(0) 推荐(0) 编辑
摘要: 学习的课本为《python网络数据采集》,大部分代码来此此书。 网络爬虫爬取数据首先就是要有爬取的权限,没有爬取的权限再好的代码也不能运行。所以首先要伪装自己的爬虫,让爬虫不像爬虫而是像人一样访问网页。废话不多说开始伪装。 1.修改请求头 这里要用到python的requests的模块,首相介绍一下 阅读全文
posted @ 2019-09-14 09:50 薛定谔的猫~ 阅读(2244) 评论(0) 推荐(0) 编辑