摘要: 基本思路 Based on Selenium(模拟浏览器动作) 1. 模拟点击验证按钮 2. 识别滑动缺口的位置 3. 模拟拖动模块。 对于3 反爬虫策略:机器学习轨迹识别。只有模拟人的移动轨迹才可以,先快后慢 阅读全文
posted @ 2018-08-26 16:00 Rocin 阅读(429) 评论(0) 推荐(0) 编辑
摘要: 用OCR来识别 直接识别效果不好,因为验证码内的多余线条干扰了图片的识别。先转为灰度图像,再二值化。经实践证明,该方法不是100%正确。 python 获取图片 curl X GET http://my.cnki.net/elibregister/CheckCode.aspx import tess 阅读全文
posted @ 2018-08-26 15:00 Rocin 阅读(273) 评论(0) 推荐(0) 编辑