摘要: 1.Python下tesseract的简单使用 2.网络下载验证码识别 3.tesserocr识别验证码 阅读全文
posted @ 2018-10-26 18:37 知你几分 阅读(2771) 评论(0) 推荐(0) 编辑
摘要: 1.普通爬取数据 """普通爬取数据爬虫,只要有反爬,cookie就不是很稳定。并不利于数据爬取""" import requests import re from lxml import etree headers = { "User-Agent": "Mozilla/5.0 (Windows N 阅读全文
posted @ 2018-10-26 13:49 知你几分 阅读(2555) 评论(0) 推荐(0) 编辑
摘要: 1.学习之前请下载chromedriver等之类的浏览器插件 """ 动态渲染页面页面抓取。 JavaScript除了可以Ajax直接获取数据之外,还可以通过计算生成,加密参数等形式 来更安全的获取数据。这些通过特别处理的数据我们很难找出规律直接Ajax去获取。 为了解决这些问题,我们可以直接使用模 阅读全文
posted @ 2018-10-26 08:58 知你几分 阅读(889) 评论(0) 推荐(0) 编辑