随笔分类 - python3爬虫基础
爬虫
摘要:urllib主要包含request(请求模块)、error(异常处理模块)、parse(工具模块)、robotparser(识别网站的robots.txt文件,是否允许爬取)。 request(请求模块) 1、request.urlopen(发送请求) import urllib.request r
阅读全文
摘要:刚学到爬虫识别验证码,所以自己建一个获取验证码的类,感兴趣的道友,可以看看,代码如下:
阅读全文
摘要:OCR OCR,即Optical Character Recognition,光学字符识别,是指通过扫描字符,然后通过其形状将其翻译成电子文本的过程。对于图形验证码来说,它们都是一些不规则的字符,这些字符确实是由字符稍加扭曲变换得到的内容。 例如,对于验证码,我们可以使用OCR技术来将其转化为电子文
阅读全文
摘要:1、发送不同的请求 2、GET请求 { "args": {}, "headers": { "Accept": "*/*", "Accept-Encoding": "gzip, deflate", "Host": "httpbin.org", "User-Agent": "python-request
阅读全文
摘要:1. urlparse() 解析链接,注意,返回值比3多一个params的属性 <class 'urllib.parse.ParseResult'> ParseResult(scheme='http', netloc='www.baidu.com', path='/index.html', para
阅读全文