随笔分类 -  python3爬虫基础

爬虫
摘要:urllib主要包含request(请求模块)、error(异常处理模块)、parse(工具模块)、robotparser(识别网站的robots.txt文件,是否允许爬取)。 request(请求模块) 1、request.urlopen(发送请求) import urllib.request r 阅读全文
posted @ 2019-08-01 16:03 大道至简,小而蕴真 阅读(251) 评论(0) 推荐(0) 编辑
摘要:刚学到爬虫识别验证码,所以自己建一个获取验证码的类,感兴趣的道友,可以看看,代码如下: 阅读全文
posted @ 2019-06-18 09:39 大道至简,小而蕴真 阅读(1748) 评论(0) 推荐(0) 编辑
摘要:OCR OCR,即Optical Character Recognition,光学字符识别,是指通过扫描字符,然后通过其形状将其翻译成电子文本的过程。对于图形验证码来说,它们都是一些不规则的字符,这些字符确实是由字符稍加扭曲变换得到的内容。 例如,对于验证码,我们可以使用OCR技术来将其转化为电子文 阅读全文
posted @ 2019-06-17 11:44 大道至简,小而蕴真 阅读(3926) 评论(0) 推荐(0) 编辑
摘要:1、发送不同的请求 2、GET请求 { "args": {}, "headers": { "Accept": "*/*", "Accept-Encoding": "gzip, deflate", "Host": "httpbin.org", "User-Agent": "python-request 阅读全文
posted @ 2019-05-28 16:11 大道至简,小而蕴真 阅读(255) 评论(0) 推荐(0) 编辑
摘要:1. urlparse() 解析链接,注意,返回值比3多一个params的属性 <class 'urllib.parse.ParseResult'> ParseResult(scheme='http', netloc='www.baidu.com', path='/index.html', para 阅读全文
posted @ 2019-05-28 15:45 大道至简,小而蕴真 阅读(621) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示