摘要: 1.接触过几种爬虫模块: urllib, requests 2.robots协议是什么: requests模块没有使用硬性的语法对该协议进行生效。 scrapy硬性语法对该协议进行了生效 3.如何处理验证码: 云打码平台 打码兔 4.掌握几种数据解析的方式: 正则、xpath、 bs4 5.如何爬取 阅读全文
posted @ 2019-01-02 15:47 Corey0606 阅读(221) 评论(0) 推荐(0) 编辑
摘要: UA池(每一次请求采用池中的随机UA) a) 在中间件类中进行导包 b)封装一个基于UserAgentMiddleware的类,且重写该类 例: middleware.py settings.py 代理池(IP 每次请求的IP地址随机从IP池中获取) middleware.py 阅读全文
posted @ 2019-01-02 15:23 Corey0606 阅读(530) 评论(0) 推荐(0) 编辑
摘要: 大多数在主体内容放在js代码里,想要爬取网页的整个内容 在scrapy里面应用selenium wangyiPro.py 通过spider传递 middleware.py 里面加入selenium操作 阅读全文
posted @ 2019-01-02 15:19 Corey0606 阅读(489) 评论(0) 推荐(0) 编辑
摘要: 1.基于RedisSpider实现的分布式爬虫(网易新闻) a) 代码修改(爬虫类): i.导包: from scrapy_redis.spiders import RedisSpider ii. 将爬虫类的父类修改成RedisSpider iii. 将起始url列表注释,添加一个redis_key 阅读全文
posted @ 2019-01-02 15:03 Corey0606 阅读(257) 评论(0) 推荐(0) 编辑