2019 年 1月 2 日随笔档案 - Corey0606

2019年1月2日

摘要： 1.接触过几种爬虫模块： urllib, requests 2.robots协议是什么： requests模块没有使用硬性的语法对该协议进行生效。 scrapy硬性语法对该协议进行了生效 3.如何处理验证码：云打码平台打码兔 4.掌握几种数据解析的方式：正则、xpath、 bs4 5.如何爬取阅读全文

posted @ 2019-01-02 15:47 Corey0606 阅读(221) 评论(0) 推荐(0) 编辑

UA池和代理池（IP)

摘要： UA池(每一次请求采用池中的随机UA) a) 在中间件类中进行导包 b)封装一个基于UserAgentMiddleware的类，且重写该类例： middleware.py settings.py 代理池（IP 每次请求的IP地址随机从IP池中获取） middleware.py 阅读全文

posted @ 2019-01-02 15:23 Corey0606 阅读(530) 评论(0) 推荐(0) 编辑

selenium 在爬虫中的应用

摘要：大多数在主体内容放在js代码里，想要爬取网页的整个内容在scrapy里面应用selenium wangyiPro.py 通过spider传递 middleware.py 里面加入selenium操作阅读全文

posted @ 2019-01-02 15:19 Corey0606 阅读(489) 评论(0) 推荐(0) 编辑

基于scrapy-redis的第二种形式的分布式爬虫（把普通scrapy框架转成分布式）

摘要： 1.基于RedisSpider实现的分布式爬虫（网易新闻） a) 代码修改（爬虫类）： i.导包： from scrapy_redis.spiders import RedisSpider ii. 将爬虫类的父类修改成RedisSpider iii. 将起始url列表注释，添加一个redis_key 阅读全文

posted @ 2019-01-02 15:03 Corey0606 阅读(257) 评论(0) 推荐(0) 编辑

COREY

公告