摘要: 第一步 打开一个电影的评论界面: 哪吒之魔童降世:https://maoyan.com/films/1211270 我们发现这里只显示10条评论,而我们需要爬取10w条数据,所以不能从此页面进行抓包,所以放弃!!!! 于是又上网查,终于看到一篇文章说到开发者模式可以直接切换到手机模式; 第二步 切换 阅读全文
posted @ 2019-09-30 20:19 叫我大表哥 阅读(2494) 评论(0) 推荐(0) 编辑
摘要: 增加并发: 默认scrapy开启的并发线程为32个,可以适当进行增加。在settings配置文件中修改CONCURRENT_REQUESTS = 100值为100,并发设置成了为100。 降低日志级别: 在运行scrapy时,会有大量日志信息的输出,为了减少CPU的使用率。可以设置log输出信息为INFO或者ERROR即可。在配置文件中编写:LOG_LEVEL = ‘INFO’ 禁止cookie: 阅读全文
posted @ 2019-09-30 20:18 叫我大表哥 阅读(366) 评论(0) 推荐(1) 编辑
摘要: scrapy的每一个爬虫,暂停时可以记录暂停状态以及爬取了哪些url,重启时可以从暂停状态开始爬取过的URL不在爬取 实现暂停与重启记录状态 方法一: 方法二: 在settings.py文件里加入下面的代码: 使用命令scrapy crawl 爬虫名,就会自动生成一个sharejs.com的目录,然 阅读全文
posted @ 2019-09-30 20:17 叫我大表哥 阅读(3448) 评论(2) 推荐(0) 编辑
摘要: 写好自己的爬虫项目之后,可以自己定制爬虫运行的命令。 一、单爬虫 在项目的根目录下新建一个py文件,如命名为start.py,写入如下代码: 运行start.py即可。 二、多爬虫运行 1、在spiders的同级目录创建文件夹,如commands; 2、在这个新建的文件夹下创建一个py文件,如命名为 阅读全文
posted @ 2019-09-30 20:17 叫我大表哥 阅读(191) 评论(0) 推荐(0) 编辑
摘要: 一个股票网站 此网站想要从接口直接获取数据必须先获取cookie,也就是进入网站首页时实际上cookie值就已经设置好了,我们需要先去请求首页获取cookie,在带着cookie去请求数据接口从而获取数据 阅读全文
posted @ 2019-09-30 20:16 叫我大表哥 阅读(3554) 评论(2) 推荐(0) 编辑
摘要: 1、导入模块配置中文 2、从csv中读取爬取得数据 采集代码:https://github.com/song-zhixue/lagou 3、进行数据清洗 这里我只做了简单得清洗就是去掉空值 4、根据城市招聘情况绘制饼图TOP10 5、根据学历绘制柱状图 6、根据工作经验绘制条形图 7、根据公司规模绘 阅读全文
posted @ 2019-09-30 20:10 叫我大表哥 阅读(665) 评论(0) 推荐(0) 编辑
摘要: 协程 任务对象绑定回调 多任务异步协程 多任务异步爬虫 aiohttp使用 案列 阅读全文
posted @ 2019-09-30 14:53 叫我大表哥 阅读(324) 评论(0) 推荐(0) 编辑