2019 年 9月 30 日随笔档案 - 叫我大表哥

2019年9月30日

摘要：第一步打开一个电影的评论界面: 哪吒之魔童降世:https://maoyan.com/films/1211270 我们发现这里只显示10条评论,而我们需要爬取10w条数据,所以不能从此页面进行抓包,所以放弃！！！！于是又上网查，终于看到一篇文章说到开发者模式可以直接切换到手机模式; 第二步切换阅读全文

posted @ 2019-09-30 20:19 叫我大表哥阅读(2494) 评论(0) 推荐(0) 编辑

如何提高scrapy的爬取效率

摘要：增加并发：默认scrapy开启的并发线程为32个，可以适当进行增加。在settings配置文件中修改CONCURRENT_REQUESTS = 100值为100,并发设置成了为100。降低日志级别：在运行scrapy时，会有大量日志信息的输出，为了减少CPU的使用率。可以设置log输出信息为INFO或者ERROR即可。在配置文件中编写：LOG_LEVEL = ‘INFO’ 禁止cookie：阅读全文

posted @ 2019-09-30 20:18 叫我大表哥阅读(366) 评论(0) 推荐(1) 编辑

Scrapy爬虫的暂停和启动

摘要： scrapy的每一个爬虫，暂停时可以记录暂停状态以及爬取了哪些url，重启时可以从暂停状态开始爬取过的URL不在爬取实现暂停与重启记录状态方法一：方法二：在settings.py文件里加入下面的代码：使用命令scrapy crawl 爬虫名，就会自动生成一个sharejs.com的目录，然阅读全文

posted @ 2019-09-30 20:17 叫我大表哥阅读(3448) 评论(2) 推荐(0) 编辑

scrapy框架自定制命令

摘要：写好自己的爬虫项目之后，可以自己定制爬虫运行的命令。一、单爬虫在项目的根目录下新建一个py文件，如命名为start.py，写入如下代码：运行start.py即可。二、多爬虫运行 1、在spiders的同级目录创建文件夹，如commands； 2、在这个新建的文件夹下创建一个py文件，如命名为阅读全文

posted @ 2019-09-30 20:17 叫我大表哥阅读(191) 评论(0) 推荐(0) 编辑

英为财情数据采集

摘要：一个股票网站此网站想要从接口直接获取数据必须先获取cookie，也就是进入网站首页时实际上cookie值就已经设置好了,我们需要先去请求首页获取cookie，在带着cookie去请求数据接口从而获取数据阅读全文

posted @ 2019-09-30 20:16 叫我大表哥阅读(3554) 评论(2) 推荐(0) 编辑

数据分析案例-拉勾网招聘信息

摘要： 1、导入模块配置中文 2、从csv中读取爬取得数据采集代码：https://github.com/song-zhixue/lagou 3、进行数据清洗这里我只做了简单得清洗就是去掉空值 4、根据城市招聘情况绘制饼图TOP10 5、根据学历绘制柱状图 6、根据工作经验绘制条形图 7、根据公司规模绘阅读全文

posted @ 2019-09-30 20:10 叫我大表哥阅读(665) 评论(0) 推荐(0) 编辑

爬虫之单线程多任务异步抓取

摘要：协程任务对象绑定回调多任务异步协程多任务异步爬虫 aiohttp使用案列阅读全文

posted @ 2019-09-30 14:53 叫我大表哥阅读(324) 评论(0) 推荐(0) 编辑

叫我大表哥

公告