2019 年 6月 3 日随笔档案 - studybrother

2019年6月3日

摘要： 1. 4567电影修改下面的配置上边是设置的三个部分配置注意要注释掉,上边的默认君子协定爬虫中中间件的爬取下面我们看一下中间件文件中的内容. 我们只需要保留中间件中的三个process方法即可. 这个类是批量拦击所有的请求和响应一些功能: 上边的配置文件settings.py其实不写ua 阅读全文

posted @ 2019-06-03 23:24 studybrother 阅读(165) 评论(0) 推荐(0) 编辑

小爬爬6:2请求传参

摘要： 1.scrapy的请求传参: 五大组件:所有的数据流都会走"引擎" "请求对象" 引擎怎么知道什么时间调用什么方法? 引擎:接收所有数据,进行事物的触发引擎根据接收不同类型的数据流决定下一步触发什么方法. 2. 上图最后一条修改成下图,加上网址 settings.py三件套拿取ul的xpath 阅读全文

posted @ 2019-06-03 23:15 studybrother 阅读(205) 评论(0) 推荐(0) 编辑

小爬爬6.scrapy回顾和手动请求发送

摘要： 1.数据结构回顾 2.回顾scrapy 3.手动请求发送阳光热点问政平台:http://wz.sun0769.com/index.php/question/questionType?type=4 我们不能将每个url都放在start_urls中如何和实现全站数据的爬取?定位到某个板块将所有的数据阅读全文

posted @ 2019-06-03 22:12 studybrother 阅读(291) 评论(0) 推荐(0) 编辑

小爬爬5:scrapy介绍3持久化存储

摘要：一.两种持久化存储的方式 1.基于终端指令的吃持久化存储: 特点:终端指令的持久化存储,只可以将parse方法的返回值存储到磁盘文件因此我们需要将上一篇文章中的author和content作为返回值的内容,我们可以将所有内容数据放在列表中, 每个字典存储作者名字和内容,最好将定义的列表返回即可我阅读全文

posted @ 2019-06-03 18:15 studybrother 阅读(216) 评论(0) 推荐(0) 编辑

studybrother

爱技术,爱生活! Love technology, love life!

公告