2019 年 10月 9 日随笔档案 - 一知.半解

2019年10月9日

摘要：什么叫做分布式爬虫？分布式爬虫，就是多台机器共用一个scrapy—redis程序高效爬取数据，为啥要用分布式爬虫？其一：因为多台机器上部署的scrapy会各自拥有各自的调度器，这样就使得多台机器无法分配start_urls列表中的url。（多台机器无法共享同一个调度器）其二：多台机器爬取到的阅读全文

posted @ 2019-10-09 23:02 一知.半解阅读(215) 评论(0) 推荐(0) 编辑

14-scrapy框架(CrawlSpider)

摘要： CrawlSpider介绍 CrawlSpider是Spider的一个子类，意味着拥有Spider的方法，以及自己的方法，更加高效简洁。其中最显著的功能就是"LinkExtractors"链接提取器。Spider是所有爬虫的基类，其设计只是为了爬取start_urls列表中的网页。然而CrawlSp 阅读全文

posted @ 2019-10-09 21:26 一知.半解阅读(204) 评论(0) 推荐(0) 编辑

05-pandas索引切片读取数据缺失数据处理

摘要：引入 numpy已经能够帮助我们处理数据，能够结合matplotlib解决我们数据分析的问题，那么pandas学习的目的在什么地方呢？ numpy能够帮我们处理处理数值型数据，但是这还不够很多时候，我们的数据除了数值之外，还有字符串，还有时间序列等比如：我们通过爬虫获取到了存储在数据库中的数据阅读全文

posted @ 2019-10-09 10:16 一知.半解阅读(1235) 评论(0) 推荐(2) 编辑

一知....半解

喜欢何帆老师的读书俱乐部的朋友，可以加我QQ(1259553287)，志同道合，一起营造环境加油。

公告