摘要: Pandas的数据结构 1. Series 类似一维数组的对象, 操作像列表 + value : 一组数据 + index : 相关数据的索引标签 1. Series的创建 方式1 : 由列表或numpy数组创建 2. head()和tail() 3. 检测缺失数据和清洗空值 4. Series之间 阅读全文
posted @ 2020-03-05 22:36 逸枚俗人 阅读(124) 评论(0) 推荐(0) 编辑
摘要: 1. 注 : np表示numpy的简写, np.xxx()表示类方法, ndarray.xxx()表示通过对象调用方法 2. 创建ndarray 1. 使用np.array()创建 + 一维数组创建 + 二维数组创建 注 : numpy默认所有的数据类型一致, 优先级str float int 3. 阅读全文
posted @ 2020-03-05 18:22 逸枚俗人 阅读(116) 评论(0) 推荐(0) 编辑
摘要: 一. 分布式 1. 概念 : 需要搭建一个分布式的机群, 然后在机群的每一台电脑中执行同一组程序, 让其对某一个网站的数据进行联合分布爬取 2. scrapy + scrapy_redis实现分布式 scrapy_redis组件的功能 : + 提供可被共享的调度器和管道 + 数据只能存储到redis 阅读全文
posted @ 2020-03-05 13:41 逸枚俗人 阅读(168) 评论(0) 推荐(0) 编辑
摘要: 图片懒加载 需要使用未加载图片的伪属性@src2, 在浏览器下滑过程中@src2会自动变成@src + 管道类文件 CrawlSpider 连接提取器 : LinkExtractor 规则解析器 : Rule 使用流程 : + 新建工程 + cd 工程 + 新建爬虫文件 : scrapy gensp 阅读全文
posted @ 2020-03-05 10:31 逸枚俗人 阅读(279) 评论(0) 推荐(0) 编辑