摘要:
Pandas的数据结构 1. Series 类似一维数组的对象, 操作像列表 + value : 一组数据 + index : 相关数据的索引标签 1. Series的创建 方式1 : 由列表或numpy数组创建 2. head()和tail() 3. 检测缺失数据和清洗空值 4. Series之间 阅读全文
摘要:
1. 注 : np表示numpy的简写, np.xxx()表示类方法, ndarray.xxx()表示通过对象调用方法 2. 创建ndarray 1. 使用np.array()创建 + 一维数组创建 + 二维数组创建 注 : numpy默认所有的数据类型一致, 优先级str float int 3. 阅读全文
摘要:
一. 分布式 1. 概念 : 需要搭建一个分布式的机群, 然后在机群的每一台电脑中执行同一组程序, 让其对某一个网站的数据进行联合分布爬取 2. scrapy + scrapy_redis实现分布式 scrapy_redis组件的功能 : + 提供可被共享的调度器和管道 + 数据只能存储到redis 阅读全文
摘要:
图片懒加载 需要使用未加载图片的伪属性@src2, 在浏览器下滑过程中@src2会自动变成@src + 管道类文件 CrawlSpider 连接提取器 : LinkExtractor 规则解析器 : Rule 使用流程 : + 新建工程 + cd 工程 + 新建爬虫文件 : scrapy gensp 阅读全文