2020 年 3月 5 日随笔档案 - 逸枚俗人

2020年3月5日

摘要： Pandas的数据结构 1. Series 类似一维数组的对象, 操作像列表 + value : 一组数据 + index : 相关数据的索引标签 1. Series的创建方式1 : 由列表或numpy数组创建 2. head()和tail() 3. 检测缺失数据和清洗空值 4. Series之间阅读全文

posted @ 2020-03-05 22:36 逸枚俗人阅读(127) 评论(0) 推荐(0) 编辑

numpy

摘要： 1. 注 : np表示numpy的简写, np.xxx()表示类方法, ndarray.xxx()表示通过对象调用方法 2. 创建ndarray 1. 使用np.array()创建 + 一维数组创建 + 二维数组创建注 : numpy默认所有的数据类型一致, 优先级str float int 3. 阅读全文

posted @ 2020-03-05 18:22 逸枚俗人阅读(120) 评论(0) 推荐(0) 编辑

scrapy入门(四)分布式和增量式

摘要：一. 分布式 1. 概念 : 需要搭建一个分布式的机群, 然后在机群的每一台电脑中执行同一组程序, 让其对某一个网站的数据进行联合分布爬取 2. scrapy + scrapy_redis实现分布式 scrapy_redis组件的功能 : + 提供可被共享的调度器和管道 + 数据只能存储到redis 阅读全文

posted @ 2020-03-05 13:41 逸枚俗人阅读(172) 评论(0) 推荐(0) 编辑

scrapy入门(三)图片爬取和ScrawlSpider

摘要：图片懒加载需要使用未加载图片的伪属性@src2, 在浏览器下滑过程中@src2会自动变成@src + 管道类文件 CrawlSpider 连接提取器 : LinkExtractor 规则解析器 : Rule 使用流程 : + 新建工程 + cd 工程 + 新建爬虫文件 : scrapy gensp 阅读全文

posted @ 2020-03-05 10:31 逸枚俗人阅读(282) 评论(0) 推荐(0) 编辑

逸枚

公告