摘要: pandas高级操作 替换操作 替换操作可以同步作用于Series和DataFrame中 单值替换 普通替换: 替换所有符合要求的元素:to_replace=15,value='e' 按列指定单值替换: to_replace={列标签:替换值} value='value' 多值替换 列表替换: to 阅读全文
posted @ 2019-12-14 15:52 adrian-boy 阅读(548) 评论(0) 推荐(1) 编辑
摘要: plt.plot()绘制线性图 绘制单条线形图 绘制多条线形图 设置坐标系的比例plt.figure(figsize=(a,b)) 设置图例legend() 设置轴的标识 图例保存 fig = plt.figure() plt.plot(x,y) figure.savefig() 曲线的样式和风格 阅读全文
posted @ 2019-12-14 15:49 adrian-boy 阅读(455) 评论(0) 推荐(0) 编辑
摘要: 级联操作 pd.concat, pd.append pandas使用pd.concat函数,与np.concatenate函数类似,只是多了一些参数: 匹配级联 employee group hire_date 0 Bobs Accounting 1998 1 Linda Product 2017 阅读全文
posted @ 2019-12-12 21:10 adrian-boy 阅读(540) 评论(0) 推荐(0) 编辑
摘要: 为什么学习pandas numpy已经可以帮助我们进行数据的处理了,那么学习pandas的目的是什么呢? numpy能够帮助我们处理的是数值型的数据,当然在数据分析中除了数值型的数据还有好多其他类型的数据(字符串,时间序列),那么pandas就可以帮我们很好的处理除了数值型的其他数据! 什么是pan 阅读全文
posted @ 2019-12-11 21:54 adrian-boy 阅读(1214) 评论(0) 推荐(0) 编辑
摘要: 重点 索引和切片 级联 聚合操作 统计操作 矩阵 什么是数据分析 是把隐藏在一些看似杂乱无章的数据背后的信息提炼出来,总结出所研究对象的内在规律 数据分析是用适当的方法对收集来的大量数据进行分析,帮助人们做出判断,以便采取适当的行动 商品采购量的多少 总部向各个地区代理的发货量 为什么学习数据分析 阅读全文
posted @ 2019-12-11 20:27 adrian-boy 阅读(2047) 评论(0) 推荐(0) 编辑
摘要: 增量式 概念:检测网站数据更新的情况。爬取到最新更新出来的数据。 核心:去重 记录表:需要持久化存储。redis中set 记录爬取过的信息 爬取过的电影详情页的url:对应的是深度爬取 数据指纹:对应的非深度爬取(一张页面的数据更新) 数据指纹:一组数据的唯一标识 代码实现: pipelines.p 阅读全文
posted @ 2019-12-11 09:09 adrian-boy 阅读(253) 评论(0) 推荐(0) 编辑
摘要: 分布式 概念:可以使用多台电脑组件一个分布式机群,让其执行同一组程序,对同一组网络资源进行联合爬取。 原生的scrapy是无法实现分布式 调度器无法被共享 管道无法被共享 基于 scrapy+redis(scrapy&scrapy redis组件)实现分布式 组件作用: 提供可被共享的管道和调度器 阅读全文
posted @ 2019-12-11 09:08 adrian-boy 阅读(1235) 评论(0) 推荐(0) 编辑
摘要: CrawlSpider:Spider的一个子类 实现全站数据爬取 实现流程:在终端中执行 链接提取器 可以根据指定的规则(allow=正则)进行链接的提取 Rule规则解析器 将链接提取器提取到的链接进行请求发送,然后根据指定的规则(callback)进行数据解析 follow=True:将链接提取 阅读全文
posted @ 2019-12-11 09:07 adrian-boy 阅读(166) 评论(0) 推荐(0) 编辑
摘要: 中间件的使用 作用:拦截所有的请求和响应 拦截请求:process_request拦截正常的请求,process_exception拦截异常的请求 篡改请求的头信息 代理 注意: ,return request的作用是将修正后的请求重新发送 拦截响应 以爬取网易新闻为例 篡改响应数据 不满足需求的响 阅读全文
posted @ 2019-12-11 09:06 adrian-boy 阅读(241) 评论(0) 推荐(0) 编辑
摘要: scrapy的大文件下载(基于一种形式的管道类实现) 爬虫类中将解析到的图片地址存储到item,将item提交给指定的管道 在管道文件中导包: 基于 父类,自定义一个管道类 重写管道类中的如下三个方法: settings.py文件中 爬虫文件 阅读全文
posted @ 2019-12-11 09:05 adrian-boy 阅读(464) 评论(0) 推荐(0) 编辑