摘要: 数据表的导出和导入: https://blog.csdn.net/wangmx1993328/article/details/82663617 阅读全文
posted @ 2019-08-25 22:21 会走的树 阅读(93) 评论(0) 推荐(0) 编辑
摘要:  Yarn cluster 和 Yarn client比较 Yarn client: 用于测试,Driver在本地可以看到所有的log方便调试。但是和yarn通信流量过大。 Yarn cluster:用于生产环境,查看log不方便。 阅读全文
posted @ 2019-08-25 22:06 会走的树 阅读(243) 评论(0) 推荐(0) 编辑
摘要: 将窄依赖关系的尽量划分到一个Stage里面,来实现流水线计算提高效率。 阅读全文
posted @ 2019-08-25 22:05 会走的树 阅读(676) 评论(0) 推荐(0) 编辑
摘要: Transformation算子只会记录RDD的转换过程但不会真正执行,只有遇到Action算子才会从头依次执行前面的算子。 阅读全文
posted @ 2019-08-25 22:03 会走的树 阅读(762) 评论(0) 推荐(0) 编辑
摘要:  阅读全文
posted @ 2019-08-25 22:02 会走的树 阅读(114) 评论(0) 推荐(0) 编辑
摘要:  piplines的使用 取消setings.py文件内管道的注释,开启数据管道,使得爬取到的数据可以传送过来。 初始代码解释 利用重写spider的方法实现功能 多个管道处理实现数据流水线处理 创建SpiderdmPipeline_1类 注册SpiderdmPipeline_1类并设置与资源调度 阅读全文
posted @ 2019-08-25 21:50 会走的树 阅读(175) 评论(0) 推荐(0) 编辑
摘要:  设置控制台打印的Log等级 在在爬虫主文件写爬取代码,使用scrapy.Request请求。 运行爬虫结果 使用scrapy.FormRequest请求。 运行结果相同。 两种请求方式的应用场景 scrapy.Request:主要应用GET网页数据时应用。 scrapy.FormRequest: 阅读全文
posted @ 2019-08-25 21:50 会走的树 阅读(272) 评论(0) 推荐(0) 编辑
摘要:  安装说明 scrapy安装需要安装一些第三方依赖库,依赖库的安装与需要和Python版本,Windows位数,所需的电脑插件有关。 参考信息:Python3.6,Windows10 64位 相关软件下载: 链接:https://pan.baidu.com/s/1Vzx8GGeojmUzMSZEx 阅读全文
posted @ 2019-08-25 21:49 会走的树 阅读(355) 评论(0) 推荐(0) 编辑