摘要: ## 一、任务目标 针对一个文本的内容,提取其中的所有单词并去重 文本去重前 ![文本](https://img2023.cnblogs.com/blog/2119256/202308/2119256-20230811091738709-204887536.png) 去重后 ![去重后](https 阅读全文
posted @ 2022-04-06 15:03 王舰 阅读(459) 评论(0) 推荐(0) 编辑
摘要: ## 一、问题描述 ![在这里插入图片描述](https://img2023.cnblogs.com/blog/2119256/202308/2119256-20230811093115707-2147056981.png) ## 二、问题分析 之前都是写完程序后直接打包到集群上运行的,这样确实有点 阅读全文
posted @ 2022-04-06 15:02 王舰 阅读(499) 评论(0) 推荐(0) 编辑
摘要: ## 一、问题描述 本地运行MapReduce程序并不能像在集群上那样输出日志信息,而且还回报log4j的警告 ![在这里插入图片描述](https://img2023.cnblogs.com/blog/2119256/202308/2119256-20230811093205485-1756444 阅读全文
posted @ 2022-04-06 15:02 王舰 阅读(125) 评论(0) 推荐(0) 编辑
摘要: ## 一、MapReduce介绍 MapReduce是一个`分布式计算框架`,可以部署在Hadoop、Spark等大数据平台上,实现海量数据的并行计算。它采用“`分而治之`”的思想,将一个计算任务交给集群中的多台机器共同完成,之后再汇总成最终结果。 一般来说读取一个TB,PB级的文件,普通计算机的速 阅读全文
posted @ 2022-04-06 15:00 王舰 阅读(1337) 评论(0) 推荐(0) 编辑
摘要: ## 一、集群描述 主机:CentOS7.8 jdk1.8 hadoop、hive、hbase、zookeeper:CDH5.14.2 ||namenode|datanode1|datanode2| |--|--|-|-| |NameNode|✔(主)|✔(备)|✘| |DataNode|✔|✔|✔ 阅读全文
posted @ 2022-04-06 14:59 王舰 阅读(6756) 评论(1) 推荐(1) 编辑
摘要: ## Github项目链接: [https://github.com/Pineapple666/TaobaoSpider](https://github.com/Pineapple666/TaobaoSpider) ## 一、问题描述 我一开始写爬虫的时候,数据用的是Linux虚拟机的`mysql5 阅读全文
posted @ 2022-04-06 14:58 王舰 阅读(475) 评论(0) 推荐(0) 编辑
摘要: 今天在DEBUG的时候又出现了一个问题,用Scrapy下载图片,需要重写ImagesPipeline类的item_completed方法。 书上代码如下: ```python def item_completed(self, results, item, info): image_paths = [ 阅读全文
posted @ 2022-04-06 14:50 王舰 阅读(443) 评论(0) 推荐(0) 编辑
摘要: ## 一、前言 大概是一个月前就开始做淘宝的爬虫了,从最开始的用selenium用户配置到selenium模拟登录,再到这次的post请求模拟登录。一共是三篇博客,记录了我爬取淘宝网的经历。期间也有朋友向我提出了不少问题,比如滑块失败,微博登录失败等,可以说用selenium模拟登录这方面,坑特别多 阅读全文
posted @ 2022-04-06 14:49 王舰 阅读(1764) 评论(5) 推荐(0) 编辑
摘要: ## 一、前言 Github源码链接:[https://github.com/Python3WebSpider/GithubLogin](https://github.com/Python3WebSpider/GithubLogin) 崔庆才:[https://cuiqingcai.com/8229 阅读全文
posted @ 2022-04-06 14:48 王舰 阅读(305) 评论(0) 推荐(0) 编辑
摘要: ![在这里插入图片描述](https://img2023.cnblogs.com/blog/2119256/202308/2119256-20230811093402601-1082738617.png) [承接上一篇博客,直接上代码,解析请看上篇。](https://blog.csdn.net/p 阅读全文
posted @ 2022-04-06 14:46 王舰 阅读(74) 评论(0) 推荐(0) 编辑