摘要: 大数据的学习告一段落,今天是大数据近些日子的最后一篇。 这篇主要是一个思路,并没有代码啥的,也是将所学的东西,进行一个小的应用。 最后希望大家都可以学习到东西,还是那句话,不懂就问我 点击流数据即指用户访问网站时的所有访问、浏览、点击行为数据。比如点击了哪一个链接,在哪个网页停留时间最多,采用了哪个 阅读全文
posted @ 2021-06-26 11:42 泷十三 阅读(388) 评论(0) 推荐(0) 编辑
摘要: hive完事了 今天辅助系统 三个组件 数据采集flume 任务调度 oozie 数据导出 sqoop 除了hdfs+mapreduce+hive组成分析系统的核心之外,还需要数据采集、结果数据导出、任务调度等不可或缺的辅助系统, 任务调度 oozie Azkaban 工具对比 最终拿到数据展现出来 阅读全文
posted @ 2021-06-24 15:47 泷十三 阅读(185) 评论(0) 推荐(0) 编辑
摘要: 啥是hive?为啥学习它? Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。 因为直接使用MapReduce实现复杂查询逻辑开发难度格外的大,使用Hive能够使用类SQL语法,提供效率。 有这么些个特点:可扩展(自由扩展规模),可延展( 阅读全文
posted @ 2021-06-24 11:13 泷十三 阅读(419) 评论(0) 推荐(0) 编辑
摘要: 为啥要学Spark中的RDD?? RDD的全称叫做Resilient Distributed Datasets,即弹性分布式数据集。 之前我们学过MapReduce,它具有自动容错、平衡负载和可拓展性的优点,但是其最大缺点是采用非循环式的数据流模型,使得在迭代计算式要进行大量的磁盘IO操作。Spar 阅读全文
posted @ 2021-06-24 08:34 泷十三 阅读(244) 评论(0) 推荐(0) 编辑
摘要: 为啥学spark 中间结果输出:基于MapReduce的计算引擎通常会将中间结果输出到磁盘上,进行存储和容错。出于任务管道承接的,考虑,当一些查询翻译到MapReduce任务时,往往会产生多个Stage,而这些串联的Stage又依赖于底层文件系统(如HDFS)来存储每一个Stage的输出结果 Spa 阅读全文
posted @ 2021-06-22 17:58 泷十三 阅读(182) 评论(0) 推荐(0) 编辑
摘要: 为啥学scala 因为简单,清晰,在windows下可以很直观的表现 安装JDK 安装Scala(一直下一步就行) windows下安装 不会的看这篇文章 windows下scala安装 linux下安装 解包:tar -zxvf scala-2.11.8.tgz 配置环境变量 vim /etc/p 阅读全文
posted @ 2021-06-22 13:37 泷十三 阅读(102) 评论(0) 推荐(0) 编辑
摘要: 什么是yarn?什么是yarn?如果你想知道什么是yarn的话,我马上带你去研究! yarn,全名:Yet Another Resource Negotiator,中文名:另一种资源协调者 它是hadoop集群的资源管理系统,从hadoop的第二个版本引入,yarn是新的hadoop资源管理器,因为 阅读全文
posted @ 2021-06-21 11:51 泷十三 阅读(371) 评论(0) 推荐(0) 编辑
摘要: 这篇文章一共说了三个方面:Zookeeper分布式部署、 与集群交流shell操作、与集群交流Java API操作 1.Zookeeper分布式部署 搭建在很多台虚拟机上,就像是上一篇文章所说,需要有奇数个服务器才能投票,所以我们用2N+1台服务器来组成,所以我们就用3台就好啦 ①下载zookeep 阅读全文
posted @ 2021-06-17 18:55 泷十三 阅读(200) 评论(0) 推荐(0) 编辑
摘要: 今天引入zooKeeper,来解决一些问题 首先还是那个问题?我们为啥学zooKeeper? 为了解决高可用性,保证出现故障正常使用,在hadoop中的namenode有第二备份,什么时候告诉客户端namenode变了,变成什么了,这时候就需要工具来进行协调 为了再次解决高可用性,这个工具不能挂掉没 阅读全文
posted @ 2021-06-17 14:42 泷十三 阅读(161) 评论(0) 推荐(0) 编辑
摘要: MapReduce对于大数据来说就是一个特别简单的青铜时代,现在我们可能用到的并不多,但是还要学一些,MapReduce用来处理分布式并行计算 对为什么MapReduce被淘汰想了解一些的可以看以下这个 mapreduce为什么被淘汰了? MapReduce是Hadoop系统核心组件之一,它是一种可 阅读全文
posted @ 2021-06-16 20:30 泷十三 阅读(218) 评论(0) 推荐(0) 编辑