泷十三

2021年6月26日

摘要：大数据的学习告一段落，今天是大数据近些日子的最后一篇。这篇主要是一个思路，并没有代码啥的，也是将所学的东西，进行一个小的应用。最后希望大家都可以学习到东西，还是那句话，不懂就问我点击流数据即指用户访问网站时的所有访问、浏览、点击行为数据。比如点击了哪一个链接，在哪个网页停留时间最多，采用了哪个阅读全文

posted @ 2021-06-26 11:42 泷十三阅读(477) 评论(0) 推荐(0)

2021年6月24日

flume 简单学习

摘要： hive完事了今天辅助系统三个组件数据采集flume 任务调度 oozie 数据导出 sqoop 除了hdfs+mapreduce+hive组成分析系统的核心之外，还需要数据采集、结果数据导出、任务调度等不可或缺的辅助系统，任务调度 oozie Azkaban 工具对比最终拿到数据展现出来阅读全文

posted @ 2021-06-24 15:47 泷十三阅读(221) 评论(0) 推荐(0)

hive的简单学习

摘要：啥是hive？为啥学习它？ Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。因为直接使用MapReduce实现复杂查询逻辑开发难度格外的大，使用Hive能够使用类SQL语法，提供效率。有这么些个特点：可扩展（自由扩展规模），可延展（阅读全文

posted @ 2021-06-24 11:13 泷十三阅读(450) 评论(0) 推荐(0)

Spark RDD弹性分布式数据集

摘要：为啥要学Spark中的RDD？？ RDD的全称叫做Resilient Distributed Datasets，即弹性分布式数据集。之前我们学过MapReduce，它具有自动容错、平衡负载和可拓展性的优点，但是其最大缺点是采用非循环式的数据流模型，使得在迭代计算式要进行大量的磁盘IO操作。Spar 阅读全文

posted @ 2021-06-24 08:34 泷十三阅读(289) 评论(0) 推荐(0)

2021年6月22日

spark简单学习

摘要：为啥学spark 中间结果输出：基于MapReduce的计算引擎通常会将中间结果输出到磁盘上，进行存储和容错。出于任务管道承接的，考虑，当一些查询翻译到MapReduce任务时，往往会产生多个Stage，而这些串联的Stage又依赖于底层文件系统（如HDFS）来存储每一个Stage的输出结果 Spa 阅读全文

posted @ 2021-06-22 17:58 泷十三阅读(199) 评论(0) 推荐(0)

scala简单学习

摘要：为啥学scala 因为简单，清晰，在windows下可以很直观的表现安装JDK 安装Scala（一直下一步就行） windows下安装不会的看这篇文章 windows下scala安装 linux下安装解包：tar -zxvf scala-2.11.8.tgz 配置环境变量 vim /etc/p 阅读全文

posted @ 2021-06-22 13:37 泷十三阅读(114) 评论(0) 推荐(0)

2021年6月21日

yarn的简单学习

摘要：什么是yarn？什么是yarn?如果你想知道什么是yarn的话，我马上带你去研究！ yarn，全名：Yet Another Resource Negotiator，中文名：另一种资源协调者它是hadoop集群的资源管理系统，从hadoop的第二个版本引入，yarn是新的hadoop资源管理器，因为阅读全文

posted @ 2021-06-21 11:51 泷十三阅读(458) 评论(0) 推荐(0)

2021年6月17日

zookeeper分布式部署及简单操作

摘要：这篇文章一共说了三个方面：Zookeeper分布式部署、与集群交流shell操作、与集群交流Java API操作 1.Zookeeper分布式部署搭建在很多台虚拟机上，就像是上一篇文章所说，需要有奇数个服务器才能投票，所以我们用2N+1台服务器来组成，所以我们就用3台就好啦 ①下载zookeep 阅读全文

posted @ 2021-06-17 18:55 泷十三阅读(221) 评论(0) 推荐(0)

zookeeper简单学习

摘要：今天引入zooKeeper，来解决一些问题首先还是那个问题？我们为啥学zooKeeper？为了解决高可用性，保证出现故障正常使用，在hadoop中的namenode有第二备份，什么时候告诉客户端namenode变了，变成什么了，这时候就需要工具来进行协调为了再次解决高可用性，这个工具不能挂掉没阅读全文

posted @ 2021-06-17 14:42 泷十三阅读(204) 评论(0) 推荐(0)

2021年6月16日

MapReduce模型

摘要： MapReduce对于大数据来说就是一个特别简单的青铜时代，现在我们可能用到的并不多，但是还要学一些，MapReduce用来处理分布式并行计算对为什么MapReduce被淘汰想了解一些的可以看以下这个 mapreduce为什么被淘汰了？ MapReduce是Hadoop系统核心组件之一，它是一种可阅读全文

posted @ 2021-06-16 20:30 泷十三阅读(243) 评论(0) 推荐(0)

公告