1.第一次作业

1.列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系,以图呈现并加以文字描述。

  Hadoop生态包括YARN、Zookeeper、HBase、Hive、Pig、Mahout、Sqoop、Flume、Ambari等功能组件,并且以HDFS和MapReduce为核心。

 

 

 

HDFS

它是Hadoop分布式文件系统HDFS是针对谷歌分布式文件系统的开源实现,它是Hadoop两大核心组成部分之一,提供了在廉价服务器集群中进行大规模分布式文件存储的能力,同时它具有很好的容错能力,并且兼容廉价的硬件设备。

 

 

 

 

 

 

MapReduce 

MapReduce是一种分布式并行编程模型,用于大规模数据集的并行运算,它将复杂的、运行于大规模集群上的并行计算过程高度抽象为两个函数Map和Reduce。MapReduce极大地方便了分布式编程工作,编程人员在不会分布式编程的情况下,也可以很容易地将自己的程序运行在分布式系统上,完成海量数据集的计算。

 

 

 

YARN

YARN是负责集群资源调度管理的组件,它的目标是实现一个集群多个框架,即在一个集群上部署一个统一的资源调度管理框架YARN。

 

 

 

HBase

HBase是针对谷歌BIGTable的开源实现,是一个高可靠、高性能、面向列、可伸缩的分布式数据库,主要用来存储非结构化和半结构化的松散数据,同时它支持超大规模数据存储,它可以通过水平扩展的方式,利用廉价计算机集群处理有超过10亿行数据和数百万列元素组成的数据表。

 

 

 

Hive

Hive是一个基于Hadoop的数据仓库工具,可以用于对存储在Hadoop文件中的数据集进行数据整理、特殊查询和分析处理。

 

Flume

Flume是Cloudera公司开发的一个高可用的、高可靠的、分布式的海量日志采集、聚合和传输系统,它支持在日志系统中定制各类数据发送方,用于收集数据,同时,提供对数据的简单处理,并将处理后的数据传输到各种数据接受方的能力。

 

Sqoop

Sqoop是SQL-to-Hadoop的缩写,主要用来在Hadoop和关系数据库之间交换数据,可以改进数据的互操作性。

 

2.对比Hadoop与Spark的优缺点。

Hadoop 虽然已成为大数据技术的事实标准,但其本身还存在诸多缺陷,最主要的缺展MapRctace计算模型延迟过高,无法胜任实时、快速计算的需求,因而只适用于离线批处理的感场景。总体而言,Hadoop中的MapReduce计算框架主要存在以下缺点。
第一,表达能力有限。计算都必须转化成Map和Reduce两个操作,但这并不适合所有的情况难以描述复杂的数据处理过程。
第二,磁盘L/O开销大。每次执行时都需要从磁盘读取数据,并且在计算完成后需要将中间结写入到磁盘中,I/O开销较大。
第三,延迟高。一次计算可能需要分解成一系列按顺序执行的MapReduce任务,任务之间的由于涉及I/O开销,会产生较高延迟。而且,在前一个任务执行完成之前,其他任务开始,因此,难以胜任复杂、多阶段的计算任务。

Spark 在借鉴MapReduce 优点的同时,很好地解决了MapReduce所面临的问题。相MapReduce,Spark 主要具有如下优点。
Spark的计算模式也属于MapReduce,但不局限于Map和Reduce操作,还提供了多集操作类型,编程模型比MapReduce更灵活。
Spark提供了内存计算,中间结果直接存放到内存中,带来了更高的迭代运算效率。Spark基于DAG的任务调度执行机制,要优于MapReduce的迭代执行机制。

3.如何实现Hadoop与Spark的统一部署?

Spark正以其结构一体化、功能多元化的优势,逐新成为当今大数据领域热门的大数据计算平台。Spark作为计算框架,只是取代了Hadoop生态系统中的计算框架MapReduce,而Hadoop中的其他组件依然在企业大数据系统中发挥着重要的作用,因此,Hadoop和Spark的统一部署是一种比较现实合理的选择。由于MapReduce、Storm和Spark等都可以运行在资源管理框架YARN上,因此,可以在YARN上统一部署各个计算框架,这些不同的计算框架统一运行在YARN中可以带来如下好处:

第一,计算资源按需伸缩。

第二,不同负载应用混搭,集群利用率高;

第三,共享底层存储,避免数据跨集群迁移。

 

posted @   LINwenguan  阅读(120)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· Docker 太简单,K8s 太复杂?w7panel 让容器管理更轻松!
点击右上角即可分享
微信分享提示