大数据概述

------------恢复内容开始------------

1.列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系，以图呈现并加以文字描述。

Hadoop是一个能够对大量数据进行分布式处理的软件框架。Hadoop的核心是HDFS和MapReduce,HDFS还包括YARN。

HDFS是Hadoop体系中数据存储管理的基础，它是一个高度容错的系统，能检测和应对硬件故障，用于在低成本的通用硬件上运行，通过流式数据访问，提供高吞吐量应用程序数据访问功能。

Mapreduce是一种分布式计算模型，用于进行处理大数据量的计算，其中map对应数据集上的独立元素进行指定的操作，生成键-值对形式中间，reduce则对中间结果中相同的“键”的所有的“值”进行规约，以得到最终结果。

HBase是一个建立在HDFS之上，针对结构化数据的可伸缩，高可靠，高性能，分布式和面向列的动态模式数据库。和传统关系型数据库不同，HBase采用了bigtable的数据模型：增强了系数排序映射表（key/value）。其中，键由行关键字，列关键字和时间戳构成，HBase提供了对大规模数据的随机，实时读写访问，同时，HBase中保存的数据可以使用Mapreduce来处理，它将数据存储和并行计算完美地结合在一起。

Zookeeper（分布式协作服务）解决分布式环境下的数据管理问题：统一命名，状态同步，集群管理，配置同步等

Sqoop为数据同步工具是sql-to-hadoop的缩写，主要用于传统数据库和hadoop之间的传输数据。数据的导入和导出本质上是Mapreduce程序，充分利用了MR的并行化和容错性。

Pig（基于hadoop的数据流系统）定义了一种数据流语言-pig latin,将脚本转换为Mapreduce任务在hadoop上执行。通常用于离线分析。

Flume（日志收集工具）cloudera开源的日志收集系统，具有分布式，高可靠，高容错，易于定制和扩展的特点。它将数据从产生，传输，处理并写入目标的路径的过程抽象为数据流，在具体的数据流中，数据源支持在flume中定制数据发送方，从而支持收集各种不同协议数据。

Mahout现已包含聚类/分类/推荐引擎和频繁集挖掘等广泛使用的数据挖掘方法，还包括数据的输入输出工具等等。

2.对比Hadoop与Spark的优缺点。

Hadoop，是分布式管理、存储、计算的生态系统；包括HDFS（存储）、MapReduce（计算）、Yarn（资源调度）。Spark，是分布式计算平台，是一个用scala语言编写的计算框架，基于内存的快速、通用、可扩展的大数据分析引擎。

（1）Spark对标于Hadoop中的计算模块MR，但是速度和效率比MR要快得多；

（2）Spark没有提供文件管理系统，所以，它必须和其他的分布式文件系统进行集成才能运作，它只是一个计算分析框架，专门用来对分布式存储的数据进行计算处理，它本身并不能存储数据；

（3）Spark可以使用Hadoop的HDFS或者其他云数据平台进行数据存储，但是一般使用HDFS；

（4）Spark可以使用基于HDFS的HBase数据库，也可以使用HDFS的数据文件，还可以通过jdbc连接使用Mysql数据库数据；Spark可以对数据库数据进行修改删除，而HDFS只能对数据进行追加和全表删除；

（5）Spark数据处理速度秒杀Hadoop中MR；

（6）Spark处理数据的设计模式与MR不一样，Hadoop是从HDFS读取数据，通过MR将中间结果写入HDFS；然后再重新从HDFS读取数据进行MR，再刷写到HDFS，这个过程涉及多次落盘操作，多次磁盘IO，效率并不高；而Spark的设计模式是读取集群中的数据后，在内存中存储和运算，直到全部运算完毕后，再存储到集群中；

（7）Spark是由于Hadoop中MR效率低下而产生的高效率快速计算引擎，批处理速度比MR快近10倍，内存中的数据分析速度比Hadoop快近100倍（源自官网描述）；

（8）Spark中RDD一般存放在内存中，如果内存不够存放数据，会同时使用磁盘存储数据；通过RDD之间的血缘连接、数据存入内存中切断血缘关系等机制，可以实现灾难恢复，当数据丢失时可以恢复数据；这一点与Hadoop类似，Hadoop基于磁盘读写，天生数据具备可恢复性；

（9）Spark引进了内存集群计算的概念，可在内存集群计算中将数据集缓存在内存中，以缩短访问延迟，对7的补充；

（10）Spark中通过DAG图可以实现良好的容错；

（11）Hadoop适合处理离线的静态的大数据；Spark适合处理离线的流式的大数据；

（12）Hadoop适合处理静态数据，对于迭代式流式数据的处理能力差；Spark通过在内存中缓存处理的数据，提高了处理流式数据和迭代式数据的性能；

（13）Hadoop中中间结果存放在HDFS中，每次MR都需要刷写-调用，而Spark中间结果存放优先存放在内存中，内存不够再存放在磁盘中，不放入HDFS，避免了大量的IO和刷写读取操作；

（14）Hadoop中对于数据的计算，一个Job只有一个Map和Reduce阶段，对于复杂的计算，需要使用多次MR，这样涉及到落盘和磁盘IO，效率不高；而在Spark中，一个Job可以包含多个RDD的转换算子，在调度时可以生成多个Stage，实现更复杂的功能；

3.如何实现Hadoop与Spark的统一部署？

一方面，由于Hadoop生态系统中的一些组件所实现的功能，目前还是无法由Spark取代的，比如，Storm可以实现毫秒级响应的流计算，但是，Spark则无法做到毫秒级响应。

另一方面，企业中已经有许多现有的应用，都是基于现有的Hadoop组件开发的，完全转移到Spark上需要一定的成本。因此，在许多企业实际应用中，Hadoop和Spark的统一部署是一种比较现实合理的选择。

由于Hadoop MapReduce、HBase、Storm和Spark等，都可以运行在资源管理框架YARN之上，因此，可以在YARN之上进行统一部署。

可以带来以下好处：

（1）计算资源按需伸缩；

（2）不用负载应用混搭，集群利用率高；

（3）共享底层存储，避免数据跨集群迁移。

posted @ 2022-02-22 11:20 噗噗柚子√ 阅读(57) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· 3.Spark设计与运行原理，基本操作

· 7.Spark SQL

· 1.大数据概述

· 一、大数据概述

· 1.大数据概述

阅读排行：
· 震惊！C++程序真的从main开始吗？99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码？零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾（3.3-3.9）
· winform 绘制太阳，地球，月球运作规律

公告

昵称：噗噗柚子√
园龄： 3年
粉丝： 0
关注： 0

+加关注

2025年3月

日

一

二

三

四

五

六

大数据概述

公告

搜索

常用链接

随笔档案

阅读排行榜